Slide 1
1Slide
Universidad Diego Portales
Facultad de Economía
y Negocios
Martes 30 de Marzo, 2010
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 2
2Slide
Capítulo 3 Estadística Descriptiva: Métodos Numéricos
n Medidas de Localización
n Medidas de Variabilidad
n Medidas de localización Relativa y Detección de Outliers
n Análisis de Datos Exploratorio
n Medidas de Asociación entre dos Variables
n La Media Ponderada y Datos Agrupados
x
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 3
3Slide
Medidas de Localización
n Media
n Mediana
n Moda
n Percentiles
n Cuartiles
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 4
4Slide
Ejemplo: Renta de Apartamentos
Se presenta una muestra de valores de arriendo mensual ($) para departamentos de un ambiente. La muestra es de tamaño 70 en una ciudad particular. Los datos son presentados en orden ascendiente.
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 5
5Slide
Media
n La media de un conjunto de datos es el promedio de todos los valores de los datos.
n Si los datos son muestrales, denotamos a la media mediante
n Si los datos provienen de la población, denotamos a la media por m (mu).
xx
ni
x
Ni
x
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 6
6Slide
Ejemplo: Renta de Apartamentos
n Media
xx
ni
34 356
70490 80
,.
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 7
7Slide
Mediana
n La mediana es la medida de localización más frecuentemente usada para ingresos anuales y todo tipo de datos de valores de propiedad.
n Si existen algunos datos extremadamente grandes de ingreso o valores de propiedad, esto puede inflar a la mediana.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 8
8Slide
Mediana
n La mediana de un conjunto de datos es el valor que se encuentra justo en el medio cuando los datos se ordenan en orden ascendente.
n Para un número impar de observaciones, la mediana es también el valor de en medio.
n Para un número par de observaciones, la mediana es el promedio de los dos valores centrales.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 9
9Slide
Ejemplo: Renta de apartamentos
n Mediana, ¿Dónde se encontrará? ¡ En i !
Mediana = 50th percentil
i = (p/100)n = (50/100)70 = 35.5Promediando el valor 35vo y 36vo tenemos (n par) :
Mediana = (475 + 475)/2 = 475
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 10
10Slide
Moda
n La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia.
n La mayor frecuencia puede ocurrir en dos o más valores diferentes
n Si el conjunto de datos tiene exactamente dos modas, los datos se denominan bimodales.
n Si el conjunto de datos tiene más de dos modas, los datos se denominan multimodales.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 11
11Slide
Ejemplo: Renta de apartamentos
n Moda
450 es el valor que más se repite (7 veces)
Moda = 450
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 12
12Slide
Percentiles
n Un percentil provee información acerca de cómo se encuentran esparcidos los datos sobre un intervalo, desde el valor más pequeño hasta el más grande.
n Los puntajes de admisión a los colegios y universidades, por ejemplo, son comúnmente expresados en términos de percentiles.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 13
13Slide
n El pth percentil de un conjunto de datos es un valor tal que al menos un porcentaje p de los elementos toman dicho valor o menos, y al menos un porcentaje (100 - p) de los datos toman dicho valor o más.
• Primero hay que ordenar los datos de manera ascendente.
• Después computar el índice i, la posición del p-ésimopercentil.
i = (p/100)n
• Si i no es entero, redondear. El percentil p-ésimo es el valor que se encuentra en la i-ésimo posición.
• Si i es un entero, el percentil p-ésimo es el promedio de los valores en las posiciones i-ésima y (i+1) -ésima.
Percentiles
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 14
14Slide
Ejemplo: Renta de Apartamentos
n Encontremos el percentil 90vo
i = (p/100)n = (90/100)70 = 63
Promediando los valores 63vo y 64vo:
90vo Percentil = (580 + 590)/2 = 585
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 15
15Slide
Ejemplo: Renta de Apartamentos
¡Ahora es su turno! Calcule (Por ½ Puntos en Control)
a) 10 percentil
b) 30 Percentil
c) 50 Percentil
d) 60 Percentil
e) 80 Percentil
Recuerde, i = (p/100)n
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 16
16Slide
Cuartiles
n Los Cuartiles son únicamente percentiles con valores específicos
n Primer Cuartil = 25th Percentil
n Segundo Cuartil = 50th Percentil = Mediana
n Tercer Cuartil = 75th Percentil
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 17
17Slide
Ejemplo: Renta de Apartamentos
n Tercer Cuartil
Tercer Cuartil = 75th percentil
i = (p/100)n = (75/100)70 = 52.5 = 53
Tercer Cuartil = 525
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 18
18Slide
Ejemplo: Renta de Apartamentos
¡Ahora es su turno! Calcule
a) Primer Cuartil
b) Segundo Cuartil
Recuerde, i = (p/100)n
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 19
19Slide
Medidas de Variabilidad
n Muchas veces es deseable considerar medidas de variabilidad o de dispersión, así como medidas de localización.
n Por ejemplo, al escoger un proveedor A o un proveedor B, podríamos querer considerar no solo el promedio de tiempos de entrega de insumos que tiene cada uno, sino cuanto varían, en promedio, sus entregas de insumos.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 20
20Slide
Medidas de Variabilidad
n Rango
n Rango Intercuartil
n Varianza
n Desviación Estándar
n Coeficiente de Variación
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 21
21Slide
Rango
n El rango de un conjunto de datos es la diferencia entre el valor más grande y el valor más chico.
n Es la medida más simple de variabilidad.
n Es muy sensible en relación a los valores muy grandes, o muy pequeños, de los datos.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 22
22Slide
Ejemplo: Renta de apartamentos
n Rango
Rango = Mayor Valor – Menor Valor
Rango = 615 - 425 = 190
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 23
23Slide
Rango Intercuartil
n El Rango Intercuartil de un conjunto de datos es la diferencia entre el tercer y el primer cuartil.
n Es el rango para el 50% de los datos centrales.
n Ventaja: supera la sensibilidad en relación a valores extremos.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 24
24Slide
Ejemplo: Renta de Apartamentos
n Rango Intercuartil
3er Cuartil (Q3) = 525
1er Cuartil (Q1) = 445
Rango Intercuartil = Q3 - Q1 = 525 - 445 = 80
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 25
25Slide
Varianza
n La varianza es una medida de variación que utiliza toda la información proveniente de los datos.
n Se encuentra basada en la diferencia entre el valor de cada observación (xi) y media (x en una muestra, para la población).
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 26
26Slide
Varianza
n La varianza es el promedio de las diferencias cuadradas entre cada valor de los datos y su media.
n Si los datos son muestrales, denotamos a la varianza mediante s2.
n Si los datos son poblacionales , denotamos a la varianza mediante 2.
sxi x
n
22
1
( )
2
2
( )x
Ni
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 27
27Slide
Desviación Estándar
n La desviación estándar de un conjunto de datos es la raíz cuadrada positiva de la varianza.
n Se mide en las mismas unidades que los datos, lo que la hace más intuitiva y fácil de interpretar, que la varianza.
n Si los datos son muestrales, la desviación estándar se denota mediante s.
n Si los datos son poblacionales, la desviación estándar se denota mediante (sigma).
s s 2
2
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 28
28Slide
Coeficiente de Variación
n El coeficiente de variación indica que tan grande es la desviación estándar con relación a la media.
n Si los datos son muestrales, el coeficiente de variación se computa de la siguiente forma:
n Si los datos son poblacionales, el coeficiente de variación se computa de la siguiente forma :
s
x( )100
( )100
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 29
29Slide
Ejemplo: Renta de apartamentos
n Varianza
n Desviación Estándar
n Coeficiente de Variación
sxi x
n
22
12 996 16
( ), .
s s 2 2996 47 54 74. .
s
x 100
54 74
490 80100 1115
.
..
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 30
30Slide
¡Su Turno!: Datos de Coeficiente Intelectual
n Varianza
n Desviación Estándar
n Coeficiente de Variación
1
2)(2
n
xix
s
2ss
100x
s
114 99 131 124 117
102 106 127 119 115
98 104 144 151 132
106 125 122 118 118
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 31
31Slide
¡Su Turno!: Datos de Coeficiente Intelectual
n Varianza
n Desviación Estándar
n Coeficiente de Variación
1
2)(2
n
xix
s
2ss
100x
s
78 99 122 118
102 106 112 119
98 109 144 151
103 124 122 162
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 32
32Slide
Medidas de Localización Relativa y Detección de Outliers
n Valores z
n Teorema de Chebyshev
n Regla Empírica
n Detección de Outliers
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 33
33Slide
Valores z
n Los Valores z son llamados a veces valores estandarizados.
n Es un número que denotan a cuántas desviaciones estándar se encuentra un valor xi de la media.
n Si el valor del dato es Menor que la media muestral, tendrá un Valor z Menor a cero (Negativo).
n Si el valor del dato es Mayor que la media muestral, tendrá un Valor z Mayor a cero (Positivo).
n Un valor igual a la media tendrá un Valor z de cero.
zx x
si
i
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 34
34Slide
n Valores z para el valor más pequeño (425)
Valores z para todos los datos de nuestro ejemplo:
zx x
si
425 490 80
54 741 20
.
..
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20
-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35
0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
Ejemplo: Renta de apartamentos
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 35
35Slide
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
¡Su Turno! Calcule los Valores Z para los valores marcados con Rojo de nuestro ejemplo
Respuesta (-0.93, -0.01, 1.99, -0.56, -0.20)
s
xxz i
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 36
36Slide
Teorema de Chebyshev
Dice que por lo menos (1 - 1/k2) de los elementos en cualquier conjunto de datos se encontrará a k desviaciones estándar de la media. Aquí, k es cualquier valor mayor a 1.
• Por lo menos el 75% de los elementos se encontrarán alrededor de k = 2 desviaciones estándar de la media.
• Por lo menos el 89% de los elementos se encontrarán alrededor de k = 3 desviaciones estándar de la media.
• Por lo menos el 94% de los elementos se encontrarán alrededor de k = 4 desviaciones estándar de la media.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 37
37Slide
Ejemplo: Renta de Apartamentos
n Teorema de Chebyshev
Sea k = 1.5 con = 490.80 y s = 54.74
Por lo menos (1 - 1/(1.5)2) = 1 - 0.44 = 0.56 o 56%
de los valores de arriendo deben estar alrededor de
- k(s) = 490.80 - 1.5(54.74) = 409
y
+ k(s) = 490.80 + 1.5(54.74) = 573x
x
x
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 38
38Slide
n Teorema de Chebyshev (continúa…)
En realidad, el 86% (los primeros 60 valores con n=70) de los valores de arriendo están entre 409 y 573.
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
Ejemplo: Renta de Apartamentos
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 39
39Slide
Regla Empírica
Para datos con distribuciones en forma de campana:
• Aproximadamente el 68% de los datos están alrededor de una desviación estándar de la media.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 40
40Slide
Regla Empírica
Para datos con distribuciones en forma de campana :
• Aproximadamente el 95% de los datos están alrededor de dos desviaciones estándar de la media.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 41
41Slide
Regla Empírica
Para datos con distribuciones en forma de campana:
• Casi todos (99.7%) de los datos están alrededor de tres desviaciones estándar de la media.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 42
42Slide
Ejemplo: Renta de apartamentos
n Regla Empírica
Intervalo % en Intervalo
Alrededor +/- 1s 436.06 a 545.54 48/70 = 69%
Alrededor +/- 2s381.32 a 600.28 68/70 = 97%
Alrededor +/- 3s326.58 a 655.02 70/70 = 100%
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 43
43Slide
Detectando Outliers
n Un outlier es un valor inusualmente pequeño o grande en un grupo de datos.
n Un dato con un valor z menor a -3 o mayor que +3 puede ser considerado un outlier.
n Puede tratarse de un dato que ha sido incorrectamente capturado, escrito o digitalizado.
n Puede ser un dato perteneciente a otro grupo de datos, y erróneamente incluido en el conjunto de datos en el que estamos trabajando.
n O puede ser un dato correcto que sí, efectivamente, corresponde a nuestro conjunto de datos de interés!
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 44
44Slide
Ejemplo: Renta de Apartamentos
n Detectando Outliers
Los valores z más extremos son -1.20 y 2.27.
Usando la regla de |z| > 3 como criterio para la detección de outliers, no tenemos outliers en nuestro conjunto de datos
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20
-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35
0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 45
45Slide
Análisis de Datos Exploratorio
n Resumen de 5-números
n Box Plot
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 46
46Slide
Resumen de 5-números
n Valor menor
n Primer Cuartil
n Mediana
n Tercer Cuartil
n Valor Mayor
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 47
47Slide
Ejemplo: Renta de Apartamentos
n Resumen de 5-números
Valor Menor = 425 Primer Cuartil = 450
Mediana = 475
Tercer Cuartil = 525 Valor Mayor = 615
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 48
48Slide
Box Plot
n Se dibuja una caja cuyas puntas terminan en el primer y tercer cuartil
n Se dibuja una línea vertical en la caja en la localización de la mediana.
n Los límites se encuentran (no se dibujan) usando el Rango Intercuartil (IQR).
• El límite inferior se localiza 1.5(IQR) debajo de Q1.
• El límite superior se localiza 1.5(IQR) arriba de Q3.
• Todos los datos que se encuentran fuera de dichos límites son considerados outliers.
… continúa
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 49
49Slide
Box Plot (Continúa…)
n Se dibujan líneas puntuadas desde las esquinas de la caja y hasta el valor más pequeño y más grande que existan dentro de los límites.
n La localización de cada outlier se muestra con el
símbolo * .
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 50
50Slide
Ejemplo: Renta de Apartamentos
n Box Plot
Límite Inferior: Q1 - 1.5(IQR) = 450 - 1.5(75) = 337.5
Límite Superior: Q3 + 1.5(IQR) = 525 + 1.5(75) = 637.5
No existen Outliers
375 400 425 4501er
475 500 5253er
550 575 600 625
mediana
Fuera de Rango, no dibujado
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 51
51Slide
Medidas de asociación entre dos Variables
n Covarianza
n Coeficiente de Correlación
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 52
52Slide
Covarianza
n La covarianza es una medida de la asociación lineal entre dos variables.
n Valores positivos de la covarianza indican una relación positiva entre las variables.
n Valores negativos de la covarianza indican una relación negativa entre las variables.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 53
53Slide
n Si los datos son muestrales, denotamos covarianza mediante sxy.
n Si los datos son poblacionales, denotamos covarianza mediante .
Covarianza
sx x y y
nxy
i i
( )( )
1
xyi x i yx y
N
( )( )
xy
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 54
54Slide
Coeficiente de Correlación
n El coeficiente puede tomar valores entre -1 y +1.
n Valores cerca de -1 indican una fuerte asociación lineal negativa.
n Valores cerca de +1 indican una fuerte asociación lineal positiva.
n Si los datos son muestrales, denotamos al coeficiente mediante rxy.
n Si los datos son muestrales, denotamos al coeficiente mediante .
rs
s sxy
xy
x y
xy
xy
x y
xy
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 55
55Slide
Ejemplos de Correlación
¡Sinusoide!
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 56
56Slide
La media ponderada y cómo trabajar con datos agrupados
n Media Ponderada
n Media para datos agrupados
n Varianza para datos agrupados
n Desviación Estándar para datos agrupados
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 57
57Slide
Media Ponderada
n Una Media Ponderada es cuando la media es calculada asignando a cada dato un peso específico que refleja su importancia dentro del grupo.
n El cálculo de una promedio de grados (GPA en USA), es un ejemplo del cálculo de una media ponderado. En ese caso, los pesos asignados son los números de horas-crédito ganados para cada nota.
n Cuando los datos varían en importancia, el analista debe escoger el peso que mejor refleje la importancia de cada valor.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 58
58Slide
Media Ponderada
x = wi xi
wi
Donde:
xi = Valor de la observación i
wi = Peso para la observación i
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 59
59Slide
Datos Agrupados
n El cálculo de Media Ponderada puede ser usado para obtener aproximaciones para la media, la varianza y la desviación estándar de datos agrupados.
n Para calcular la media ponderada, tratamos al punto medio de cada clase como si fuera la media de todos los elementos de dicha clase.
n Calculamos una media ponderada de los puntos medios de clase usando las frecuencias de clase como pesos.
n Similarmente, al calcular la varianza y la desviación estándar, las frecuencias de clase son usadas como pesos.
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 60
60Slide
n Datos Muestrales
n Datos Poblacionales
Donde:
fi = Frecuencia de la clase i
Mi = Punto medio de la clase i
Media para Datos Agrupados
i
ii
f
Mfx
N
Mf ii
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 61
61Slide
Ejemplo: Renta de Apartamentos
Abajo se muestran los mismos datos de rentas mensuales pero se presentan como datos agrupados en la forma de una distribución de frecuencias.
Renta ($) Frecuencia
420-439 8
440-459 17
460-479 12
480-499 8
500-519 7
520-539 4
540-559 2
560-579 4
580-599 2
600-619 6
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 62
62Slide
Ejemplo: Renta de Apartamentos
n Media para Datos Agrupados
Esta aproximación difiere $2.41 de la Media Real de $490.80
Renta ($) f i M i f iM i
420-439 8 429.5 3436.0
440-459 17 449.5 7641.5
460-479 12 469.5 5634.0
480-499 8 489.5 3916.0
500-519 7 509.5 3566.5
520-539 4 529.5 2118.0
540-559 2 549.5 1099.0
560-579 4 569.5 2278.0
580-599 2 589.5 1179.0
600-619 6 609.5 3657.0
Total 70 34525.0
x 34 525
70493 21
,.
i
ii
f
Mfx
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 63
63Slide
Varianza para Datos Agrupados
n Datos Muestrales
n Datos Poblacionales
sf M x
ni i2
2
1
( )
2
2
f M
Ni i( )
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
Slide 64
64Slide
Ejemplo: Renta de Apartamentos
n Varianza para Datos Agrupados
n Desviación Estándar para Datos Agrupados
Esta aproximación difiere solo $0.20
de la desviación estándar efectiva de $54.74 que encontramos anteriormente
s2 3 017 89 , .
s 3 017 89 54 94, . .
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________