of 12
8/18/2019 Clase Estadistica Descriptiva Multivariada
1/12
23/07/2007
PROBABILIDAD
HUMBERTO VILLALOBOS TORRESUNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍADEPARTAMENTO DE MATEMÁTICAS
Y ESTADÍSTICA
UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA
23/07/2007
Estadística Multivariada
• Existen Muchas Mediciones asociadas auna población.
– Carrera. – Satisfacción con la
Universidad. – Puntaje de Ingreso. – Número de hermanos. – Etc.
De laPoblación de
Alumnos
USM
23/07/2007
Estadística Multivariada
• Se cuenta con una matriz de Datos
23/07/2007
Estadística Multivariada
• Observar el comportamiento globalde los datos. – Establecer relaciones
– Establecer grupos
– Determinar patrones.
• Se Requieren herramientas
Computacionales especializadas
23/07/2007
Análisis ExploratorioMultivariado
• Matriz de Asociaciones
23/07/2007
Análisis ExploratorioMultivariado
• Matriz de Correlaciones. – Muestra la asociación lineal entre
pares de variables.
8/18/2019 Clase Estadistica Descriptiva Multivariada
2/12
23/07/2007
Organización de Datos
• La organización habitual es a travésde pares ordenados de datos.
23/07/2007
Organización de Datos• Análisis a través de la tabla
23/07/2007
Organización de Datos• Expresión en términos de Frecuencias
Relativas
23/07/2007
Organización de Datos• APLICACIÓN 1: Se realiza una encuesta a
profesionales que se desempeñan en cierta región,en la cual se miden las siguientes características:Cargo que ocupa, Sueldo que percibe y valor delautomóvil que posee, en miles de pesos.
,
23/07/2007
Organización de Datos
• APLICACIÓN 1: Se realiza una encuesta aprofesionales que se desempeñan …
23/07/2007
Organización de Datos
8/18/2019 Clase Estadistica Descriptiva Multivariada
3/12
23/07/2007
Organización de Datos
• Distribuciones Marginales.
23/07/2007
Organización de Datos• APLICACIÓN 1: Se realiza una encuesta a
profesionales que se desempeñan …
23/07/2007
Organización de Datos• APLICACIÓN 1: Se realiza una
encuesta a profesionales quese desempeñan …
23/07/2007
Organización de Datos• APLICACIÓN 2: Antes de construir una presa sobre
el Río Missouri, una empresa efectuó una serie depruebas para medir un flujo de agua (en miles degalones por minuto [Mg/m]) en tres de sus grandesramas: Sioux City, Yankton y Omaha. Losresultados de las pruebas fueron organizados en lasiguiente tabla:
,
23/07/2007
Organización de Datos
• APLICACIÓN 2: Antes de construir una presa sobre elRío Missouri, … Determine las distribucionesmarginales …
Histograma
0
50
100
150
Flujo de rios [Mg/m]
F r e c u e n c i a
,
23/07/2007
Organización de Datos• APLICACIÓN 3: Un Sociólogo dirigió una
investigación para determinar la incidencia de un tipodeterminado de crimen variaba entre las cuatroregión de mayor índice delictual. Los crímenes deinterés para el sociólogo son: asalto, robo hurto yhomicidio. La siguiente tabla presenta los resultadosen una muestra de 746, 918, 1527 y 854 crímenes parala región IV, V, Central, VIII, respectivamentedurante el último año.,
8/18/2019 Clase Estadistica Descriptiva Multivariada
4/12
8/18/2019 Clase Estadistica Descriptiva Multivariada
5/12
23/07/2007
Organización de Datos• APLICACIÓN 2: Antes de construir una presa sobre el
Río Missouri, … Compare el flujo de las ramas delos ríos …
,
23/07/2007
Organización de Datos• APLICACIÓN 3: Un Sociólogo dirigió una
investigación para determinar la incidencia …Determine las distribución condicional del tipo decrimen en la quinta región … central y compare
Asalto
Robo
Hurto
Homicidio
,
Asalto
Robo
Hurto
Homicidio
23/07/2007
Organización de Datos• APLICACIÓN 1: Se realiza una encuesta a
profesionales que se desempeñan …
23/07/2007
Organización de DatosGráfica deDispersión
Cargo
P r o m e d i o C o n d i c i o n a l a l C a r g o
0
1e6
2e6
3e6
4e6
5e6
6e6
Otros Ventas Administ rat ivo Ejecutivo Sub-Gerente Gerente
• Las Distancias en el Eje de los
Cargos son arbitrarias, Sólo dedebe tener Presente el orden dadoel tipo de escala.
23/07/2007
Organización de Datos
• Organización de Datos: – Distribuciones Marginales
• Se obtienen Indicadores por variable, segúnsea el tipo de escala de la variable.
– Distribuciones Condicionales• Se obtienen Indicadores por variable, según
sea el tipo de escala de la variable, envariables de interés.
• Mediante el uso adecuado de indicadores sepueden asociar variables.
23/07/2007
Organización de Datos yEstratificación• APLICACIÓN 4: Un estudio de una
administradora de fondos de pensiones acerca dela opción que toma el afiliado, con respecto altipo de fondo donde quiere mantener un mayorporcentaje de sus ahorros previsiones, y surespectivo nivel de ingresos (en miles de pesos)
8/18/2019 Clase Estadistica Descriptiva Multivariada
6/12
23/07/2007
Organización de Datos yEstratificación• APLICACIÓN 4: En este caso cada tipo de fondo
representa un estrato o grupo, de donde a travésde las distribuciones condicionales y marginales
se obtienen los indicadores necesarios:
23/07/2007
Organización de Datos yEstratificación• APLICACIÓN 4: Un estudio de una
administradora de ….
Utilizando la Marginal de Ingreso
23/07/2007
Organización de Datos yEstratificación• APLICACIÓN 4: Un estudio de una
administradora de ….
Utilizando la Marginal de Ingreso
23/07/2007
Asociación de Variables•Existe una Matriz de Datos
23/07/2007
Asociación de Variables
• Tipo de Escala de la Medición
– Cuantitativa
Discreta
Continua
Intervalar
ó Razón
– Cualitativa
Nominal
Ordinal
23/07/2007
Asociación de Variables
• Combinación entre Tipos de Escalas
– Nominal - Discreta• Comuna v/s Número de Atrasos
– Nominal - Continua• Comuna v/s % de Crédito
– Nominal - Ordinal• Comuna v/s Establecimiento educacional
– Nominal - Nominal• Comuna v/s Carrera
– Continua - Continua• Tiempo traslado v/s Tiempo dedicado al estudi0
8/18/2019 Clase Estadistica Descriptiva Multivariada
7/12
23/07/2007
Asociación de Variables
• Análisis Exploratorio de pares devariables.
– Gráficos Adecuados
• Análisis a través de Indicadores deasociación. – Asociación Monótona de Spearman
– Asociación Lineal de Pearson
23/07/2007
Indicadores de Asociación I
• Estadística de Asociación de Spearman – Es fundamental que los datos se
encuentren en al menos escala ordinal
– La aplicación más utilizada es datos noagrupados, sin embargo, bajo ciertasrestricciones se puede extender a datosagrupados
– Se basa en la relación entre los rangos dela variables
23/07/2007
Estadística de Spearman
• Tiene una estrecha relación con elcoeficiente de asociación de Pearson,que se verá más adelante.
2
2
1
61
( 1)
n
s i
i
r d n n
=
= −− ∑
2
( ) x y R R−• R x = Rango de la variable x.
• R y = Rango de la variable y.
23/07/2007
Estadística de Spearman• Rangear datos
Ordinales Continuos
61 12
8(64 1) sr = −
−6
1 48(64 1)
sr = −−
0,857 sr = 0,952 sr =
23/07/2007
Estadística de Spearman
• APLICACIÓN 1: Una Aproximación con datosagrupados en Tablas, para la aplicación de larealización de una encuesta a profesionales …
23/07/2007
Estadística de SpearmanGráfica de Dispersión
Cargo
P r o m e d i o C o n d i c i o n a l a l C a r g o
0
1e6
2e6
3e6
4e6
5e6
6e6
Otros Ventas AdministrativoEjecutivoSub-GerenteGerente
¡ Cuidado !
8/18/2019 Clase Estadistica Descriptiva Multivariada
8/12
23/07/2007
0,60 sr =
61 14
6(36 1) sr = − −
Estadística de Spearman
• Una Aproximación con datosagrupados en Tablas
23/07/2007
Estadística de Spearman• No muestra relaciones funcionales• Indica una asociación monótona
entre las variables.
– Siempre creciente – Siempre decreciente
• Se encuentra acotado en el intervalo[-1 ; 1] – Monótona creciente 1 – Monótona decreciente -1
• Cuidado con los empates de rangos
23/07/2007
Estadística de Spearman• APLICACIÓN 2: Antes de construir una presa
sobre el Río Missouri, una empresa efectuó :
,
• Es posible determinar mediante el uso delcoeficiente de Spearman, las relacionesmonótonas entre las ramas de río Missouri
23/07/2007
Estadística de Spearman• APLICACIÓN 2: Antes de construir una presa
sobre el Río Missouri, una empresa efectuó :
,
6 50,5( ; ) 1 0,40
8 63S r Y O
×= − =
×
6 12,5( ; ) 1 0,85
8 63
S r S O ×
= − =×
6 24( ; ) 1 0,71
8 63S r S Y
×= − =
×
23/07/2007
Indicadores de Asociación II
• Estadística de Asociación de Pearson – Muestra la relación lineal que existe entre
dos variables
– Es fundamental que los datos seancuantitativos continuos.
– Este coeficiente al igual que Spearman seencentra acotado en el intervalo [-1; 1]
• Lineal creciente 1
• Lineal decreciente -1
23/07/2007
Estadística de Pearson
• Es habitual que se utilice la gráfica dedispersión para visualizar el tipo derelación
8/18/2019 Clase Estadistica Descriptiva Multivariada
9/12
23/07/2007
Estadística de Pearson• Si la relación no es lineal, entonces no son
detectadas por este coeficiente.GRÁFICA DE DISPERSIÓN
0
20
40
6080
100
5 10 15 20 25X
Y
GRÁFICA DE DISPERSIÓN
0
10000
20000
30000
40000
12 17 22 27 32X
Y
GRÁFICA DEDISPERSIÓN
0
20
40
60
80
5 10 15 20 25X
Y
GRÁFICA DE DISPERSIÓN
-200
0
200
400
600
22 27 32 37X
Y
23/07/2007
n
i i
i p
n n
i i
i i
y y x x
r
y y x x
=
= =
=
∑
∑ ∑
1
2 22 2
1 1
( - ) ( - )
( - ) ( - )
Estadística de Pearson
• Asociación Lineal de Pearson
2 2 2 2
n
i i
i p
n n
i i
i i
y x n y x
r
y n y x n x
=
= =
=∑
∑ ∑
1
2 2
1 1
-
- -
23/07/2007
Estadística de Pearson
• Asociación Lineal de Pearson
( , ) p
x y
cov x yr
s s=
Desviaciones estándarde cada variable
Mide la relaciónlineal ente un par
de variables
1
n
i i
i
y y x x
covn
==−
∑ 1
( - ) ( - )
23/07/2007
Estadística de Pearson• APLICACIÓN 5: Considere la siguiente situación …
Tiempo Transporte
0
10
20
30
40
50
60
70
7 9 11 13 15 17 19 21 23
Tiempos de Transporte
% d
e C a p a c i d a d n o
U t i l i z a d a
23/07/2007
Estadística de Pearson
• APLICACIÓN 5: Considere la siguiente situación …
2T 400,491S =
0,7471 pr = −
T 15,609 x = 13,037C x =
2 17,634C S =
T 20,012S = 4,199C S =
T( ; T) 62,782 C Cov C S = − =
23/07/2007
Estadística de Pearson
• APLICACIÓN 6: Gastos Publicidad v/s Cantidad
10
14
18
22
26
7 9 11 13 15 17 19 21
P [M/US$]
Q
[ M / U S $ ]
8/18/2019 Clase Estadistica Descriptiva Multivariada
10/12
23/07/2007
Estadística de Pearson• APLICACIÓN 6: Gastos Publicidad v/s Cantidad
0,9684 pr =
2 12,267QS =
12,467 P x = 17,867Q x =
2 9,838 P S =
3,502QS =3,137 P S =
( ; ) 10,638 PQCov P Q S = =
23/07/2007
1
P
2
1
22
1
2
1
)-() - (
)-() - (
∑∑
∑ ∑
=••
=••
= =••
=q
j
j j
k
i
ii
k
i
q
j
jiij
xm f ym f
x x ym f
r
Estadística de Pearson
• Asociación Lineal de Pearson
2
1
2
1
1
- -
-
2222
1
P
∑∑
∑∑
=
••
=
••
=
••
==
q
j
j j
k
i
ii
k
i
jiij
q
j
xm f ym f
x ymm f
r
23/07/2007
Estadística de Pearson• APLICACIÓN 7: Se aplicó una cantidad
estrógeno (C en mg.) versus su edad ( E enaños)
2 39,393C S = 38,333 E =25,417C =2 167,225 E S =
23/07/2007
Estadística de Pearson• APLICACIÓN 7: Se aplicó una cantidad
estrógeno (C en mg.) versus su edad ( E en años)
15 20 7 15 30 1 ... 35 60 625,417 38,333
60
39,393 167,225 pr
× × + × × + + × × − ×=
×
23/07/2007
La idea de Pronosticar
• Al establecer un relación funcional entrevariables, se puede utilizar una para elpronóstico de la otra.
23/07/2007
Estimación de Parámetros
• Para estimar los parámetros de la función depronóstico, se busca minimizar los errorescuadráticos.
8/18/2019 Clase Estadistica Descriptiva Multivariada
11/12
23/07/2007
Estimación de Parámetros
• Minimización de errores cuadráticos
Modelo funcional entre
las variables
23/07/2007
Estimación de Parámetros
• Minimización de errores cuadráticos
Clara relacióncon el coeficiente
de Pearson
23/07/2007
Pronósticos en las variables
• Minimización de errores cuadráticos
23/07/2007
Pronósticos en la Cantidad• APLICACIÓN 6: Gastos Publicidad v/s Cantidad
10
14
18
22
26
7 9 11 13 15 17 19 21
P [M/US$]
Q
[ M / U S $ ]
0,9684 pr =
23/07/2007
Pronósticos en el estrógeno
• APLICACIÓN 7: Se aplicó una cantidad estrógeno(C en mg.) versus su edad ( E en años)
2660,0C S =
0,205 pr =
38,333 E =
25,417C =
2 167,225 E S =
660,0ˆ 25,417 0, 205 ( 38,333)
167,225i i y x= + × −
23/07/2007
Enfoque Matricial
• Se cuenta con una matriz de Datos
8/18/2019 Clase Estadistica Descriptiva Multivariada
12/12
23/07/2007
Enfoque Matricial
• Es posible determinar un vector de media – Cuidado con la característica de la unidad de
medición de la variable
• Es posible determinar una matriz devarianza y covarianza entre la variables – La covarianza es un indicador de el tipo de
asociación (positiva ó negativa) entre pares devariables
– Puede tomar cualquier valor en los reales
– Es un factor de importancia para Pearson ySpearman
23/07/2007
Enfoque Matricial
1
1
1=
1 p×
1
1X 1t
nµ =
1
2
1
=
p p
µ
µ
µ ×
1X 1t X
n=
1
2
1
=
p p
x
x
x×
23/07/2007
Enfoque Matricial
• Matriz de Varianza y Covarianza (
1 11
(X 1 X ) (X 1 X )1
t t t t t n n
n × ×∑ = − −
−21 21 1
212 2 2
21 2
p
p
p p p p p
s s s
s s s
s s s×
∑ =
• Es una matrizSimétrica
S 12 = S 21
• Es una matrizsemidefinidapositiva
23/07/2007
Enfoque Matricial
• Aplicación Matricial
23/07/2007
Herramientas de Excel
23/07/2007
Herramientas de Excel
ResultadoMatriz de
covarianzas