+ All Categories
Home > Documents > Correlacion y Modelos de Regresion Lineal

Correlacion y Modelos de Regresion Lineal

Date post: 27-Dec-2015
Category:
Upload: rogerfernandezhidalg
View: 87 times
Download: 1 times
Share this document with a friend
Popular Tags:
48
CORRELACION Y MODELOS DE REGRESION LINEAL V. Abraira Bibliografía: V. Abraira, A. Pérez de Vargas Métodos Multivariantes en Bioestadística. Ed. Centro de Estudios Ramón Areces. 1996. D.G. Kleinbaum, L.L. Kupper, K.E. Muller Applied Regression Analysis and Other Multivariables Methods. PWS-KENT Publishing Company. 1988. Generalización del concepto de fdp a variables multidimensionales La función densidad de probabilidad (fdp) para una variable aleatoria es una función a partir de la cual se puede calcular la probabilidad de los distintos valores de la variable. En el caso discreto: en el caso continuo: Esto se puede generalizar a más de una variable. Para n variables aleatorias X 1 , X 2 , ..., X n se llama fdp conjunta a una función n-dimensional f(x 1 ,x 2 ,...,x n ) a partir de la cual se puede calcular la probabilidad de los distintos valores de las variables. En el caso discreto: en el caso continuo: Del mismo modo que en el caso unidimensional estas funciones están sometidas a las condiciones: discreta
Transcript
Page 1: Correlacion y Modelos de Regresion Lineal

CORRELACION Y MODELOS DE REGRESION LINEAL

V. Abraira

Bibliografía:

V. Abraira, A. Pérez de VargasMétodos Multivariantes en Bioestadística.Ed. Centro de Estudios Ramón Areces. 1996.

D.G. Kleinbaum, L.L. Kupper, K.E. MullerApplied Regression Analysis and Other Multivariables Methods.PWS-KENT Publishing Company. 1988.

Generalización del concepto de fdp a variables multidimensionales

La función densidad de probabilidad (fdp) para una variable aleatoria es una función a partir de la cual se puede calcular la probabilidad de los distintos valores de la variable.

En el caso discreto:

en el caso continuo:

Esto se puede generalizar a más de una variable. Para n variables aleatorias X1, X2, ..., Xn se llama fdp conjunta a una función n-dimensional f(x1,x2,...,xn) a partir de la cual se puede calcular la probabilidad de los distintos valores de las variables.

En el caso discreto:

en el caso continuo:

Del mismo modo que en el caso unidimensional estas funciones están sometidas a las condiciones:

discreta

continua

Ejemplo 1: En una cierta población se definen dos variables discretas: X1= hipertensión arterial y X2= consumo excesivo de sal, ambas con los valores 0=no y 1=sí. La fdp conjunta podría ser

Page 2: Correlacion y Modelos de Regresion Lineal

X1

X2 0 1 0 0,4 0,1 1 0,3 0,2

f(0,0)=0,4 quiere decir que la probabilidad de que un individuo no sea hipertenso (X1=0) y no tenga un consumo excesivo de sal (X2=0) es 0,4. Obsérvese que la suma de los valores de la fdp es 1.

A partir de esta fdp se puede calcular p.e. la probabilidad de que un individuo sea hipertenso como 0,1+0,2=0,3.

En general dada una fdp conjunta (para simplificar la notación consideremos sólo dos variables X e Y) se pueden calcular las denominadas fdp marginales como

Caso discreto

Caso continuo

y simétricamente para la variable Y.

En el ejemplo anterior:

X1

X1 0 1 f2(X2) 0 0,4 0,1 0,5 1 0,3 0,2 0,5

f1(X1) 0,7 0,3

Se definen también las fdp condicionadas

que permiten calcular las respectivas probabilidades condicionadas.

En el ejemplo anterior se puede construir, p.e., la fdp de la hipertensión (X1) condicionada al consumo no excesivo de sal (X2=0).

X1

0 0,4/0,5=0,8 1 0,1/0,5=0,2

Obsérvese que como esto es una fdp, la suma de sus valores debe ser 1.

0,8 es la probabilidad de que un individuo no sea hipertenso dado que no tiene un consumo excesivo de sal

Page 3: Correlacion y Modelos de Regresion Lineal

Independencia de dos variables aleatorias

Dos v.a. X e Y se dice que son estocásticamente independientes si y sólo si f(x,y)=f1(x).f2(y). En caso contrario se dice que están correlacionadas.

¿Son independientes las variables del ejemplo anterior? Como f1(0)=0,7 y f2(0)=0,5 f1(0). f2(0)=0,35 no es igual a f(0,0)=0,4 no son independientes.

Según la definición de fdp condicionada, si X e Y son independientes

que coincide más con la idea intuitiva de independencia.

¿Cuándo diríamos que la hipertensión es independiente del consumo de sal? Cuando la probabilidad de ser hipertenso es la misma en los consumidores de sal: f(x1|X2=1), en los no consumidores: f(x1|X2=0) y en la población general: f1(x1).

En el ejemplo, la probabilidad de ser hipertenso en la población general f1(1)=0,3 y en los consumidores de sal f(X1=1|X2=1)=0,2/0,5=0,4 por lo tanto tampoco son independientes desde esta perspectiva (evidentemente, ya que ambas son equivalentes).

Diríamos que el consumo de sal y la hipertensión están correlacionados o asociados, o que la hipertensión depende del consumo de sal o, en terminología epidemiológica, que el consumo de sal es un factor de riesgo para la hipertensión. En cualquier caso, la correlación no implica dependencia causal.

El problema, en la práctica, es que no se suelen conocer las fdp's. A partir de una muestra sólo se puede obtener una estimación de la misma, además también se desean obtener estimaciones de la fuerza de la asociación.

Los modelos de regresión son modelos matemáticos de dependencia entre variables que permiten resolver ambos problemas. Hay tantos modelos como funciones matemáticas de dependencia se puedan concebir, los más usados son lineal, polinómico, logístico, de Poisson, ...

Función lineal

Page 4: Correlacion y Modelos de Regresion Lineal

Se llama función lineal de una variable, a una función de la forma

0: ordenada en el origen (valor de Y cuando X=0)

1: pendiente (cambio de Y al aumentar X en 1)

Modelo de regresión lineal simple

Es un modelo de regresión lineal entre dos variables

es un modelo probabilístico, que también se puede escribir

A la variable Y se la denomina variable dependiente y a X independiente.

Modelo I de regresión lineal se asume que

i) X no es una variable aleatoria.

ii) para cada valor xi de X existe una v.a. Y|xi cuya media está dada por el modelo.

iii) todas las variables Y|xi son normales, independientes y con igual varianza.

Ejemplo 2: Se quiere estudiar la asociación entre consumo de sal y tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después.

Variable X: gr. de sal diarios (no aleatoria)Variable Y: presión arterial en mm. de Hg

asumimos que para cada valor de X, Y no está determinada, sino que

Page 5: Correlacion y Modelos de Regresion Lineal

0 presión arterial media de los que no toman nada de sal.1 cambio de la media de presión arterial por aumentar 1 gr el consumo de sal, asumiendo que es constante. Si fuera 0, quiere decir que la presión no cambia con el consumo de sal, por tanto ambas variables son independientes, un valor distinto de cero indica que están correlacionadas y su magnitud mide la fuerza de la asociación.

A partir de una muestra aleatoria, la teoría estadística permite: i) estimar los coeficientes i del modelo (hay dos procedimientos: mínimos cuadrados y máxima verosimilitud que dan el mismo resultado).ii) estimar la varianza de las variables Y|xi llamada cuadrados medios del error y representada por s2 o MSE. A su raíz cuadrada se le llama error estándar de la estimación.iii) conocer la distribución muestral de los coeficientes estimados, tanto su forma (t) como su error estándar, que permite hacer estimación por intervalos como contrastes de hipótesis sobre ellos.

Ejemplo 3 : Para el diseño del ejemplo 2 una muestra produce los siguientes datos:

X (sal) Y (Presión) 1,8 100 2,2 98 3,5 110 4,0 110 4,3 112 5,0 120

La "salida" de un paquete estadístico es:

86,371 presión arterial media sin nada de sal.6,335 aumento de presión por cada gr de sal; como es distinto de 0 indica correlación. La pregunta es ¿podría ser 0 en la población? En términos de contrastes de hipótesis

H0 : 1 = 0H1 :1 0

según iii)

Page 6: Correlacion y Modelos de Regresion Lineal

aquí t=7,546 con un valor p=0,002

se rechaza H0.

Para hacer estimación por intervalos de la fuerza de la asociación o el efecto

en este ejemplo para 1 al 95%

6,335 2,776x0,840 = (4,004 8,666)

y del mismo modo se ha calculado en la salida anterior, aunque en general tiene menos interés, para 0

Interpretación del contraste 1 = 0

Si no se puede rechazar esta hipótesis, puede ocurrir que:i) el modelo sea inapropiado, bien porque las variables son independientes, bien porque la dependencia no sea lineal. Hay que investigar otros modelos.ii) se cometa error tipo II, el modelo es adecuado, pero el tamaño de la muestra es insuficiente. Hay que calcular la potencia.

Si se rechaza la hipótesis puede ocurrir que:i) el modelo es adecuadoii) se cometa error tipo Iiii) exista una relación no lineal, pero los datos son compatibles con un modelo lineal. Análisis de residuos.

Inferencias sobre la regresión

A veces interesa hacer inferencias sobre la propia regresión, es decir sobre Y|xi para cualquier valor de xi. Si a los valores xi de la muestra se les aplica la ecuación estimada, se obtiene una estimación de Y|xi

cuya distribución muestral también es conocida. A veces se representan los intervalos de confianza para la regresión en la denominada banda de confianza de la regresión. En la figura se presenta la banda de confianza para los datos del ejemplo 3

Page 7: Correlacion y Modelos de Regresion Lineal

Análisis de la varianza de la regresión

Es un modo alternativo de hacer contrastes sobre el coeficiente 1. Consiste en descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si no existe correlación ambos estimadores estimarían la varianza de Y y si la hay, no. Comparando ambos estimadores con la prueba de la F se contrasta la existencia de correlación. Para el ejemplo 3

Observese que el valor de p es igual que antes (son contrastes equivalentes) y el valor de F es el cuadrado del de t.

Ejemplo 4: Se quiere investigar el efecto de la ingestión masiva de vitamina C sobre el hígado de las cobayas. Se eligen dos grupos de 4 cobayas, a uno se le

Page 8: Correlacion y Modelos de Regresion Lineal

administra y al otro no. Se sacrifica a los animales y se mide la concentración de lípidos en el hígado.

Grupo control (=0)

Tratado (=1)

23,8 13,8 15,4 9,3 21,7 17,2 18,0 15,1

¿Hay diferencia entre ambos grupos?

Se podría plantear un contraste sobre medias con la t de Student.

También se puede plantear un modelo de regresión entre la variable grupo (X=0 control y X=1 tratado) y la variable lípido (Y)

Interpretar los coeficientes ¿Qué es mejor

Page 9: Correlacion y Modelos de Regresion Lineal

Modelo II de regresión lineal

Se asume que las variables X e Y son ambas variables aleatorias y que su fdp conjunta es normal bivariante.

La normal bivariante es una extensión a dos dimensiones de la normal univariante. Su representación gráfica es una campana tridimensional. Depende de 5 parámetros: x, y, x, y y que son respectivamente las medias, las desviaciones típicas de X e Y, y su coeficiente de correlación. Dicho coeficiente se define

como

Siendo el numerador la llamada covarianza

Las propiedades de la normal bivariante son:i) las fdps marginales son ambas normales con medias x, y y desviaciones típicas x, y respectivamente.ii) las fdps condicionadas f(y|x) son también normales con medias y varianzas

obsérvese que la media depende linealmente de x, es decir, también se puede escribir

iii) simétricamente las fdps f(x|y)

A partir de una muestra aleatoria se pueden estimar los coeficientes por los mismos procedimientos que en el modelo I y ¡¡se obtienen los mismos resultados!! Ahora, sin embargo, también se obtiene un estimador para el coeficiente de correlación (la "famosa" r) que no tiene sentido en el modelo I.

Page 10: Correlacion y Modelos de Regresion Lineal

Propiedades del coeficiente de correlación

i) número sin dimensiones entre -1 y 1. ii) si las variables son independientes =0. La inversa no es necesariamente cierta, aunque si las variables son normales bivariantes sí.iii) si las variables estuvieran relacionadas linealmente =1

Un contraste que interesa realizar en un modelo II es H0: =0. Como

este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque también hay tablas basadas en que una cierta transformación (de Fisher) de r se distribuye aproximadamente como una normal.

¿Qué mide r?

Se puede demostrar una relación algebraica entre r y el análisis de la varianza de la regresión de tal modo que su cuadrado (coeficiente de determinación) es la proporción de variación de la variable Y debida a la regresión. En este sentido, r2 mide el poder explicatorio del modelo lineal.

¿Qué no mide r?

- no mide la magnitud de la pendiente ("fuerza de la asociación")

- tampoco mide lo apropiado del modelo lineal

Page 11: Correlacion y Modelos de Regresion Lineal

Potencia de los contrastes en regresión

Los contrastes se realizan en base al conocimiento de la distribución muestral del estadístico usado. En el caso de la regresión, las distribuciones usadas son la normal (para r) y la t de Student (para los coeficientes). Sólo para la normal es fácil el cálculo de la potencia, pero sabemos que la t tiende asintóticamenta (para muestras grandes (>30 en la práctica) a la normal. Usaremos esto.

1- = p(rechazar Ho| Ho falsa)

Supongamos que

asumamos normalidad ¿qué potencia tiene el contraste si 1 fuera 5 (recordar que se necesita concretar H1)?

¿Cuándo rechazamos H0 al 95%?

Cuando

en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H0. Hay que calcular la probabilidad de encontrar

si 1 fuera 5. Calculamos

y lo miramos en la tabla de la normal 1- =0,512=51,2%

Propiedades del coeficiente de correlación

Page 12: Correlacion y Modelos de Regresion Lineal

i) número sin dimensiones entre -1 y 1. ii) si las variables son independientes =0. La inversa no es necesariamente cierta, aunque si las variables son normales bivariantes sí.iii) si las variables estuvieran relacionadas linealmente =1

Un contraste que interesa realizar en un modelo II es H0: =0. Como

este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque también hay tablas basadas en que una cierta transformación (de Fisher) de r se distribuye aproximadamente como una normal.

¿Qué mide r?

Se puede demostrar una relación algebraica entre r y el análisis de la varianza de la regresión de tal modo que su cuadrado (coeficiente de determinación) es la proporción de variación de la variable Y debida a la regresión. En este sentido, r2 mide el poder explicatorio del modelo lineal.

¿Qué no mide r?

- no mide la magnitud de la pendiente ("fuerza de la asociación")

- tampoco mide lo apropiado del modelo lineal

Page 13: Correlacion y Modelos de Regresion Lineal

Potencia de los contrastes en regresión

Los contrastes se realizan en base al conocimiento de la distribución muestral del estadístico usado. En el caso de la regresión, las distribuciones usadas son la normal (para r) y la t de Student (para los coeficientes). Sólo para la normal es fácil el cálculo de la potencia, pero sabemos que la t tiende asintóticamenta (para muestras grandes (>30 en la práctica) a la normal. Usaremos esto.

1- = p(rechazar Ho| Ho falsa)

Supongamos que

asumamos normalidad ¿qué potencia tiene el contraste si 1 fuera 5 (recordar que se necesita concretar H1)?

¿Cuándo rechazamos H0 al 95%?

Cuando

en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H0. Hay que calcular la probabilidad de encontrar

si 1 fuera 5. Calculamos

y lo miramos en la tabla de la normal 1- =0,512=51,2%

Modelo de regresión lineal múltiple

Page 14: Correlacion y Modelos de Regresion Lineal

Las variables biológicas suelen presentar multicorrelaciones. P.e. para estudiar el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede depender también de otras variables: consumo de otras substancias, ejercicio realizado, edad, factores metabólicos genéticos, etc.

Si, para cada valor del consumo de grasas, las demás variables se distribuyen aleatoriamente, la estimación por RLS es adecuada y la variación "debida" a las otras variables estaría incluida en la variación aleatoria alrededor de la regresión, pero en caso contrario la estimación sería incorrecta, si p.e., las costumbres dietéticas variaran con la edad y ésta influyera en el colesterol, una parte no cuantificada de la variación del colesterol que el modelo atribuye al consumo de grasas sería "debida" a la edad.

La regresión lineal múltiple (RLM) es un modelo que permite estudiar estos efectos. El modelo es

0: media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e. edad, se interpreta como la media de Y que no depende de las Xi).i: cambio en la media de Y cuando Xi aumenta una unidad permaneciendo constantes las demás.

Las asunciones del modelo son una generalización de las de RLS y dado el resultado de RLS no vamos a distinguir entre modelo I y II.

La estimación de los coeficientes también se hace por mínimos cuadrados o máxima verosimilitud y se obtienen los mismos resultados. Estos resultados, usando notación matricial, son (incluyen como caso particular la RLS):

siendo la matriz columna de coeficientes estimados, Y la matriz columna de observaciones de la variable dependiente y X la denominada matriz de diseño

es decir la matriz de datos con una primera columna de 1's. Estos coeficientes se distribuyen como una normal multivariante cuya matriz de medias son los verdaderos coeficientes y matriz de varianzas-covarianzas

un buen estimador de 2 es

Page 15: Correlacion y Modelos de Regresion Lineal

que se distribuye como una 2 con n - (k+1) grados de libertad.

Estas fórmulas ponen de manifiesto unas limitaciones al resolver estos modelos. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse (singulares). En dos situaciones no se puede:

1. El número de observaciones (n), es menor o igual que el número de variables independientes (k).

2. Una variable independiente es combinación lineal de otra(s) o constante (colinealidad ).

Análisis de la varianza de la regresión

De un modo similar a RLS se puede descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si el modelo lineal no es adecuado, ambos estimadores estimarían la varianza de Y y si es adecuado no. Comparando ambos estimadores con la prueba de la F se contrasta lo adecuado del modelo. Para el ejemplo 5

Obsérvese que, a diferencia de la RLS, este contraste no es equivalente al realizado sobre los coeficientes.

Se define también el coeficiente de determinación como el cociente entre la suma de cuadrados de la regresión y la suma de cuadrados total (R2 = SSR/SST) y a su raíz cuadrada (R) se le denomina coeficiente de correlación múltiple.

Además de esta prueba global del modelo basada en el análisis de la varianza, se pueden plantear pruebas parciales sobre si una variable, o un grupo de variables, añadidas a un modelo previo lo mejoran.

Page 16: Correlacion y Modelos de Regresion Lineal

Se tiene un modelo

y se añade una nueva variable X*, con el primer modelo se tiene una SSR(Y,X1,...,Xk) y con el nuevo otra SSR(Y,X1,...,Xk,X*), la diferencia entre ambas será lo que ha mejorado la suma de cuadrados por añadir la variable X* y tendrá 1 grado de libertad.

SSR(Y,X*|X1,...,Xk) = SSR(Y,X1,...,Xk,X*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) - SSE(Y,X1,...,Xk,X*)

y el cociente

llamado F parcial, tendrá una distribución F con 1 y n-(k+2) grados de libertad en la hipótesis nula de que la nueva variable X* no mejore el modelo. Evidentemente este contraste es totalmente equivalente a contrastar que el coeficiente * de la nueva variable es cero con la prueba basada en la t.

Del mismo modo, si al modelo original se le añaden p variables X1*,...,Xp*, se puede definir

SSR(Y,X1*,...,Xp*|X1,...,Xk) = SSR(Y,X1,...,Xk,X1*,...,Xp*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) - SSE(Y,X1,...,Xk,X1*,...,Xp*)

que tiene p grados de libertad, y el cociente

se distribuye como una Fp,n-(k+p+1) en la hipótesis nula de que las nuevas p variables X1*, ..., Xp* no mejoren el modelo con respecto a las k variables originales y permite contrastar dicha hipótesis.

Ejemplo 6

Con los datos del ejemplo 5, realizar el contraste de la F parcial para añadir la variable ejercicio a un modelo que sólo contenga la edad y las grasas consumidas.

Page 17: Correlacion y Modelos de Regresion Lineal

La tabla de anova correspondiente al modelo con EDAD y GRASAS es

Por lo tanto, comparando esta tabla con la del modelo completo

SSR(COLEST,EJERC|GRASAS,EDAD) =   SSR(COLEST,GRASAS,EDAD,EJERC) - SSR(COLEST,GRASAS,EDAD) = 49275,94 - 48940,18 = 335,76

por tanto Fpar=335,76/3381,83=0,099

que se distribuye como una F1,16. Como F0,05(1,16) = 4,49 no se puede rechazar la hipótesis de que EJERC no mejora el modelo. Obsérvese que esta Fpar es exactamente el cuadrado del valor de t correspondiente al coeficiente de EJERC en el modelo con las tres variables independientes.

Interacción y confusión en la regresión

Los modelos de regresión pueden usarse con dos objetivos:

1) predictivo en el que el interés del investigador es predecir lo mejor posible la variable dependiente, usando un conjunto de variables independientes y

2) estimativo en el que el interés se centra en estimar la relación de una o más variables independientes con la variable dependiente. En el ejemplo desarrollado en los apartados anteriores, el interés podría ser encontrar el modelo que mejor prediga el nivel de colesterol en sangre, en función de las otras variables (objetivo 1) o simplemente cuantificar la relación entre el consumo de grasas y dicho nivel de colesterol (objetivo 2).

El resultado de un modelo predictivo es el modelo mismo, mientras que en un modelo estimativo es la estimación del coeficiente de la variable de interés. El segundo objetivo es el más frecuente en estudios etiológicos en los que se trata de encontrar factores determinantes de una enfermedad o un proceso.

Page 18: Correlacion y Modelos de Regresion Lineal

La interacción y la confusión son dos conceptos importantes cuando se usan los modelos de regresión con el segundo objetivo, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociación entre otras.

Existe confusión cuando la asociación entre dos variables difiere significativamente según que se considere, o no, otra variable, a esta última variable se le denomina variable de confusión para la asociación.

Existe interacción cuando la asociación entre dos variables varía según los diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden parecer similares, conviene distinguir claramente entre ambos fenómenos. En el ejemplo 5 la edad no presenta una correlación significativa con el nivel de colesterol si no se considera el consumo de grasas, mientras que si se considera dicho consumo, sí lo presenta, en este caso el consumo de grasas es una variable de confusión para la asociación entre colesterol y edad. Para que exista confusión no es necesario que exista un cambio tan drástico (la correlación es significativa en un caso y no lo es en el otro), también puede ocurrir que, aún siendo significativa en ambos casos, cambie el coeficiente de regresión. Evidentemente la mejor estimación del coeficiente es la que se obtiene del modelo en que figura la variable de confusión, en el ejemplo, la mejor estimación del coeficiente correspondiente a la edad es la del modelo con edad y consumo de grasas.

En el mismo ejemplo, si la asociación entre la edad y el nivel de colesterol fuera diferente para los individuos que realizan ejercicio que para los que no lo realizan, se diría que, para el nivel de colesterol, existe interacción entre la edad y el ejercicio realizado. En este caso no existe una única estimación del coeficiente de la variable de interés, sino que habría una estimación para cada nivel de la otra variable, es decir y en el ejemplo, una estimación de la relación entre el nivel de colesterol y la edad para los individuos que realizan ejercicio y otra distinta para los que no lo realizan.

Veamos estos conceptos sobre los modelos. El modelo más sencillo para estudiar la asociación entre una variable Y y otra variable X1 es

Y = 0 + 1 X1

donde 1 cuantifica la asociación: es el cambio en Y por unidad de cambio en X1. Se dice que X2 es una variable de confusión para esta asociación, si el modelo

Y = 0 + 1 X1 + 2 X2

produce una estimación para 1 diferente del modelo anterior. Evidentemente esta definición se puede ampliar a un conjunto de variables, se dice que las variables X2, ..., Xk son variables de confusión si la estimación de 1 obtenida por el modelo

Y = 0 + 1 X1 + 2 X2 + ... + k Xk

es diferente de la obtenida en el modelo simple. En ambos casos se dice que la estimación de 1 obtenida en los modelos múltiples está controlada o ajustada por X2 o por X2 ,..., Xk

Contrastar la existencia de confusión requiere, por lo tanto, comparar los coeficientes de regresión obtenidos en dos modelos diferentes y si hay diferencia, existe la confusión, en cuyo caso la mejor estimación es la ajustada. Para dicha comparación no se precisa realizar un contraste de hipótesis estadístico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsión que

Page 19: Correlacion y Modelos de Regresion Lineal

la estimación ajustada corrige. Será el investigador quién establezca el criterio para decidir cuando hay diferencia. Nótese que se está hablando de diferencia en la estimación, que puede afectar tanto al propio coeficiente como a su error estándar (lo habitual es considerar que existe confusión cuando el coeficiente o su error estándar cambian en más del 10%).

El modelo más sencillo que hace explícita la interacción entre dos variables X1 y X2 es

Y = 0 + 1 X1 + 2 X2 + 3 X1 X2

En este modelo, el valor de Y para unos valores determinados x1, x2 de X1, X2 es

Y = 0 + 1 x1+ 2 x2+ 3 x1x2

y para los valores x1 + 1 y x2

Y = 0 + 1(x1+ 1) + 2 x2+ 3 (x1+ 1) x2 = 0 + 1 x1+ 1 + 2 x2 + 3 x1x2 + 3 x2

restando ambas se encuentra el cambio en Y por una unidad de cambio en X1 manteniendo fijo X2

1 + 3 x2

que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en Y por una unidad de cambio en X2 manteniendo fijo X1 es

2 + 3 x1

Por lo tanto, contrastar la existencia de interacción entre X1 y X2 es contrastar si el coeficiente 3 es cero (no hay interacción), o distinto de cero (existe interacción).

En caso de que exista interacción los coeficientes 1 y 2 por sí solos no significan nada y la asociación de las variables X1 y X2 con Y estará cuantificada por las expresiones anteriores.

Es obvio que primero debe contrastarse la interacción y después, en caso de que no exista, la confusión.

Ejemplo 8

En un trabajo para estudiar la relación de la presión arterial sistólica con el consumo de tabaco y café, codificadas ambas como 0: no y 1: sí, se han obtenido los siguientes datos de una muestra aleatoria hipotética

Paciente Presión arte. Tabaco Café 1 15,0 0 1 2 11,0 1 1 3 26,3 1 0 4 13,0 1 1 5 18,0 0 1 6 19,8 1 1 7 23,2 1 0 8 14,4 0 0 9 13,3 1 1 10 12,0 1 1

Page 20: Correlacion y Modelos de Regresion Lineal

11 22,5 1 0 12 23,5 1 0 13 12,7 0 1 14 14,0 0 1 15 11,8 0 0 16 21,2 1 0 17 14,0 0 0 18 15,5 1 1 19 12,3 1 1 20 15,0 0 0 21 22,6 1 0 22 16,4 0 1 23 23,5 1 0 24 13,7 1 1

Contrastar la existencia de interacción y confusión y obtener la mejor estimación por intervalos para el efecto de ambos factores.

Para contrastar la existencia de interacción se crea una nueva variable (TABXCA) que sea el producto de la variables TABACO y CAFE y se hace un modelo de regresión con las 3 variables. El resultado es

Page 21: Correlacion y Modelos de Regresion Lineal

Según la tabla de anova, el modelo completo es muy significativo (p=0,000). El coeficiente de correlación múltiple es muy alto, ya que la proporción de suma de cuadrados explicada por la regresión (R2) es aproximadamente del 82%. El coeficiente del término de interacción es significativamente distinto de cero (p=0,000), y aunque el del término del CAFE no lo sea (p=0,332) se mantiene en el modelo en aplicación del principio jerárquico.

Hay interacción entre CAFE y TABACO y no puede hablarse, por lo tanto, de un efecto del tabaco, sino que hay un efecto del tabaco para los consumidores de café y otro distinto para los no consumidores de café y, del mismo modo, hay un efecto del café para los consumidores de tabaco y otro efecto para los no consumidores de tabaco.

Vamos a estimar el efecto del tabaco.

La presión arterial media en la muestra es 16,86 y la estimación de la presión arterial de los no-fumadores y no consumidores de café ( 0 ) es 13,8.

Según vimos antes la estimación del efecto del tabaco (cambio en la presión arterial media por ser fumador) es para los no consumidores de café 1 y para los consumidores de café1 + 3. La varianza estimada de esta última estimación es

var( 1 + 3) = var(1) + var( 3) + 2cov( 1 , 3) = 1,779 + 3,251 + 2x(-1,779) = 1,472

por lo tanto EE(1 + 3) = 1,213. Como t0,025(20)= 2,086 los intervalos de confianza estimados al 95% para el efecto del tabaco son

no consumidores de café: 9,457 2,086x1,334 = ( 6,675 12,240)

consumidores: 9,457-10,852 2,086x1,213 = (-3,925 1,135)

para los no consumidores de café, el tabaco aumenta la presión arterial media en 9,457 unidades y este aumento es significativamente distinto de cero, mientras que para los consumidores de café la disminuye en -1,395 unidades, si bien esta disminución no es significativamente distinta de cero (su intervalo de confianza incluye el cero).

Correlación.

Page 22: Correlacion y Modelos de Regresion Lineal

 

Recordemos que para el caso de una variable, la varianza era un parámetro que nos

mostraba cuanta variación existía entre la media un conjunto de datos. En el mismo

tenor,  estamos en determinar la dependencia entre dos variables por lo que una primera

propuesta es construir una medida que nos permita en forma análoga tratar la

“variación”.

 

Se define la covarianza como la variación que existe entre los datos de dos variables,

expresada como:

 

n

yyxxS

iixy

 

donde ii yyx son las variables para n datos que intervienen en el estudio.

En realidad la correlación es una medida sobre el grado de relación entre dos variables,

sin importar cual es la causa y cual es el efecto. La dependencia de la que se habla en

este sentido es la dependencia entre la varianza de las variables.

 

Como hemos visto el manejo de unidades adimensionales nos permiten tener un

coeficiente sobre el que de forma cómoda se pueda trabajar, por lo que podemos dividir

entre el producto de las desviaciones de las variables, es decir:

 

yx

xy

SSn

Sr

Page 23: Correlacion y Modelos de Regresion Lineal

los valores para este coeficiente están comprendidos entre -1 y 1.

 

Se tiene los siguientes criterios para r

 

negativa linealn correlació o inversa perfecta, es linealn correlació la1

nula linealn correlació o linealn correlació existe no0

positiva linealn correlació o directa perfecta, es linealn correlació la1

r

r

r

r

 

entre mas se aproxima a los valores 1 y -1 la aproximación a una correlación se

considera buena. Cuando mas se aleja de 1 o de -1 y se acerca a cero se tiene menos

confianza en la dependencia lineal por lo que una aproximación lineal será lo menos

apropiado, sin embargo no significa que no existe dependencia, lo único que podemos

decir es que la dependencia no es lineal.  Un valor positivo para r indica que a medida

que una variable crece la otra también lo hace, por el contrario si su valor es negativo, lo

que podemos decir es que a medida que una variable crece la otra decrece.

Datos influyentes

Ejemplos de correlación  

 

Una vez que se determina que existe dependencia lineal un aspecto sumamente

relevante es el investigar  las características del modelo matemático que relaciona una

variable con otra, así de esta forma podemos decir, una variable puede clasificarse como

determinístico y probabilistico.  El modelo determinístico, que no será abordado en este

curso, esta ligado a la ecuación que regula de forma determinante el comportamiento de

un fenómeno, así por ejemplo podemos determinar a partir de la obtención de una

Page 24: Correlacion y Modelos de Regresion Lineal

ecuación sobre el potencial de frenado en un material, que ante cambios de la longitud

de onda la relación es lineal  no permitirá predecir cuales serán sus valores. Ecuaciones

que permiten ver como es la oposición a la corriente eléctrica, o resistencia eléctrica, al

aumentar la temperatura de un metal, entre otros, es un claro indicio de una ecuación

que es determinística, en ella se podrá describir como cambiara la resistencia eléctrica

del material en cuestión ante el aumento de una temperatura en el material. Por otro

lado, los fenómenos probabilísticos están sujetos a la modelos que aunque puedan ser

descritos por una ecuación no implica que todos los valores que intervienen en el

estudio puedan ser localizados en el gráfico que los representan, y por supuesto un dato

mas no es garantía que sea localizado en la ecuación.

 

A continuación será presentado un método para localizar en un fenómeno probabilístico

la mejor línea recta que describa un fenómeno. Aunque el método de mínimos

cuadrados permite encontrar la mejor ecuación para un conjunto de datos obtenidos de

una muestra que puede ser aleatoria  el método también permite obtener la ecuación

para un fenómeno determinístico, y que por supuesto, en último caso el conjunto de

puntos se ubicaran sobre la ecuación.

Regresión Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una relación. Para ilustrarlo retomemos los ejemplos mencionados al principio del capítulo. Si sobre un grupo de personas observamos los valores que toman las variables

no es necesario hacer grandes esfuerzos para intuir que la relación que hay entre ambas es:

Page 25: Correlacion y Modelos de Regresion Lineal

Obtener esta relación es menos evidente cuando lo que medimos sobre el mismo grupo de personas es

La razón es que no es cierto que conocida la altura xi de un individuo, podamos determinar de modo exacto su peso yi (v.g. dos personas que miden 1,70 m pueden tener pesos de 60 y 65 kilos). Sin embargo, alguna relación entre ellas debe existir, pues parece mucho más probable que un individuo de 2 m pese más que otro que mida 1,20 m. Es más, nos puede parecer más o menos aproximada una relación entre ambas variables como la siguiente

A la deducción, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que denominamos regresión.

   Figura: Mediante las técnicas de regresión de una

variable Y sobre una variable X, buscamos una función que sea una buena aproximación de una

nube de puntos (xi,yi), mediante una curva del tipo

. Para ello hemos de asegurarnos de

que la diferencia entre los valores yi e sea tan pequeña como sea posible.

Page 26: Correlacion y Modelos de Regresion Lineal

Mediante las técnicas de regresión inventamos una variable como función de otra variable X (o viceversa),

Esto es lo que denominamos relación funcional. El criterio para construir , tal como citamos anteriormente, es que la diferencia entre Y e sea pequeña.

El término que hemos denominado error debe ser tan pequeño como sea posible (figura 3.7). El objetivo será buscar la función (también denominada modelo de regresión)

que lo minimice. Véase la figura 3.8.

   Figura: Diferentes nubes de puntos y modelos de regresión para ellas.

Page 27: Correlacion y Modelos de Regresion Lineal

Regresión lineal

La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más exacta entre las variables peso y altura definidas anteriormente sea algo de la forma3.1

Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos vamos a limitar al caso de la regresión lineal. Con este tipo de regresiones nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir

 

con el menor error posible entre e Y, o bien

Page 28: Correlacion y Modelos de Regresion Lineal

de forma que sea una variable que toma valores próximos a cero.

3.12.4.1 Observación

Obsérvese que la relación 3.12 explica cosas como que si X varía en 1 unidad, varía la cantidad b. Por tanto:

Si b>0, las dos variables aumentan o disminuyen a la vez; Si b<0, cuando una variable aumenta, la otra disminuye.

Por tanto, en el caso de las variables peso y altura lo lógico será encontrar que b>0.

El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un conjunto de n observaciones

de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar son de forma esquemática, las que siguen:

1. Dadas dos variables X, Y, sobre las que definimos

medimos el error que se comete al aproximar Y mediante calculando la suma de las diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los errores):

2.

Page 29: Correlacion y Modelos de Regresion Lineal

Una aproximación de Y, se define a partir de dos cantidades a y b. Vamos a calcular aquellas que minimizan la función

 

3. Posteriormente encontraremos fórmulas para el cálculo directo de a y b que sirvan para cualquier problema.

3.12.4.2 Regresión de Y sobre X

Para calcular la recta de regresión de Y sobre X nos basamos en la figura 3.9.

   Figura: Los errores a minimizar son las

cantidades

Una vez que tenemos definido el error de aproximación mediante la relación (3.13) las cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los mínimos cuadrados):

Page 30: Correlacion y Modelos de Regresion Lineal

  

La relación (3.15), no es más que otra manera de escribir la relación (3.14), que se denomina ecuaciones normales. La primera de (3.14) se escribe como

Sustituyendo se tiene que

Lo que nos da las relaciones buscadas:

Page 31: Correlacion y Modelos de Regresion Lineal

La cantidad b se denomina coeficiente de regresión de Ysobre X.

3.12.4.3 Regresión de X sobre Y

Las mismas conclusiones se sacan cuando intentamos hacer la regresión de X sobre Y, pero ¡atención!: Para calcular la recta de regresión de X sobre Y es totalmente incorrecto despejar de

Pues esto nos da la regresión de X sobre , que no es lo que buscamos. La regresión de X sobre Y se hace aproximando X por , del modo

donde

pues de este modo se minimiza, en el sentido de los mínimos cuadrados, los errores

entre las cantidades xi y las (figura 3.10.)

Page 32: Correlacion y Modelos de Regresion Lineal

   Figura: Los errores a minimizar son las

cantidades

3.12.4.4 Ejemplo En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los resultados se muestran resumidos en los siguientes estadísticos:

Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.

Solución:

Lo que se busca es la recta, , que mejor aproxima los valores de Y (según el criterio de los mínimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:

Page 33: Correlacion y Modelos de Regresion Lineal

Así, el modelo lineal consiste en:

Por tanto, si x=15, el modelo lineal predice un valor de Y de:

En este punto hay que preguntarse si realmente esta predicción puede considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de la regresión lineal que están a continuación.

3.12.4.5 Propiedades de la regresión lineal

Una vez que ya tenemos perfectamente definida , (o bien ) nos preguntamos las relaciones que hay entre la media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposición:

3.12.4.6 Proposición En los ajustes lineales se conservan las medias, es decir

En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables X e Y y sus aproximaciones y , pues sólo se mantienen en un factor de r2, es decir,

Demostración Basta probar nuestra afirmación para la variable Y, ya que para X es totalmente análogo:

Page 34: Correlacion y Modelos de Regresion Lineal

donde se ha utilizado la magnitud que denominamos coeficiente de correlación, r, y que ya definimos anteriormente como

3.12.4.7 Observación Como consecuencia de este resultado, podemos decir que la proporción de varianza

explicada por la regresión lineal es del .

Nos gustaría tener que r=1, pues en ese caso ambas variables tendrían la misma varianza, pero esto no es cierto en general. Todo lo que se puede afirmar, como sabemos, es que

y por tanto

Page 35: Correlacion y Modelos de Regresion Lineal

La cantidad que le falta a la varianza de regresión, , para llegar hasta la varianza

total de Y, , es lo que se denomina varianza residual, que no es más que la varianza

de , ya que

El tercer sumando se anula según las ecuaciones normales expresadas en la relación (3.15):

Por ello

Page 36: Correlacion y Modelos de Regresion Lineal

Obsérvese que entonces la bondad del ajuste es

Para el ajuste contrario se define el error como , y su varianza residual es también proporcional a 1-r2:

y el coeficiente de determinación (que sirve para determinar la bondad del ajuste de X en función de Y) vale:

lo que resumimos en la siguiente proposición:

3.12.4.8 Proposición Para los ajustes de tipo lineal se tiene que los dos coeficientes de determinación son iguales a r2, y por tanto representan además la proporción de varianza explicada por la regresión lineal:

Por ello:

Page 37: Correlacion y Modelos de Regresion Lineal

Si el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y viceversa).

Si las variables X e Y no están relacionadas (linealmente al menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no posean ninguna relación en el caso r=0, ya que si bien el ajuste lineal puede no ser procentente, tal vez otro tipo de ajuste sí lo sea.

3.12.4.9 Ejemplo De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se obtiene la siguiente información:

Calcule:

1. La recta de regresión de Y sobre X. Explique el significado de los parámetros.

2. El coeficiente de determinación. Comente el resultado e indique el tanto por ciento de la variación de Y que no está explicada por el modelo lineal de regresión.

3.

Si el modelo es adecuado, ¿cuál es la predicción para x=4.

Solución:

1. En primer lugar calculamos las medias y las covarianza entre ambas variables:

Page 38: Correlacion y Modelos de Regresion Lineal

Con estas cantidades podemos determinar los parámetros a y b de la recta. La pendiente de la misma es b, y mide la variación de Ycuando X aumenta en una unidad:

Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que X aumenta, la tendencia es a la disminución de Y. En cuanto al valor de la ordenada en el origen, a, tenemos:

Así, la recta de regresión de Y como función de X es:

2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinación:

Es decir, el modelo de regresión lineal explica el de la variabilidad de Y en

función de la de X. Por tanto queda un de variabilidad no explicada.

3. La predicción que realiza el modelo lineal de regresión para x=4 es:

Page 39: Correlacion y Modelos de Regresion Lineal

la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior,hay una razonable cantidad de variabilidad que no es explicada por el modelo.

3.12.4.10 Ejemplo En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad, obteniéndose los siguientes resultados:

  Resultado de las mediciones

edad 12 8 10 11 7 7 10 14

peso 58 42 51 54 40 39 49 56

¿Existe una relación lineal importante entre ambas variables? Calcular la recta de regresión de la edad en función del peso y la del peso en función de la edad. Calcular la bondad del ajuste ¿En qué medida, por término medio, varía el peso cada año? ¿En cuánto aumenta la edad por cada kilo de peso?

Solución:

Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de correlación lineal, que vale:

ya que

Page 40: Correlacion y Modelos de Regresion Lineal

Por tanto el ajuste lineal es muy bueno. Se puede decir que el ángulo entre el vector formado por las desviaciones del peso con respecto a su valor medio y el de la edad con respecto a su valor medio, , es:

es decir, entre esos vectores hay un buen grado de paralelismo (sólo unos 19 grados de desviación).

La recta de regresión del peso en función de la edad es

La recta de regresión de la edad como función del peso es

Page 41: Correlacion y Modelos de Regresion Lineal

que como se puede comprobar, no resulta de despejar en la recta de regresión de Y sobre X.

La bondad del ajuste es

por tanto podemos decir que el de la variabilidad del peso en función de la edad es explicada mediante la recta de regresión correspondiente. Lo mismo podemos decir en cuanto a la variabilidad de la edad en función del peso. Del mismo modo puede

decirse que hay un de varianza que no es explicada por las rectas de regresión. Por tanto la varianza residual de la regresión del peso en función de la edad es

y la de la edad en función del peso:

Por último la cantidad en que varía el peso de un paciente cada año es, según la recta de regresión del peso en función de la edad, la pendiente de esta recta, es decir, b1=2,8367 Kg/año. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad b2=0,3136 años/Kg de diferencia.

Page 42: Correlacion y Modelos de Regresion Lineal

Recommended