+ All Categories
Home > Documents > Regresión Lineal Simple y Múltiple Regresión...

Regresión Lineal Simple y Múltiple Regresión...

Date post: 18-Oct-2018
Category:
Upload: buingoc
View: 260 times
Download: 2 times
Share this document with a friend
33
Regresión Lineal Simple y Múltiple Regresión Logística Miguel González Velasco Departamento de Matemáticas. Universidad de Extremadura MUI en Ciencias de la Salud MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 1 / 33
Transcript

Regresión Lineal Simple y MúltipleRegresión Logística

Miguel González VelascoDepartamento de Matemáticas. Universidad de Extremadura

MUI en Ciencias de la Salud

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 1 / 33

Índice

1 Introducción

2 Regresión Lineal Simple y Correlación Lineal

3 Regresión Lineal Múltiple

4 Regresión Logística

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 2 / 33

Introducción

ObjetivosDesarrollar un modelo que permita explicar la relación entre una variablerespuesta,Y, y una variable explicativa o regresora,X. Modelo de RegresiónLineal Simple.

Estudiar cómo determinar si existe relación entre dos variables cuantitativasX eY, así como definir coeficientes para, caso de existir, determinar la fuerza dedicha asociación.Coeficientes de Correlación.

Generalizar los modelos anteriores al caso de más de una variable explicativa oregresora.Modelo de Regresión Lineal Múltiple.

Introducir elModelo de Regresión Logística.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 3 / 33

Modelo de Regresión Lineal Simple

Planteamiento generalSupongamos que estamos interesados en determinar la relación entre las variables:

Y, variablealeatoria sobre una población (dependiente orespuesta).

X variable que influye enY, llamada predictora,explicativa o regresoraydefinida sobre la misma población queY.

La distribución de probabilidad deY dependerá del valor que tomeX. No obstante,Yno está completamente determinada porX, ya que hay otras influencias aleatorias.Esto se expresa mediante la ecuación:

Y = f (X) + E (ecuación de regresión deY sobreX)

E , variable aleatoria no observable con mediaE[E ] = 0 (error o ruido)

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 4 / 33

Modelo de Regresión Lineal Simple

Regresión Lineal SimpleSi f es una recta, entonces la regresión deY sobreX es lineal.

Y = α + βX + E

En la práctica, la ecuación anterior es imposible de determinar. Nuestroproblema se limita a la Inferencia (estimación puntual, intervalos de confianza ycontraste de hipótesis) sobre los parámetrosα y β, en base a una serie de datosobservados de este modelo.

Intuitivamente, la pendiente de la recta,β, marca el crecimiento (odecrecimiento) de la variableY por cada unidad que crece la variableX.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 5 / 33

Modelo de Regresión Lineal Simple

Otros parámetros: coeficiente de correlación linealAlgunos parámetros cuantificarán el grado de relación entreX eY y el sentido de lamisma. Son laCovarianza Poblacional(σxy) y el Coeficiente de Correlación Lineal(ρ). Se relacionan mediante la expresión

ρ =σxy

σxσy, −1≤ ρ ≤ 1

dondeσ2x , σ2

y denotan las varianzas poblacionales.Se verifica que

Si β, σxy, ρ < 0, la relación lineal es negativa(cuando creceX, decreceY).

Si β, σxy, ρ = 0, no hay relación lineal, las variables son incorreladas, es decir, elcomportamiento deX no afecta al deY.

Si β, σxy, ρ > 0, la relación lineal es positiva(cuando creceX también creceY).

ρ = 1 y ρ = −1 indican una relación lineal determinística entreX eY, conausencia de aleatoriedad.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 6 / 33

Modelo de Regresión Lineal Simple: Inferencia

Modelo

Y = α + βX + E , E ∼ N(0, σ2)

MuestraLa inferencia se basará en una muestra aleatoria simple ambas variablesX eY,medidas sobre los mismos individuos, es decir en una muestra aleatoria de lapoblación bidimensional(X, Y)

Y y1 y2 y3 . . . yn

X x1 x2 x3 . . . xn

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 7 / 33

Modelo de Regresión Lineal Simple: Inferencia

Ejemplo: Edad – Ángulo de ClarkeA fin de estudiar la evolución del ángulo de Clarke (en grados) con la edad del niño(sano) se obtuvieron ambos datos en un grupo de 16 niños (entre 3 y 10 años)elegidos al azar:

Edad (X) 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10Ángulo (Y) 24 22 28 25 32 31 33 30 34 34 36 39 39 41 46 44

Representamos las dos variables en lanube de puntos odiagrama de dispersión

●●

● ●

3 4 5 6 7 8 9 10

2530

3540

45

X=Edad

Y=

Ang

ulo

de C

lark

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 8 / 33

Modelo de Regresión Lineal Simple: Inferencia

Estimación puntualLos estimadores de los parámetros del modelo son:

Estimador puntual deβ:

b = SxySxx

=

∑(xi − x)(yi − y)∑

(xi − x)2=

∑xiyi −

(∑xi

) (∑yi

)/n∑

x2i −

(∑xi

)2/n

.

Estimador puntual deα: a = y− bx.

Recta de regresión muestral:y = a + bx.La recta de regresión lineal estimada deY sobreX es la recta que mejor se ajustaa la nube de puntos de un determinado conjunto de datos (ajuste de mínimoscuadrados)

Estimador puntual deσ2: s2 = 1n− 2

∑ni=1(yi − (a+ bxi))2 = 1

n− 2[Syy− bSxy],

siendoSyy =∑

(yi − y)2 =∑

y2i − (

∑yi)

2/n.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 9 / 33

Modelo de Regresión Lineal Simple: Inferencia

Ejemplo: Edad – Ángulo de Clarken = 16

Pi xi = 104,

Pi x2

i = 760,P

i yi = 538,P

i y2i = 18826,

Pi xiyi = 3739

Sxx =P

i(xi − x)2 =P

i x2i − (

Pi xi)

2/n = 760− 1042/16 = 84Syy = 18826− 5382/16 = 735.75Sxy =

Pi xiyi − (

Pi xi)(

Pi yi)/n = 3739− 104× 538/16 = 242

x = 6.5, y = 33.625

b =Sxy

Sxx=

24284

= 2.88, a = 33.625− 2.88× 6.5 = 14.9

y = 14.9 + 2.88x

s2 =1

n− 2(Syy− bSxy) =

114

(735.75− 2.88× 242) = 2.754

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 10 / 33

Modelo de Regresión Lineal Simple: Inferencia

Ejemplo: Edad – Ángulo de Clarke

●●

● ●

3 4 5 6 7 8 9 10

2530

3540

45

X=Edad

Y=

Ang

ulo

de C

lark

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 11 / 33

Modelo de Regresión Lineal Simple: Inferencia

Ejemplo: Edad – Ángulo de Clarke¿Existe relación entre la edad y el ángulo de Clarke?.

MODELO: Y = α + βX + E , E sigue distribución N(0,σ2)

Contraste de hipótesis

H0 : β = 0H1 : β 6= 0

H0 : no hay relación lineal entreX eYH1 : sí hay relación lineal entreX eY

El estadístico de contraste es:

texp =|b|

s/√

Sxx

RechazamosH0 al nivelα si texp > tα(n− 2), siendotα(n− 2) el cuantil de orden1− α/2 de una distribución t-Student conn− 2 grados de libertad.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 12 / 33

Modelo de Regresión Lineal Simple: Inferencia

Ejemplo: Edad – Ángulo de Clarke¿Existe relación entre la edad y el ángulo de Clarke?.

MODELO: Y = α + βX + E , E sigue distribución N(0,σ2)

H0 : β = 0 vs. H1 : β 6= 0

texp =|b|

s/√

Sxx=

2.88√2.754/84

= 15.91

Se rechazaH0 al nivel de significaciónα si texp > tα(n− 2)

α = 0.001 t0.001(14) = 4.14 texp > t0.001(14) H1

p < 0.001

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 13 / 33

Modelo de Regresión Lineal Simple: Inferencia

Ejemplo: Edad – Ángulo de Clarke¿Cuánto varía el ángulo por cada año que pasa de edad?

MODELO: Y = α + βX + E , E sigue distribución N(0,σ2)

b = 2.88

Intervalos de confianzaA un nivel de confianza 1− α:

Paraβ: β ∈ b± tα(n− 2) s√Sxx

Paraα: α ∈ a± tα(n− 2)s√

1n + x2

Sxx

Ejemplo: Edad – Ángulo de Clarke1− α = 0.95

β ∈ 2.88± t0.05(14)

√2.754

84= 2.88± 0.39 = [2.49, 3.27] CON UNA

CONFIANZA DEL 95%MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 14 / 33

Modelo de Regresión Lineal Simple: Correlación Lineal

Ejemplo: Edad – Ángulo de Clarke¿Cómo podemos medir el grado de la relación entre la edad y el ángulo de Clarke?

Grado de relación entre las variablesSi aceptamosH0 : β = 0 (es decir, no podemos encontrar evidencias estadísticasde que no sea cierta) la variableX desaparece de la ecuaciónY = α + βX + E , osea, toda la variabilidad deY es aleatoria.

Si aceptamosH1 : β 6= 0, entonces parte de la variabilidad deY es debida aX yhabrá relación entreX eY.El grado de relación y el signo de la misma nos lo estima elcoeficiente de

correlación lineal muestralρ = r =Sxy√SxxSyy

. Este coeficiente está entre -1 y 1,

y por tanto su magnitud puede ser comparada con estas cantidades. Así suproximidad a -1 ó a 1 nos da idea de una asociación lineal fuerte mientras que suproximidad a 0 de una asociación débil. Su signo nos indica si la relación esnegativa o positiva.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 15 / 33

Modelo de Regresión Lineal Simple: Correlación Lineal

Ejemplo: Edad – Ángulo de Clarke¿Cómo podemos medir el grado de la relación entre la edad y el ángulo de Clarke?

r =Sxy√SxxSyy

=242√

84× 735.75= 0.973

Contraste de hipótesisA menudo es útil contrastar

H0 : ρ = 0H1 : ρ 6= 0

El estadístico de contraste es

texp =

√(n− 2)r2

1− r2

RechazamosH0 al nivelα si texp > tα(n− 2)Este contraste es equivalente al deH0 : β = 0 y por tanto requiere la hipótesis denormalidad.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 16 / 33

Modelo de Regresión Lineal Simple: Correlación Lineal

Ejemplo: Edad – Ángulo de Clarke

¿Existe relación lineal entre la edad y el Ángulo de Clarke?

H0 : ρ = 0 vs. H1 : ρ 6= 0

texp =

√(n− 2)r2

1− r2=

√14 0.9732

1− 0.9732= 15.77

Se rechazaH0 al nivel de significaciónα si texp > tα(n− 2)

α = 0.001 t0.001(14) = 4.14 texp > t0.001(14) H1

p < 0.001

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 17 / 33

Modelo de Regresión Lineal Simple: Correlación Lineal

Ejemplo: Edad – Ángulo de Clarke¿Qué porcentaje de la variabilidad del ángulo queda explicada por la relación quemantiene con la variable edad?

Coeficiente de determinaciónAl valor r2 se le denominacoeficiente de determinación. Mide el grado de asociaciónlineal (sin signo) entreX eY. Intuitivamente,r2 se puede interpretar como el tanto por1 de la variabilidad deY que queda “explicada” por la variableX.

Ejemplo: Edad – Ángulo de Clarke¿Qué porcentaje de la variabilidad del ángulo queda explicada por la relación quemantiene con la variable edad?

r2 = 0.948

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 18 / 33

Modelo de Regresión Lineal Simple: Predicciones

Ejemplo: Edad – Ángulo de Clarke¿Qué valor del ángulo tendría un niño con 12 años? ¿Y uno de 5 años?

PrediccionesLa recta de regresión estimadaY = a + bX puede ser utilizada para realizar predicciones.Seax0 un valor dentro del rango de valores muestreados de la variableX (para valores fuera deeste rango no es conveniente hacer predicciones), que se corresponde con un valory0 de lavariableY que no hemos observado. Aunque no conozcamosy0, la recta anterior nos permitehacer inferencia sobre este valor. Así su estimación será

y0 = a + bx0

Si ademásE ∼ N(0, σ) podemos dar un intervalo de confianza al nivel 1− α paray0:"y0 ± tα(n− 2)

ss2

�1 +

1n

+(x0 − x)2

Sxx

�#

Estas predicciones sólo serán fiables si hemos probado que hay relación entre las variables y elcoeficiente de determinaciónr2 es alto.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 19 / 33

Modelo de Regresión Lineal Simple: Predicciones

Ejemplo: Edad – Ángulo de Clarke¿Qué valor del ángulo tendría un niño con 12 años? ¿Y uno de 5 años?

Para12no se debe calcular pues el rango de valores muestreados de la variableEdad es 3–10.

x0 = 5

y0 = 14.9 + 2.88× 5 = 29.3

Intervalo de confianza para una predicción al nivel 1− α = 0.95:

y0 ∈ 29.3± t0.05(14)

√2.754×

(1 +

116

+(5− 6.5)2

84

)= 29.3± 3.7 =

[25.6, 33.0] CON UNA CONFIANZA DEL 95%

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 20 / 33

Modelo de Regresión Lineal Simple: Predicciones

Ejemplo: Edad – Ángulo de Clarke

●●

● ●

3 4 5 6 7 8 9 10

2530

3540

45

X=Edad

Y=

Ang

ulo

de C

lark

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 21 / 33

Correlación No ParamétricaCoeficiente de correlación de Spearman¿Qué podemos decir si no tenemos la hipótesis de normalidad?

COEFICIENTE DE CORRELACIÓN DE SPEARMAN:

rs = 1− 6

n(n2− 1)

n∑i=1

(Ri − R′i )

2,

siendo(Ri , R′i ), i = 1, . . . , n los pares de rangos asociados a las observaciones(xi , yi),

i = 1, . . . , n

H0 : X, Y independientes vs. H1 : X, Y relación monótona

Si n≤ 50, se rechazaH0 al nivel de significaciónα si |rs| > rα, rα en la tabla deSpearman.

Si n > 50, se rechazaH0 al nivel de significaciónα si |rs|√

n− 1 > zα, siendozα el cuantil de ordenα/2 de una distribución Normal estándar.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 22 / 33

Correlación No Paramétrica

Ejemplo: Edad – Ángulo de Clarke(1.5) (1.5) (3.5) (3.5) (5.5) (5.5) (7.5) (7.5) (9.5) (9.5)

X 3 3 4 4 5 5 6 6 7 7Y 24 22 28 25 32 31 33 30 34 34

(2) (1) (4) (3) (7) (6) (8) (5) (9.5) (9.5)

(11.5) (11.5) (13.5) (13.5) (15.5) (15.5)X 8 8 9 9 10 10Y 36 39 39 41 46 44

(11) (12.5) (12.5) (14) (16) (15)

Ri 1.5 1.5 3.5 3.5 5.5 5.5 7.5 7.5 9.5 9.5 11.5 11.5 13.5 13.5 15.5 15.5

R′i 2 1 4 3 7 6 8 5 9.5 9.5 11 12.5 12.5 14 16 15

Ri - R′i -0.5 0.5 -0.5 0.5 -1.5 -0.5 -0.5 2.5 0 0 0.5 -1 1 -0.5 -0.5 0.5

rs = 1− 6

n(n2− 1)

n∑i=1

(Ri − R′i )

2

= 1− 616(162− 1)

((−0.5)2 + . . . + 0.52) = 0.9809

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 23 / 33

Correlación No Paramétrica

Ejemplo: Edad – Ángulo de Clarke

COEFICIENTE DE CORRELACIÓN DE SPEARMAN:rs = 0.9809

H0 : X, Y independientes vs. H1 : X, Y relación monótona

Se rechazaH0 al nivel de significaciónα si |rs| > rα(n)rα(n) en la tabla de Spearman

α = 0.001 r0.001(16) = 0.762 rs > r0.001(16) H1

p < 0.001

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 24 / 33

Modelo de Regresión Lineal Múltiple

DefiniciónVariable Respuesta:YVariables Regresoras:X1, X2, . . . , Xk

Relación Variable Respuesta - Variables Regresoras:

Y = β0 + β1X1 + . . . + βkXk + E , E[E ] = 0

o equivalentemente

E[Y|X1 = x1, . . . , Xk = xk] = β0 + β1x1 + . . . + βkxk

Distribución de Probabilidad Variable de Error o de la Respuesta:Distribución Normal

E ∼ N(0, σ2)

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 25 / 33

Modelo de Regresión Lineal MúltipleMuestraVariable Respuesta:YVariables Regresoras:X1, X2, . . . , Xk

Datos:Y X1 X2 . . . Xk

Y1 x11 x12 . . . x1k

Y2 x21 x22 . . . x2k...

...... . . .

...Yn xn1 xn2 . . . xnk

InferenciaEstimación:parámetrosβ0 . . . βk

Test de Hipótesis:Modelo adecuado:H0 : β1 = . . . = βk = 0Parámetros del modelo:Para cadai = 1, . . . , k, H0 : βi = 0

Ajuste del Modelo:CoeficientesR2 y R2-ajustado.

Diagnosis:Residuos.

Selección de Variables:Métodos Forward y Backward.MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 26 / 33

Modelo de Regresión Logística Simple

DefiniciónVariable Respuesta Dicotómica:Y = 1 si ocurre un determinado suceso;Y = 0 si noocurre dicho suceso.

Y sigue una distribución de Bernoulli.

Suceso = muerte, curación, enfermedad,...

Variable Regresora:X.

px = E[Y|X = x] prob. de que ocurra el suceso cuandoX = x

px =1

1 + exp(−(β0 + β1x))⇐⇒ log

(px

1− px

)= β0 + β1x

px

1− px= exp(β0 + β1x)

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 27 / 33

Modelo de Regresión Logística Simple

MuestraMuestra aleatoria de la población bidimensional(X, Y)

Y y1 y2 y3 . . . yn

X x1 x2 x3 . . . xn

InferenciaEstimación:parámetrosβ0, β1

Test de Hipótesis:Adecuación del Modelo:Test de Hosmer-LemeshowParámetros del modelo:Para cadai = 0, 1, H0 : βi = 0

Ajuste del Modelo:CoeficienteR2 de Nagelkerke.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 28 / 33

Modelo de Regresión Logística Simple

Bioensayos: Modelos Dosis-RespuestaVariable Respuesta Dicotómica:Y = 1 si ocurre un determinado suceso;Y = 0 si noocurre dicho suceso.

Y sigue una distribución de Bernoulli.

Suceso = muerte, curación, enfermedad,...

Variable Regresora:X = dosis de una sustancia.

px = E[Y|X = x] prob. de que ocurra el suceso cuandoX = x

px =1

1 + exp(−(β0 + β1x))⇐⇒ log

(px

1− px

)= β0 + β1x

px

1− px= exp(β0 + β1x)

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 29 / 33

Modelo de Regresión Logística SimpleBioensayos: Modelos Dosis-Respuesta.

EjemploLos siguientes datos corresponden un experimento efectuado con una serie de gruposde ratas que fueron expuestas a diferentes niveles de concentración de ETU (Ethylenethiourea) observándose el número de ratas que desarrollaron tumores tiroideos(Graham et al. (1975)).

Datos:

Dosis Muestra Tumor0 72 25 75 2

25 73 1125 73 2250 69 16500 70 62

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 30 / 33

Modelo de Regresión Logística SimpleBioensayos: Modelos Dosis-Respuesta.

EjemploLos siguientes datos corresponden un experimento efectuado con una serie de gruposde ratas que fueron expuestas a diferentes niveles de concentración de ETU (Ethylenethiourea) observándose el número de ratas que desarrollaron tumores tiroideos(Graham et al. (1975)).

Datos:

Dosis Muestra Tumor0 72 25 75 2

25 73 1125 73 2250 69 16500 70 62

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 31 / 33

Modelo de Regresión Logística Múltiple

DefiniciónVariable Respuesta Dicotómica:Y = 1 si ocurre un determinado suceso;Y = 0 si noocurre dicho suceso.

Y sigue una distribución de Bernoulli.

Variables Regresoras:X1, . . . , Xk.

X = (X1, . . . , Xk) x = (x1, . . . , xk)

E[Y|X = x] = px prob. de que ocurra el suceso cuandoX = x

px =1

1 + exp(−(β0 + β1x1 + . . . + βkxk))⇐⇒ log

(px

1− px

)= β0+β1x1+. . .+βkxk

px

1− px= exp(β0 + β1x1 + . . . + βkxk)

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 32 / 33

Modelo de Regresión Logística Múltiple

MuestraVariable Respuesta:YVariables Regresoras:X1, X2, . . . , Xk

Datos:Y X1 X2 . . . Xk

Y1 x11 x12 . . . x1k

Y2 x21 x22 . . . x2k...

...... . . .

...Yn xn1 xn2 . . . xnk

InferenciaEstimación:parámetrosβ0 . . . βk

Test de Hipótesis:Adecuación del Modelo:Test de Hosmer-LemeshowParámetros del modelo:Para cadai = 1, . . . , k, H0 : βi = 0

Ajuste del Modelo:CoeficienteR2 de Nagelkerke.

Selección de Variables:Métodos Forward y Backward.

MUI en Ciencias de la Salud (UEx) Regresión Lineal y Logística Miguel González Velasco 33 / 33


Recommended