+ All Categories
Home > Documents > REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una...

REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una...

Date post: 03-Aug-2020
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
32
REGRESION LINEAL SIMPLE
Transcript
Page 1: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

REGRESION LINEAL SIMPLE

Page 2: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Se dispone de una muestra de observaciones formadas por pares de

variables: (x1, y1), (x2, y2) ....(xn, yn)

Page 3: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

A través de esta muestra, se desea estudiar la relación existente

entre las dos variables X e Y.

Es posible representar estas observaciones mediante un gráfico de

dispersión, como el anterior.

También se puede expresar el grado de asociación mediante

algunos indicadores, que se verán a continuación.

Page 4: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

MEDIDAS DE ASOCIACION DE VARIABLES

Covarianza entre las variables X e Y. Es una medida de la variación conjunta.

Se define como:

Puede tomar valores positivos o negativos.

xyii Sn

yyxxn

YX1

))((1

),cov(

Page 5: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Covarianza positiva, significa que ambas variables tienden a variar de la

misma forma, hay una asociación positiva.

Negativa, significa que si una aumenta, la otra tiende a disminuir, y vice versa.

Covarianza cercana a cero indica que no hay asociación entre las variables.

Page 6: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Ejemplo 1

DATOS DEL CLUB DE SALUD

Datos correspondientes a 20 empleados del club de salud de una empresa

X pulsasiones or minuto en reposo

Y tiempo en correr 1 milla ( reg)

Fuente: S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression"

obs X Y

1 67 481

2 52 292

3 56 357

4 66 396

5 65 345

6 80 469

7 77 425

8 65 393

9 68 346

10 66 401

11 70 267

12 59 368

13 58 295

14 52 391

15 64 487

16 72 481

17 57 374

18 59 367

19 70 469

20 63 252

Promedios: 64,3 382,8

Page 7: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Calcularemos la covarianza entre estas dos variables

Covarianza

Valores centrados y productos:

obs X-64,3 Y-382,8 prod

1 2,7 98,2 265,14

2 -12,3 -90,8 1116,84

3 -8,3 -25,8 214,14

4 1,7 13,2 22,44

5 0,7 -37,8 -26,46

6 15,7 86,2 1353,34

7 12,7 42,2 535,94

8 0,7 10,2 7,14

9 3,7 -36,8 -136,16

10 1,7 18,2 30,94

11 5,7 -115,8 -660,06

12 -5,3 -14,8 78,44

13 -6,3 -87,8 553,14

14 -12,3 8,2 -100,86

15 -0,3 104,2 -31,26

16 7,7 98,2 756,14

17 -7,3 -8,8 64,24

18 -5,3 -15,8 83,74

19 5,7 86,2 491,34

20 -1,3 -130,8 170,04

Promedio : 239,41

La covarianza entre las

variables X e Y es igual a 239,41

Page 8: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Coeficiente de correlación lineal.

La covariaza tiene el inconveniente de que su valor no es acotado, por lo que, a

partir de él es difícil juzgar si es grande o pequeña.

Se define la correlación, que es una medida de asociación lineal independiente de

las unidades de medida.

Es igual a la covarianza dividida por las desviaciones standard.

Page 9: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Coeficiente de correlación lineal.

La covariaza tiene el inconveniente de que su valor no es acotado, por lo que, a partir

de él es difícil juzgar si es grande o pequeña.

Se define la correlación, que es una medida de asociación lineal independiente de las

unidades de medida:

Es igual a la covarianza dividida por las desviaciones estándar:

yyxx

xy

ii

ii

SS

S

yyxx

yyxx

dsYdsX

YXYXcorr

22 )()(

))((

*

),cov(),(

Page 10: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

El valor de la correlación entre cualquier par de variables es un

número entre -1 y 1. n valor alto de correlación no indica que

existe alguna relación de causa-efecto entre las variables.

Page 11: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Ejemplo (continuación)

Coeficiente de Correlación

Se deben calcular las desviaciones standard.

Para ello se deben elevar al cuadrado las observaciones centradas

y promediar, obteniéndose las varianzas.

Las desviaciones standard son las raíces cuadradas de éstas.

cuadrados de

obs X-64,3 Y-382,8

1 7,3 9643,2

2 151,3 8244,6

3 68,9 665,6

4 2,9 174,2

5 0,5 1428,8

6 246,5 7430,4

7 161,3 1780,8

8 0,5 104,0

9 13,7 1354,2

10 2,9 331,2

11 32,5 13409,6

12 28,1 219,0

13 39,7 7708,8

14 151,3 67,2

15 0,1 10857,6

16 59,3 9643,2

17 53,3 77,4

18 28,1 249,6

19 32,5 7430,4

20 1,7 17108,6

Promedios : 54,11 4896,46

(varianzas)

Las desviaciones standard son

dsX = 7,36 ds Y = 69,97

Para obtener las correlaciones se debe

dividir la covarianza por las desviaciones standard:

corr(X,Y) = 239.41 / ( 7.36 * 69.97 ) = 0,465

Page 12: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

El siguiente es un gráfico de dispersión que muestra estos datos.

Club de Salud

0

100

200

300

400

500

600

0 20 40 60 80 100

Pulsaciones por minuto

Tie

mp

o e

n r

eco

rre

r 1

mil

la

Page 13: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

La interpretación del coeficiente de correlación puede ilustrarse

mediante los siguientes gráficos.

Page 14: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

REGRESION LINEAL SIMPLE

Ahora asumiremos que si hay una relación de causalidad de la variable X

(causa) hacia la variable Y (efecto).

Además, se sabe que esa relación es de tipo lineal, dentro del rango de los

datos.

Estableceremos un modelo para explicar la causa (Y) en términos del efecto

(X), del tipo siguiente:

Page 15: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

para i = 1,2,..., n

en que a y b son dos cantidades fijas (parámetros del modelo) y los

ei son cantidades aleatorias que representan las diferencias entre lo

que postula el modelo y lo que realmente se observa, y.

Por esa razón a los e los llamaremos "errores" o "errores aleatorios".

Se asume que tienen valor esperado 0 y desviación estándar común .

iii ebXaY

Page 16: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Ejemplo 2 Venta de automóviles

Se piensa que si aumentan el porcentaje de comisión pagada

al vendedor de automóviles, aumenta la venta.

Estudio sobre 15 concesionarios similares

X Comisiones pagadas a vendedores de autos en un mes (%)

Y Ganancias netas por ventas, en el mismo mes (Millones de $)

obs X Y

1 3.6 11.28

2 5.2 14.74

3 5.3 18.46

4 7.3 20.01

5 5.0 12.43

6 5.2 15.37

7 3.0 9.59

8 3.1 11.26

9 3.2 8.05

10 7.5 27.91

11 8.3 24.62

12 6.1 18.80

13 4.9 13.87

14 5.8 12.11

15 7.1 23.68

Page 17: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Representación de los datos en un gráfico de dispersión:

Ganancias netas versus comisiones

0.00

5.00

10.00

15.00

20.00

25.00

30.00

0.0 2.0 4.0 6.0 8.0 10.0

comisión (%)

Gan

anci

as (M

M$)

Page 18: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Se puede apreciar la relación lineal existente entre ambas variables observadas.

Nuestro problema es estimar los parámetros a, b y para poder identificar el

modelo.

Para estimar a y b se utiliza el método de Mínimos cuadrados, que consiste en

encontrar aquellos valores de a y de b que hagan mínima la suma de los

cuadrados de las desviaciones de las observaciones respecto de la recta que

representa el modelo, en el sentido vertical.

Page 19: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

En la figura, son los cuadrados de los segmentos verticales cuya suma de

cuadrados se debe minimizar, para determinar a y b.

Estos segmentos representan los errores e del modelo. b se llama pendiente de la

recta que representa los datos y a se llama intercepto sobre el eje vertical.

Page 20: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

xx

xy

i

ii

S

S

xx

yyxxb

2)(

))((

xbya

La solución está dada por las siguientes fórmulas:

Page 21: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Ejemplo 2 (continuación)

Calculamos los promedios de ambas variables y se las restamos a los valores.

Promedio de la X : 5.4

Promedio de la Y : 16.1Desviaciones respecto de las medias, sus cuadrados y productos:

obs X-5.4 Y-16.1 cuadrados prod.

1 -1.8 -4.9 3.1 23.7 8.6

2 -0.2 -1.4 0.0 2.0 0.2

3 -0.1 2.3 0.0 5.3 -0.2

4 1.9 3.9 3.7 14.9 7.4

5 -0.4 -3.7 0.1 13.8 1.4

6 -0.2 -0.8 0.0 0.6 0.1

7 -2.4 -6.6 5.6 42.9 15.6

8 -2.3 -4.9 5.2 23.8 11.1

9 -2.2 -8.1 4.7 65.6 17.6

10 2.1 11.8 4.5 138.5 25.0

11 2.9 8.5 8.6 71.8 24.8

12 0.7 2.7 0.5 7.0 1.9

13 -0.5 -2.3 0.2 5.2 1.1

14 0.4 -4.0 0.2 16.3 -1.7

15 1.7 7.5 3.0 56.8 13.0

sumas 0.0 0.0 39.6 488.3 126.1

Sxx Syy Sxy

Entonces utilizando las fórmulas de arriba,

b = 3.18 a = -0.96

Page 22: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

El modelo, para estos datos, es

para i=1,2,.. 15

Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su

pendiente es 3.18, o sea, si el porcentaje de comisión X aumenta en 1%, la

ganancia neta Y aumenta en 3.18 Millones de pesos.

iii eXY 18,396.0

Page 23: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Ganancias netas versus comisiones

-5.00

0.00

5.00

10.00

15.00

20.00

25.00

30.00

0.0 2.0 4.0 6.0 8.0 10.0

comisión (%)

Gana

ncia

s (M

M$)

Gráfico de los datos:

Page 24: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Ejemplo 2 (continuación)

La tabla siguiente contiene los valores de Y ajustados , para cada valor de X,

además de los valores de Y observados, a modo de comparación. Los ajustados se

obtienen por la fórmula.

obs X Y Yajust. dif

1 3.6 11.28 10.50 0.78

2 5.2 14.74 15.59 -0.85

3 5.3 18.46 15.91 2.54

4 7.3 20.01 22.28 -2.27

5 5.0 12.43 14.96 -2.52

6 5.2 15.37 15.59 -0.23

7 3.0 9.59 8.59 1.00

8 3.1 11.26 8.91 2.36

9 3.2 8.05 9.23 -1.18

10 7.5 27.91 22.92 5.00

11 8.3 24.62 25.46 -0.84

12 6.1 18.80 18.46 0.34

13 4.9 13.87 14.64 -0.77

14 5.8 12.11 17.50 -5.40

15 7.1 23.68 21.64 2.04

promedio 5.4 16.1 16.1 0.00

ii XY 18.396.0

Page 25: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Se puede observar que el promedio de los valores ajustados es igual al

promedio de los valores observados, y que el promedio de las diferencias es

cero.

Con la suma de los cuadrados de las diferencias 𝑦𝑖 − 𝑦 , es una estimación

de la varianza del error, 𝑆𝑌 .

Page 26: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Coeficiente de determinación.

Es una medida de bondad de ajuste del modelos de regresión lineal a los

datos.

Es deseable que los valores de Y ajustados al modelo, sean lo más parecidos

posible a los valores observados.

Una medida de lo parecido que son, es el coeficiente de correlación.

Se define el coeficiente de determinación, 𝑅2 , como el cuadrado del

coeficiente de correlación entre los valores de Y observados y los valores de

Y ajustados.

Page 27: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Sin embargo se puede demostrar que es igual a la siguiente expresión:

El rango de 𝑅2 es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los

puntos aparecen en un línea recta).

22

22

2

)()(

))((

yyxx

yyxx

SS

SR

ii

ii

yyxx

xy

Page 28: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Ejemplo 2 (continuación)

Más arriba se calcularos las sumas de cuadrados y de productos, y dieron los siguientes

valores:

Sxx = 39.6 , Syy = 488.3 , Sxy = 126.1

Entonces el coeficiente de determinación es

que señala que el ajuste del modelo a los datos es bueno.

82.03.488*6.39

)1.126( 22 R

Page 29: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Errores de Y (llamado error de correlación), Intercepto y de la Pendiente

Error de Y

𝑆𝑌 = 𝑌𝑖−𝑌 2𝑛

𝑖=1

𝑛−2

Error del Intercepto

𝑆𝑎 = 𝑆𝑌1

𝑛+

𝑋 2

𝑋𝑖−𝑋 2𝑛𝑖=1

Error de la Pendiente

𝑆𝑏 =𝑆𝑌

𝑋𝑖−𝑋 2𝑛𝑖=1

Page 30: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Ejemplo 2 (continuación)

𝑌𝑖 − 𝑌 2𝑛

𝑖=1 = 87,0364 𝑆𝑦 =87,0364

15−2= 2,59

𝑆𝑏 =2,59

39,6=0,41

𝑆𝑎 = 2,591

15+

5,4 2

39,6 =2,32

La ecuación se colca así: (𝑌𝑖 ± 2,59) = 3,18 ± 0,41 𝑋 − (9,6 ± 2,32)

¿Cual será el valor de 𝑥𝑖 con su error para Y=12,43?

Investigar teoría de errores

Page 31: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Intervalo de confianza para la

pendiente

𝑏 ± 𝑡∝2, 𝑛−2

𝑆𝑏

Prueba con el estadístico t de Student

𝑡 = 𝑟𝑛 − 2

1 − 𝑟2

Page 32: REGRESION LINEAL SIMPLE - WordPress.com...REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además,

Para el ejemplo 2.

b = 3,18 y 𝑆𝑏 = 0,41 𝑡∝2, 𝑛−2

= 2,16

3,18±2,16𝑥0,41

El rango será: 4,31 a 2,29 α= 0,05

Para comprobar si hay relación

𝐻0: 𝜌 = 0

𝐻1: 𝜌 ≠ 0

Si tc > tcrítico , se rechaza la hipótesis nula para α= 0,05

𝑡𝑐 = 0,905(15−2)

(1−0,82)= 7,69

Como el 𝑡𝑐 > 𝑡𝑐𝑟𝑖𝑡𝑖𝑐𝑜 se rechaza

𝐻0

Conclusión: hay una buena relación

entre las variables


Recommended