+ All Categories
Home > Documents > STAT-I301 Chapitre V: Correlation et r´ egression lin´...

STAT-I301 Chapitre V: Correlation et r´ egression lin´...

Date post: 22-Apr-2020
Category:
Upload: others
View: 3 times
Download: 0 times
Share this document with a friend
43
STAT-I301 Chapitre V: Corr´ elation et r ´ egression lin ´ eaire Caroline Verhoeven
Transcript
Page 1: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

STAT-I301Chapitre V: Correlation et regression lineaire

Caroline Verhoeven

Page 2: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

Table des matieres

1 Association de 2 variables quantitatives

2 Correlation lineaireCoefficient de correlationInference pour la correlation

3 Regression lineaireFormule pour la droite de regressionInference pour la regression

4 Lien entre la correlation et la regression

5 Les problemesNe pas extrapolerUn graphique dit beaucoup

Caroline Verhoeven STAT-I301 2 / 43

Page 3: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

1. Association de 2 variables quantitatives

Le nuage de points I

Exemple 1

L’association de la taille et du poids d’un individu a beaucoup ete etudie.Ici on considere la taille et le poids des medailles d’or masculins francaisaux JO de Sidney (2000)

Nom taille poidsAndrieux 192 97Asloum 165 63Bette 186 70Douillet 196 125Dumoulin 171 64Estanguet 182 75Ferrari 187 83Gane 176 79Martinez 164 50Rousseau 182 85

Caroline Verhoeven STAT-I301 3 / 43

Page 4: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

1. Association de 2 variables quantitatives

Le nuage de points II

Comment voir le lien entre 2 variables quantitatives visuellement ?

16517017518018519019540

60

80

100

120

taille

poid

s

La taille : coordonnees x , le poids : coordonnees y

Caroline Verhoeven STAT-I301 4 / 43

Page 5: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

1. Association de 2 variables quantitatives

Relation lineaire

Si on regarde le graphique, il paraıt etire le long d’une droite

16517017518018519019540

60

80

100

120

taille

poid

s

On dit qu’il y a une relation lineaire entre les 2 variables

Caroline Verhoeven STAT-I301 5 / 43

Page 6: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

1. Association de 2 variables quantitatives

Relation lineaire positive et negative

Relation lineaire positive :y grandit avec x

0.0 0.5 1.0 1.5 2.0 2.5 3.01234567

x

y

Relation lineaire negative :y diminue quand x augmente

0.0 0.5 1.0 1.5 2.0 2.5 3.00123456

x

y

Caroline Verhoeven STAT-I301 6 / 43

Page 7: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 1. Coefficient de correlation

Coefficient de correlation : definition

Le coefficient de correlation r :donne l’intensite d’une relation lineaire

dit si cette relation est positive ou negative

−1 ≤ r ≤ 1

Caroline Verhoeven STAT-I301 7 / 43

Page 8: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 1. Coefficient de correlation

Coefficient de correlation et non linearite

Coefficient de correlation : donne l’intensite de la relation lineaire

−1 −0.5 0 0.5 1−1

−0.9

−0.8

−0.7

−0.6

−0.5

−0.4

−0.3

−0.2

−0.1

0

r = 0

Caroline Verhoeven STAT-I301 8 / 43

Page 9: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 1. Coefficient de correlation

Coefficient de correlation : calcul I

Formule pour le coefficient de correlation de Pearson :

r =1

N − 1

N∑

i=1

(

xi − xsx

)(

yi − ysy

)

=1

(N − 1)sxsy

N∑

i=1

(xi − x)(yi − y)

Caroline Verhoeven STAT-I301 9 / 43

Page 10: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 1. Coefficient de correlation

Coefficient de correlation : calcul II

Exemple 1

Nom xi yi xi − x yi − y (xi − x)(yi − y)Andrieux 192 97 11,9 17,9 213,01Asloum 165 63 -15,1 -16,1 243,11Bette 186 70 5,9 -9,1 -53,69Douillet 196 125 15,9 45,9 729,81Dumoulin 171 64 -9,1 -15,1 137,41Estanguet 182 75 1,9 -4,1 -7,79Ferrari 187 83 6,9 3,9 26,91Gane 176 79 -4,1 -0,1 0,41Martinez 164 50 -16,1 -29,1 468,51Rousseau 182 85 1,9 5,9 11,21Total 1768,9

x = 180,1y = 79,1

sx = 10,91sy = 20,85

r = 0,864

Caroline Verhoeven STAT-I301 10 / 43

Page 11: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 1. Coefficient de correlation

Coefficient de correlation : Interpretation graphique

+

+

-

-

16517017518018519019540

60

80

100

120

taille

poid

sx

yContribution du sujet i :(

xi − xsx

)(

yi − ysy

)

Haut-droite : contribution positive

Bas-gauche : contribution positive

Haut-gauche : contribution negative

Bas-droite : contribution negative

xi − x yi − y (xi − x)(yi − y)+ + +

- - +

- + -

+ - -

Caroline Verhoeven STAT-I301 11 / 43

Page 12: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 1. Coefficient de correlation

Correlation 6= causalite

Exemple 2

Des chercheurs allemands (Sies, 1998 ;Hoffer, 2004) ont trouve une fortecorrelation entre le nombre de nids decigognes et le taux de natalite aBrandbourg.

Le nombre de nids et le taux denaissance ont baisse simultanemententre 1965 et 1980

Cela demontre-t-il la theorie descigognes ?

NON !

Une explication alternative pour ces 2phenomenes : l’urbanisation

Caroline Verhoeven STAT-I301 12 / 43

Page 13: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 2. Inference pour la correlation

Quand il y a-t-il correlation ?

ρ : coefficient de correlation de Pearson entre 2 variables au seind’une population

Les 2 variables sont elles correlees ?

Probleme : en general on ne connaıt pas ρ

On connaıt r : coefficient de correlation pour 1 echantillon

Comment utiliser r pour repondre a notre question ?

Caroline Verhoeven STAT-I301 13 / 43

Page 14: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 2. Inference pour la correlation

Test de conformite pour r : exemple

Exemple 1

Retour a nos medailles d’orLe poids et la taille de medailles d’or masculins sont ils correles a untaux α = 0,05 ?

On a un echantillon de N = 10 medailles d’or masculins

On a calcule r = 0,864

Caroline Verhoeven STAT-I301 14 / 43

Page 15: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 2. Inference pour la correlation

Test de conformite pour r : Principe

Formulation d’hypothesesH0 : ρ = 0Ha : ρ 6= 0

Calcul de la statistique

t =rsr, sr =

1 − r2

N − 2

T ∼ t(df = N − 2)

Caroline Verhoeven STAT-I301 15 / 43

Page 16: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 2. Inference pour la correlation

Test de conformite pour r : Resolution de l’exemple

Exemple 1

Le poids et la taille de medailles d’or masculins sont ils correles a untaux α = 0,05 ?

N = 10, r = 0,864

Calcul de la statistique :

sr =

1 − r2

N − 2= 0,178 ⇒ t =

rsr

= 4,86

Calcul de la valeur p :

p = 2P(T ≥ 4,86) = 0,0013 < α = 0.05

On rejette H0

p

2-6 -4 -2 2,31 t

0,1

0,2

0,3

Caroline Verhoeven STAT-I301 16 / 43

Page 17: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

2. Correlation lineaire 2. Inference pour la correlation

Conditions

Les echantillons doivent etre aleatoires simple

Les 2 variables doivent avoir une distribution normale

Caroline Verhoeven STAT-I301 17 / 43

Page 18: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire

Regression

Regression : Methode pour predire la valeur d’une variablequantitative a partir de la valeur d’une autre.

On determiner une fonction y = f (x) modelisant la relation entre Yet X .

La fonction la plus simple : une droite ⇒ regression lineaire.

Caroline Verhoeven STAT-I301 18 / 43

Page 19: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 1. Formule pour la droite de regression

Droite de regression : Exemple I

Exemple 2

Quelle est la relation entre la frequence cardiaque maximum (FCM) etl’age chez des coureurs ?Les valeurs de ces 2 variables ont ete mesurees chez 13 hommess’entraınant regulierement et participant a des petites competitions

age FCM age FCM40 187 55 18536 195 55 18951 180 23 20149 190 49 18947 185 52 18551 183 35 19532 195

Caroline Verhoeven STAT-I301 19 / 43

Page 20: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 1. Formule pour la droite de regression

Droite de regression : Exemple II

Exemple 2

L’exemple des coureurs nous donne ce nuage de points :

25 30 35 40 45 50 55180

185

190

195

200

Age

FC

M

Quelle est la “meilleure” droite passant a travers ces points ?

Caroline Verhoeven STAT-I301 20 / 43

Page 21: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 1. Formule pour la droite de regression

Droite de regression : Calcul I

Equation d’une droitey = b0 + b1x

b0 : l’ordonnee a l’origine

b1 : pente

b0 ? b1 ?

Caroline Verhoeven STAT-I301 21 / 43

Page 22: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 1. Formule pour la droite de regression

Droite de regression : Calcul II

d1 d2

d3

d4

40 45 50 55

180

184

188

192

Age

FC

M yi : valeur d’Y pour le sujet i

yi= b0 + b1xi

di = yi − yi : “residu”

La “meilleure” droite : celle qui minimise

Q =N∑

i=1

d2i

Caroline Verhoeven STAT-I301 22 / 43

Page 23: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 1. Formule pour la droite de regression

Droite de regression : Calcul III

y = b0 + b1x b0,b1?

b0 b1 tel qu’on minimise

Q =N∑

i=1

d2i =

N∑

i=1

(yi − yi)2 = (yi − b0 − b1xi)

2

Solution :

b1 =

∑Ni=1(xi − x)(yi − y)∑N

i=1(xi − x)2

b0 = y − b1x

Remarque 3

y = b0 + b1x : La droite de regression passe toujours par le point (x ,y)

Caroline Verhoeven STAT-I301 23 / 43

Page 24: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 1. Formule pour la droite de regression

Droite de regression : Resolution de l’exemple I

Exemple 2

xi yi (xi − x) (yi − y) (xi − x)(yi − y) (xi − x)2

40 187 -4,23 -2,15 9,11 17,9036 195 -8,23 5,85 -48,11 67,7551 180 6,77 -9,15 -61,96 45,8249 190 4,77 0,85 4,04 22,7547 185 2,77 -4,15 -11,50 7,6751 183 6,77 -6,15 -41,66 45,8232 195 -12,23 5,85 -71,50 149,5955 185 10,77 -4,15 -44,73 115,9855 189 10,77 -0,15 -1,66 115,9823 201 -21,23 11,85 -251,50 450,7549 189 4,77 -0,15 -0,73 22,7552 185 7,77 -4,15 -32,27 60,3635 195 -9,23 5,85 -53,96 85,21

-606,41 1208,31

x = 44,23

y = 189,15

Caroline Verhoeven STAT-I301 24 / 43

Page 25: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 1. Formule pour la droite de regression

Droite de regression : Resolution de l’exemple II

Exemple 2

b1 =

∑Ni=1(xi − x)(yi − y)∑N

i=1(xi − x)2=

−606,411208,31

= −0,50

b0 = y − b1x = 189,15 + 0,50 · 44,23 = 211,35

Equation de la droite de regression :

y = 211,35 − 0,50x

25 30 35 40 45 50 55

185

190

195

200

Age

FC

M

x

y

Caroline Verhoeven STAT-I301 25 / 43

Page 26: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 2. Inference pour la regression

Inference statistique

2 variables ont une relation lineaire dans 1 population avec unedroite de regression

y = β0 + β1x

β0, β1 ?

On connaıt b0 et b1

Trouver de l’info sur β0,β1 a partir de b0,b1

Caroline Verhoeven STAT-I301 26 / 43

Page 27: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 2. Inference pour la regression

Conditions

di = yi − yi ∼ N (0,σ2)

σ : independant de xHomocedasticite

0 1 2 3 4 50

5

10

15

20

Age

FC

M

Heterocedasticite

0 1 2 3 4 50

5

10

15

20

25

Age

FC

MLes mesures doivent etre independantes

Caroline Verhoeven STAT-I301 27 / 43

Page 28: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 2. Inference pour la regression

Intervalle de confiance : Exemple

Exemple 2

Considerons a nouveau l’exemple avec les coureurs ?

Quelle est la droite de regression reliant l’age et la frequencecardiaque maximum pour des coureurs s’entrainant regulierement etparticipant a des petites competitions ?

On ne connaıt pas cette droite

On connaıt la droite de regression pour un echantillon

Quel est l’intervalle de confiance pour la pente β1 et l’ordonnee al’origine β0 ?

Caroline Verhoeven STAT-I301 28 / 43

Page 29: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 2. Inference pour la regression

Intervalle de confiance : La variance residuelle

Pour chaque point (xi ,yi) la deviation totale par rapport a y est :

yi − ydeviation

totale

= (yi − yi)

deviationexpliquee

+(yi − y)deviationresiduelle

di = yi − yi : le residu

La variance residu σ2res de la population n’est pas connue

Cette variance est estimee par :

s2res=

1N − 2

N∑

i=1

d2i

Caroline Verhoeven STAT-I301 29 / 43

Page 30: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 2. Inference pour la regression

Intervalle de confiance pour la pente

Estimation de la variance de la pente b1 :

s2b1

=s2

res∑N

i=1(xi − x)2

L’intervalle de confiance de 95% pour β1

[

b1 − tN−2;0,975sb1; b1 + tN−2;0,975sb1

]

tN−2;97,5 : 97,5emecentile pour la distribution t (df = N − 2)

L’intervalle de confiance de niveau 1 − α

[

b1 − tN−2;1−α/2sb1; b1 + tN−2;1−α/2sb1

]

tN−2;1−α/2 : 100(1 − α/2) centile pour la distribution t (df = N − 2)

Caroline Verhoeven STAT-I301 30 / 43

Page 31: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 2. Inference pour la regression

Intervalle de confiance pour l’ordonnee a l’origine

Estimation de la variance de l’ordonnee a l’origine b0 :

s2b0

= s2res

(

1N

+x2

∑Ni=1(xi − x)2

)

L’intervalle de confiance de 95% pour β0

[

b0 − tN−2;0,975sb0; b0 + tN−2;0,975sb0

]

tN−2;97,5 : 97,5eme centile pour la distribution t (df = N − 2)

L’intervalle de confiance de niveau 1 − α

[

b0 − tN−2;1−α/2sb0; b0 + tN−2;1−α/2sb0

]

tN−2;1−α/2 : 100(1 − α/2) centile pour la distribution t (df = N − 2)

Caroline Verhoeven STAT-I301 31 / 43

Page 32: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 2. Inference pour la regression

Intervalle de confiance : Resolution de l’exemple I

Exemple 2

xi yi yi (yi − yi) (yi − yi)2

40 187 191,28 -4,28 18,3036 195 193,28 -1,72 2,9451 180 185,76 -5,76 33,1449 190 186,76 3,24 10,5047 185 187,76 -2,76 7,6451 183 185,76 -2,76 7,6032 195 195,29 -0,29 0,0955 185 183,75 1,25 1,5755 189 183,75 5,25 27,5823 201 199,81 1,19 1,4249 189 186,76 2,24 5,0252 185 185,25 -0,25 0,0735 195 193,79 1,21 1,47

117,30

x = 44,23

y = 189,15N∑

i=1

(xi − x)2 = 1208,31

s2res=

117,3011 = 10,66

s2b1

=10,66

1208,31= 0,0088

s2b0

=

10,66(

113

+(44,23)2

1208,31

)

=

18,09

Caroline Verhoeven STAT-I301 32 / 43

Page 33: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 2. Inference pour la regression

Intervalle de confiance : Resolution de l’exemple II

Exemple 2

Intervalle de confiance de 95% pour β1 :b1 = −0,50, sb1 =

√0,0088 = 0,09, t11;0,975 = 2,20

Et donc

[b1 − tN−2;0,975sb1 ;b1 + tN−2;0,975sb1 ] = [−0,71;−0,30]

Intervalle de confiance de 95% pour β0 :b0 = 211,35, sb0 =

√18,09 = 4,25, t11;0,975 = 2,20

Et donc

[b0 − tN−2;0,975sb0 ;b0 + tN−2;0,975sb0 ] = [201,99;220,71]

Caroline Verhoeven STAT-I301 33 / 43

Page 34: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 2. Inference pour la regression

Test de conformite pour β1

Test de conformite pour β1... mais on ne connaıt pas β1 ? ? ?

On suppose une certaine valeur β1c pour β1 et on regarde si c’estconforme avec le b1 qu’on a.Formulation des hypotheses

H0 : β1 = β1c

Ha : β1 6= β1c

Calcul de la statistique

t =b1 − β1c

sb1

, T ∼ t(df = N − 2)

Caroline Verhoeven STAT-I301 34 / 43

Page 35: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

3. Regression lineaire 2. Inference pour la regression

Test de conformite pour β1 : Exemple

Exemple 2

Peut on dire que la frequence cardiaque maximale change avec l’ageavec un taux α = 0,05 ?

Formulations des hypothesesH0 : β1 = 0Ha : β1 6= 0

Calcul de la statistique

t =b1

sb1

= −5,34, T ∼ t(df = 11)

Calcule de la valeur p :

p = 2P(T ≤ −5,34) = 0,0002 < α = 0,05

On rejette H0

Caroline Verhoeven STAT-I301 35 / 43

Page 36: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

4. Lien entre la correlation et la regression

Lien entre le coefficient de correlation et la pente

b1 =

∑Ni=1(xi − x)(yi − y)∑N

i=1(xi − x)2=

1N−1

∑Ni=1(xi − x)(yi − y)

1N−1

∑Ni=1(xi − x)2

=1

N−1

∑Ni=1(xi − x)(yi − y)

s2x

=1

(N − 1)s2x

N∑

i=1

(xi − x)(yi − y)

=sy

sx

1(N − 1)sxsy

N∑

i=1

(xi − x)(yi − y) =sy

sxr .

our =

sx

syb1

Caroline Verhoeven STAT-I301 36 / 43

Page 37: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

4. Lien entre la correlation et la regression

Coefficient de determination

Le coefficient de determination

r2 =variance expliquee

variance totale=

1N−1

∑Ni=1(yi − y)2

1N−1

∑Ni=1(yi − y)2

=

∑Ni=1(yi − y)2

∑Ni=1(yi − y)2

0 ≤ r2 ≤ 1

Pourquoi note-t-on r2 ?

Parce que c’est le carre du coefficient de correlation

Caroline Verhoeven STAT-I301 37 / 43

Page 38: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

4. Lien entre la correlation et la regression

Coefficient de determination et de correlation

On a que

(yi − y)2 = (b0 + b1xi − y)2

= (y − b1x + b1xi − y)2

= b21(xi − x)2

Et donc

r2 =

∑Ni=1(yi − y)2

∑Ni=1(yi − y)2

=b2

1

∑Ni=1(xi − x)2

∑Ni=1(yi − y)2

= b21

∑Ni=1(xi − x)2

∑Ni=1(yi − y)2

= b21

1N−1

∑Ni=1(xi − x)2

1N−1

∑Ni=1(yi − y)2

= b21

s2x

s2y

Caroline Verhoeven STAT-I301 38 / 43

Page 39: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

5. Les problemes 1. Ne pas extrapoler

Extrapolation : Exemple I

Exemple 3

En 1995, Heathcote a mesure la longueur des oreilles d’un echantillond’adultes d’au moins 30 ans. Une regression lineaire entre l’age (enannees) et la longueurs des oreilles (en mm) nous donne :

y = 55,9 + 0,22x

0 20 40 60 80 10050556065707580

Age

Long

ueur

orei

lle

Caroline Verhoeven STAT-I301 39 / 43

Page 40: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

5. Les problemes 1. Ne pas extrapoler

Extrapolation : Exemple II

y = 55,9 + 0,22x

De la regression : un nouveaux-ne aurait des oreilles longues de55.9mm.Il aurait l’air de Dumbo

Conclusion :On ne peut pas extrapoler le resultat pour des adultes vers des enfants

Caroline Verhoeven STAT-I301 40 / 43

Page 41: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

5. Les problemes 1. Ne pas extrapoler

Ne jamais extrapoler !

Il ne faut pas utiliser les resultats de la regression si :

Si le x est plus petit que le plus petit des xi utilises pour la regression

Si le x est plus grand que le plus grand des xi utilises pour laregression

Caroline Verhoeven STAT-I301 41 / 43

Page 42: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

5. Les problemes 2. Un graphique dit beaucoup

Les chiffres ne disent pas tout

Toujours faire un graphique avant de commencer

Pour tous le 4 :

x = 9

y = 7,50

r = 0,816

b0 = 0,500

b1 = 3,00

Caroline Verhoeven STAT-I301 42 / 43

Page 43: STAT-I301 Chapitre V: Correlation et r´ egression lin´ eaire´homepages.vub.ac.be/~cverhoev/STAT-I301/slides_corr_regr_handou… · 2 Correlation lin´ eaire´ Coefficient de correlation´

5. Les problemes 2. Un graphique dit beaucoup

Plot residuel

On fait un graphique de yi − yi en fonction des xi

Haut-gauche : ok

Les autres : pas ok

Caroline Verhoeven STAT-I301 43 / 43


Recommended