+ All Categories
Home > Documents > Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... ·...

Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... ·...

Date post: 29-Jun-2020
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
108
. . Corr´ elation - R´ egression lin´ eaire Micha¨ el Genin Universit´ e de Lille 2 EA 2694 - Sant´ e Publique : Epid´ emiologie et Qualit´ e des soins [email protected]
Transcript
Page 1: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

.

......Correlation - Regression lineaire

Michael Genin

Universite de Lille 2EA 2694 - Sante Publique : Epidemiologie et Qualite des soins

[email protected]

Page 2: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Plan

...1 Introduction a l’etude de deux variables quantitatives

...2 Coefficient de correlation

...3 Regression lineaire simple

...4 Regression lineaire multiple

...5 References

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 1 / 123

Page 3: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Introduction a l’etude de deux variables quantitatives

Introduction

Correlation - Regression lineaire simple

Croisement de deux variables quantitatives

age et frequence cardiaqueConsommation et poids d’un vehiculeCapacite d’epargne et revenus...

Etude du lien entre ces deux variables

Representation graphiqueIndicateur statistiqueModele de prediction

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 3 / 123

Page 4: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Introduction a l’etude de deux variables quantitatives

Correlation - Regression lineaire simple

Notations

On considere n individus sur lesquels on mesure X et Y deux variablesquantitatives.

Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi )qui represente les valeurs prises par X et Y pour l’individu i .

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 4 / 123

Page 5: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Introduction a l’etude de deux variables quantitatives

Correlation - Regression lineaire simple

Representation graphique

Graphique pour representer deux variables quantitatives ⇒ nuage de points

1ere etape de toute analyse de liaison : apprecier la forme de la relation entre lesdeux variables

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

−60 −40 −20 0 20 40 60

−50

050

X

Y

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

−60 −40 −20 0 20 40 60

−30

00−

2500

−20

00−

1500

−10

00−

500

0

X

Y

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

−40 −20 0 20 40

−3

−2

−1

01

2

X

Y

liaison lineaire liaison polynomiale pas de liaison

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 5 / 123

Page 6: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Rappel sur la covariance

Rappel sur la covariance

Covariance

Mesure de la variation simultanee de deux variables aleatoires. La covariancepermet d’evaluer l’importance et le sens de cette variation.

.

...... σXY = cov[X ,Y ] = E [XY ]− E [X ]E [Y ]

si les variables sont liees, la covariance est importante.

une covariance peut etre positive, negative ou nulle.

Si les variables sont independantes → σXY = 0

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 8 / 123

Page 7: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Rappel sur la covariance

Rappel sur la covariance

Estimation de la covariance

.

......sxy =

1

n

∑(xi − x)(yi − y) =

1

n

∑xiyi − x y

Remarque : SXY est un estimateur biaise de σXY .

→ On lui applique la correction nn−1SXY

Remarques :

cov(X ,Y ) = cov(Y ,X )

cov(aX ,Y ) = acov(X ,Y ) = acov(Y ,X )

cov(X ,X ) = Var(X )

Var(X + Y ) = Var(X ) + Var(Y ) + 2cov(X ,Y )

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 9 / 123

Page 8: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Definition

Coefficient de correlation lineaire

Coefficient de correlation theorique

.

......ρXY =

σXY

σXσY

ρXY =σXY

σXσY=

E [XY ]− E [X ]E [Y ]

σXσY∈ [−1; 1]

Si X et Y sont independantes alors E [XY ] = E [X ]E [Y ]︸ ︷︷ ︸covariance nulle

donc ρ = 0

Si ρ = 0 et X et Y sont distribuees normalement alors X et Y sont independantes.

Si |ρ| = 1 → il existe une relation lineaire parfaite entre X et Y du type

Y = β1X + β0

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 11 / 123

Page 9: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Definition

Coefficient de correlation lineaire

Coefficient de correlation de Bravais-Pearson

ρ est estime par

.

......

r =sxysxsy

=

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2∑n

i=1(yi − y)2

r =

∑ni=1 xiyi − nx y√

(∑n

i=1 x2i − nx2)(

∑ni=1 y

2i − ny2)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 12 / 123

Page 10: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Definition

Interpretation du coefficient de correlation lineaire

ρ mesure la relation lineaire entre deux variables quantitatives X et Y , ρ esttoujours compris entre -1 et 1.

si ρ = 0, les variations des variables X et Y sont independantes (si X et Ydistribuees normalement).

si ρ > 0, les valeurs prises par Y ont tendance a croıtre quand les valeurs deX augmentent.

si ρ < 0, les valeurs prises par Y ont tendance a decroıtre quand les valeursde X augmentent.

La liaison lineaire est d’autant plus forte que |ρ| est proche de 1.

Le coefficient de correlation mesure de facon symetrique la relation entre les deuxvariables, sans notion de controle sur l’une des deux variables :

ρXY = ρYX

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 13 / 123

Page 11: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Definition

Remarques

r est tres sensible aux valeurs extremes.

Interet representation graphiqueStatistiques descriptives univariees

On peut avoir une liaison meme si r = 0 ;r mesure seulement le caractere lineaire d’une liaison.

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

−60 −40 −20 0 20 40 60

−30

00−

2500

−20

00−

1500

−10

00−

500

0

X

Y

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

−60 −40 −20 0 20 40 60

−50

050

X

Y

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●

● ●

●●

●●

●●

●●

● ●

●●

−60 −40 −20 0 20 40 60

−50

050

X

Y

r = 0 r > 0 r < 0

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 14 / 123

Page 12: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Definition

Exemple : Frequence cardiaque maximale (FCM)

On souhaite etudier une relation eventuelle entre l’age d’un individu, notee X etsa FCM, variable notee Y

Individu i Age xi FCM yi

1 40 1872 36 1953 51 1804 49 1905 47 1856 51 1837 32 1958 55 1859 55 18910 23 20111 49 18912 52 18513 35 195

Questions :...1 Calculer x et y...2 Calculer sxy , s

2x et s2y

...3 Calculer r

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 15 / 123

Page 13: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Definition

Exemple : Frequence cardiaque maximale (FCM)

25 30 35 40 45 50 55

180

185

190

195

200

FCM en fonction de l'âge

Age

FCM

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 16 / 123

Page 14: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Definition

Exemple : Frequence cardiaque maximale (FCM)

x = 44.23, y = 189.15

sxy =1

n

n∑i=1

(xi − x)(yi − y) =1

n

n∑i=1

xiyi − x y

sxy =1

13∗ 108157− 44.23× 189.15

sxy = −46.65

On applique la correction n/(n − 1), sxy = −50.54

s2x = 100.69, s2y = 35.14

r =−50.54√

100.69× 35.14= −0.85

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 17 / 123

Page 15: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Test du coefficient de correlation

Test de la significativite de ρ

Principe du test : Test de la nullite du coefficient de correlation.

Si ρ = 0 alors il n’y a pas de liaison lineaire entre X et Y

Si ρ = 0 alors il existe une relation lineaire entre X et Y

Condition d’application : X ∼ N (µ1, σ1) et Y ∼ N (µ2, σ2)

En pratique : Verification de X et Y ”a peu pres normales” (symetrique) car testrobuste (n grand)

Hypotheses du test {H0 : ρ = 0

H1 : ρ = 0

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 19 / 123

Page 16: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Test du coefficient de correlation

Test de la significativite de ρ

Statistique de test

Sous H0,.

......T =

R√n − 2√

1− R2∼ Tn−2 ddl

Region critique

W =]−∞;−tn−2 ddl,α/2] ∪ [tn−2 ddl,α/2; +∞[

Decision

Si t ∈ W alors on rejette H0 au risque de premiere espece α. Il existe une relationlineaire entre X et Y.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 20 / 123

Page 17: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Test du coefficient de correlation

Exemple

Exemple : Frequence cardiaque maximale (FCM)

t =r√n − 2√1− r2

=−0.85

√13− 2√

1− (−0.85)2= −5.35

Region critique W : ]−∞;−2.201] ∪ [2.201;+∞[

t ∈ W donc on rejette H0 au risque de premiere espece α = 5%. Il existe uneliaison lineaire statistiquement significative entre X et Y

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 21 / 123

Page 18: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Test du coefficient de correlation

Remarques

La loi de R est aussi tabulee et permet de calculer des seuils de significativitepour une taille echantillon et un risque α donne

Exemple α = 0.05 et n = 30, une liaison est significative si |r | > 0.36.

Le test est robuste mais si les conditions d’application ne sont pas clairementverifiees, on utilisera un test non parametrique

→ Test sur le coefficient de correlation de Spearman

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 22 / 123

Page 19: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Coefficient de correlation de Spearman

Coefficient de correlation de Spearman

Etude de la relation entre les rangs des variables X et Y

Permet la detection de relations monotones (croissantes ou decroissantes)

La relation n’est pas forcement lineaire (exponentiel, puissance,)

Adapte aux formes curvilignes

Utile lorsque la distribution des variables est asymetrique

Soient X = (x1, . . . , xn),Y = (y1, . . . , yn)et R = (r1, . . . , rn), S = (s1, . . . , sn) leurs rangs respectifs.

Le coefficient de correlation de Spearman calcule entre X et Y est egal aucoefficient de correlation de Pearson calcule entre R et S .

En l’absence d’ex-aequo :

.

......rs = 1−

6−∑n

i=1 [ri − si )]2

n3 − n

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 24 / 123

Page 20: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Coefficient de correlation de Spearman

Test du coefficient de correlation de Spearman

Test non parametrique : ne necessite pas d’hypotheses a priori sur les distributionsde X et YSouvent utilise lorsque n < 30

Hypotheses du test {H0 : ρ = 0

H1 : ρ = 0

Petits effectifs (4 ≤ n ≤ 10) : Les valeurs limites de rs sont tabulees de maniereexacte en fonction du risque α.

Grands effectifs (n > 10) sous H0 :

T =RS

√n − 1√

1− R2s

∼ Tn−2

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 25 / 123

Page 21: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Correlations partielles

Correlations partielles

En pratique, il arrive frequemment que la liaison observee entre 2 variables soit enfait due aux variations d’une troisieme variable appelee facteur de confusion.

Epargne

Revenu

Age

Moyenne d’une V.A. continueX ∼ L(µ,σ2)

On peut definir, connaissant les 3 correlations, une correlation partielle (ouconditionnelle) entre 2 variables, conditionnellement a la 3eme :

.

......

rxy/z =rxy − rxz ryz√

1− r2xz +√1− r2yz

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 27 / 123

Page 22: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Coefficient de correlation Conclusions

Conclusions

Le coefficient de correlation permet de mesurer le lien lineaire entre deuxvariables quantitatives X et Y .

On peut egalement cherche a modeliser le lien entre X et Y afin de realiserdes predictions :

Exprimer Y en fonction de XEx : Predire la FCM d’un patient en ne connaissant que son age

Le coefficient de correlation n’est pas suffisant

Recours a la regression lineaire :

Y = β1X + β0 + ϵ

Ou Y est la variable a expliquer et X la variable explicative

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 29 / 123

Page 23: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple

Cadre d’etude

Y est un caractere non controle (caractere explique)

X est un caractere controle (caractere explicatif)

Considerons un echantillon de n observations i.i.d. : I = {1, . . . , n}yi est la valeur observee pour l’individu i

xi est la valeur fixee pour l’individu i

Objectif : Exprimer le lien entre Y et X .

Y = f (X ) + ϵ

Il existe une infinite de liaisons fonctionnelles −→ la plus simple est lineaire

Regression lineaire simple...1 Modele de regression...2 Droite de regression au sens des moindres carres

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 31 / 123

Page 24: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Modele de regression lineaire simple

Modele de regression lineaire

∀i ∈ I , yi est la realisation de la v.a.r. Yi telle que

.

...... Yi = β1xi + β0 + ϵi

Avec

ϵi : erreur du modele (v.a.r.) (part de variabilite de Y qui n’est pas expliqueepar le lien fonctionnel lineaire)

β0, β1 : coefficients du modele, constantes (valeurs fixes dans la population).

Hypotheses du modele

E[ϵi ] = 0, V[ϵi ] = σ2 (hypothese d’homoscedasticite)

L’erreur est independante de X → Cov(xi , ϵi ) = 0

Les ϵi , 1 ≤ i ≤ n, sont mutuellement independantes (absenced’autocorrelation des residus) → Cov(ϵi , ϵj) = 0 si i = j .

ϵi ∼ N (0, σ2) (normalite des residus) → tests dans le modele

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 33 / 123

Page 25: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Methode des moindres carres ordinaires

Droite de regression au sens des moindres carres

Objectif : estimer β0 et β1 grace a leur estimateurs B0 et B1 et leur realisations b0et b1 sur un echantillon d’observations i.i.d. de taille n.

Trouver b0 et b1 qui minimisent l’erreur.

X

Y

y = b1x+ b0

ei

Figure : Erreur importante

X

Y

y = b1x+ b0

ei

Figure : Erreur minimisee

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 35 / 123

Page 26: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Methode des moindres carres ordinaires

Droite de regression au sens des moindres carres

Objectif : estimer β0 et β1 grace a leur estimateurs B0 et B1 et leur realisations b0et b1 sur un echantillon d’observations i.i.d. de taille n.

Trouver b0 et b1 qui minimisent un critere d’ajustement.

⇒ Methode des moindres carres ordinaires.

......

S(β0, β1) =n∑

i=1

(ei )2 =

n∑i=1

(yi − (β1xi + β0))2

→ minS(β0, β1)

Derivees partielles → Systemes aux equations normales

.

......Solutions : b1 =

sxys2x

et b0 = y − b1x

.. Details

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 36 / 123

Page 27: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Methode des moindres carres ordinaires

Droite de regression au sens des moindres carres

La droite de regression au sens des moindres carres a pour expression :

.

...... yi = b1xi + b0

C’est une estimation du modele de regression par la methode des moindres carres.

Les erreurs observees sur l’echantillon sont appeles residus.

.

...... ei = (yi − yi ) = yi − b1xi − b0

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 37 / 123

Page 28: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Methode des moindres carres ordinaires

Remarques

b1 peut etre estime via le coefficient de correlation de Pearson :

b1 = ryxsysx

b0 et b1 sont des estimations de β0 et β1.

b0 et b1 sont des realisations des v.a.r. B0 et B1

→ Estimateurs des MCO de β0 et β1

B0 = Y − B1x

B1 =SxYs2x

β0 et β1 peuvent etre egalement estimes par la methode de maximum devraisemblance. On montre que les estimateurs de maximum de vraisemblancede β0 et β1 sont egaux aux estimateurs des MCO.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 38 / 123

Page 29: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Methode des moindres carres ordinaires

Proprietes des estimateurs - Moments (1)

.

...... E[B0] = β0 E[B1] = β1

→ B0 et B1 sont des estimateurs sans biais.

......

V[B0] = σ2B0

= σ2

(1

n+

x2∑ni=1(xi − x)2

)V[B1] = σ2

B1=

σ2∑ni=1(xi − x)2

=σ2

n× 1

s2x

B0 et B1 sont des estimateurs convergents

V[B0] −→n→∞

0

V[B1] −→n→∞

0

B0 et B1 sont de variance minimale (Theoreme de Gauss-Markov)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 39 / 123

Page 30: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Methode des moindres carres ordinaires

Proprietes des estimateurs - Moments (2)

Les variances σ2B0

et σ2B1

font intervenir la variance de l’erreur σ2

Cette variance est inconnue

Nous devons l’estimer. Naturellement, on peut utiliser les ecarts entre Yi etYi :

S2 =1

n

n∑i=1

(Yi − Yi

)2

Or, cet estimateur est biaise (E[S2] = (n − 2)σ2).

On montre que

.

......

S2n−2 =

1

n − 2

n∑i=1

(Yi − Yi

)2

,

est un estimateur non biaise de σ2.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 40 / 123

Page 31: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Methode des moindres carres ordinaires

Proprietes des estimateurs - Distributions d’echantillonnage

De par les hypotheses du modele et l’estimation de σ2, on montre que

.

......

B0 − β0

σB0

∼ Tn−2 d.d.l.

B1 − β1

σB1

∼ Tn−2 d.d.l.

avec

σ2B0

=S2n−2

(1

n+

x2∑ni=1(xi − x)2

)σ2B1

=S2n−2∑n

i=1(xi − x)2

Ces distributions vont nous permettre de realiser une inference statistique sur lescoefficients (tests de nullite et intervalles de confiance).

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 41 / 123

Page 32: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Qualite de l’ajustement

Qualite de l’ajustement

Equation d’analyse de la variance

yi − y = (yi − y) + (yi − yi )

(yi − y)2 = (yi − y)2 + (yi − yi )2

n∑i=1

(yi − y)2 =n∑

i=1

(yi − y)2 +n∑

i=1

(yi − yi )2

.

......

n∑i=1

(yi − y)2︸ ︷︷ ︸Somme des carres

totaleSCT

=n∑

i=1

(yi − y)2︸ ︷︷ ︸Somme des carres

expliqueeSCE

+n∑

i=1

(yi − yi )2

︸ ︷︷ ︸Somme des carres

residuelleSCR

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 43 / 123

Page 33: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Qualite de l’ajustement

Qualite de l’ajustement

Evaluation de la qualite d’ajustement du modele

⇒ Coefficient de determination.

......R2 =

SCE

SCT∈ [0, 1]

Interpretation : Part de variabilite de Y expliquee par le modele de regressionlineaire.

Remarque importante : le carre du coefficient de correlation lineaire est egal aucoefficient de determination :

r2 = R2

Consequence : deux tests statistiques equivalents pour evaluer la liaison lineaireentre X et Y .

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 44 / 123

Page 34: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Etude de la validite du modele

Etude des residus : Verification des hypotheses du modele faites sur les erreurs

Verifier la normalite des residus observes

Verifier que les residus ne contiennent pas d’information structuree(V[ϵ] = σ2)

Les residus ne dependent pas de X

Verifier que les residus ne sont pas auto-correles entre eux (les ϵi sontmutuellement independantes)

→ Ces hypotheses vont permettre par la suite de realiser des tests dans lemodele lineaire.

Observations aberrantes / influentes

Valeur aberrante de x

Observation i mal reconstituee par la regression → (ei eleve)

Observation i presentant un poids exagere dans la regression (prediction /coefficients)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 46 / 123

Page 35: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Etude des residus

Verification de la normalite des residus

histogramme ⇒ la distribution doit etre unimodale et symetrique autour de 0.

Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peupuissants (peu aptes a rejeter H0)

Droite de Henry ⇒ confronte les quantiles theoriques de la loi normale et ladistribution cumulee estimee sur les donnees

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 47 / 123

Page 36: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Etude des residus

Verification de l’homoscedasticite des residus

Les residus sont dits homoscedastiques si leur dispersion est homogene et nedepend pas des valeurs de la variable explicative (et donc pas non plus des valeurspredites).On verifie que les residus n’ont pas de structure particuliere en tracant un graphedes residus :

Introduction Correlation Regression lineaire simple Conclusion

Etude des residus

Verification de l’homoscedasticite des residus

Les residus sont homoscedastiques si leur repartition est homogeneet ne depend pas des valeurs de la variable explicative (et donc pasnon plus des valeurs predites).On verifie que les residus n’ont pas de structure particuliere entracant un graphe des residus :

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

−40 −20 0 20 40

−4−2

02

4

Residus non correles

X

Residus

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

−40 −20 0 20 40

−2−1

01

2

Residus correles

X

Residus

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 48 / 123

Page 37: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Etude des residus

On peut localiser des points du nuage mal expliques par la relation lineaire entracant les deux droites d1 = 2sn−2 et d2 = −2sn−2

on peut considerer ces points, si ils ne sont pas trop nombreux, comme despoints exceptionnels, les eliminer et recalculer b1 et b0.

on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindrescarres ponderes (fonction de l’ecart |y − y |/2s2n−2). Methode plus robuste

si il y a beaucoup de points mal expliques (en dehors de la bande), c’est quele modele est mal choisi.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 49 / 123

Page 38: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Etude des residus

● ●

25 30 35 40 45 50 55

−6

−4

−2

02

46

graphe des residus

age

resi

dus

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 50 / 123

Page 39: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Etude des residus

Verification de l’independance entre les residus

Test de Durbin Watson{H0 : il n’y a pas de correlation entre ϵi et ϵi−1

H1 : il y a de correlation entre ϵi et ϵi−1

.

......d =

∑ni=2(ei − ei−1)

2∑ni=1 e

2i

La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pasd’autocorrelation.La loi de d est tabulee : DL et DU bornes au risque α.

0 4 4-DU DU DL 2 4-DL

AC Positive Rejet H0

AC Négative Rejet H0

Pas d’AC Non Rejet de

H0

? ?

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 51 / 123

Page 40: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Observations aberrantes / influentes

Valeur aberrante de x

●●

0 20 40 60

160

180

200

220

Age

FC

M

●●

0 20 40 60

160

180

200

220

AgeF

CM

Effet important sur l’estimation de la droite de regression

Mauvais ajustement aux donnees

Solution : descriptif univarie → boxplot

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 52 / 123

Page 41: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Observations aberrantes / influentes

Residus studentises internes

Idee : Mettre en evidence les observations dont le residu ei est important Pour uneobservation i , le residu studentise interne est defini par :

.

......ti =

ei

sn−2

√1− hi

avec hi =1n + (xi−x)∑n

j=1(xi−x)2 (levier de l’observation i). On montre que

Ti ∼ T(n−2).

D’ou :RC : |ti | > t

1−α/2n−2

Probleme : L’observation evaluee a participe a la construction de la droite (Jugeet partie).

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 53 / 123

Page 42: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Observations aberrantes / influentes

Residus studentises externes

Idee : Estimer le modele sans l’observation i (−i) et comparer la valeur observeede yi a celle predite par le modele (yi (−i) : prediction pour une nouvelleobservation).Pour une observation i , le residu studentise externe est defini par :

.

......t∗i =

yi − yi (−i)

sn−2(−i)√1− hi (−i)

On montre queT ∗i ∼ T(n−3).

D’ou :RC : |t∗i | > t

1−α/2n−3

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 54 / 123

Page 43: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Observations aberrantes / influentes

Distance de Cook

Idee : Evaluer l’influence d’une observation i sur l’estimation des coefficients.Comparaison des predictions du modele complet et du modele sans l’observation i .La distance de Cook pour une observation i est definie par

.

......Di =

∑nj=1(yi − yi (−i))2

2s2n−2

Regle de decision (cas regression simple) :

RC : Di > 1

Si la difference entre les predictions est elevee, l’observations i joue un role surl’estimation des coefficients.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 55 / 123

Page 44: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Validite du modele

Conclusion sur l’etude de la validite du modele

Etape tres importante !!

...1 Descriptif univarie

...2 Estimation des coefficients du modele

...3 Verification des hypotheses sur les erreurs

...4 Detection d’observations influentes

Si OUI : Correction ou suppressionNouvelle estimation des coefficients

Apres ces etapes : Inference statistique

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 56 / 123

Page 45: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Inference statistique

Evaluation globale de la regression

Tableau d’analyse de variance - Test de significativite globale

R2 permet d’evaluer la qualite de l’ajustement. L’information emmenee par laregression de Y par X traduit-elle une relation qui existe vraiment dans lapopulation ?

Table : Tableau ANOVA

Source de variation Somme des carres DDL Carres moyens

Expliquee SCE =∑

i (yi − y)2 1 CME = SCE1

Residuelle SCR =∑

i (yi − yi )2 n − 2 CMR = SCR

n−2

Totale SCT =∑

i (yi − y)2 n − 1 -

Degres de liberte :

SCT necessite l’estimation y → n − 1 ddl

SCR necessite l’estimation de β0 et β1 pour yi → n − 2 ddl

SCE par deduction : (n − 1)− (n − 2) = 1 ddl

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 58 / 123

Page 46: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Inference statistique

Evaluation globale de la regression

Tableau d’analyse de variance - Test de significativite globale

Le test F permet d’evaluer la significativite globale de la regression.{H0 : La variabilite expliquee est identique a la variabilite residuelle

H1 : La variabilite expliquee est superieure a la variabilite residuelle

Sous H0

.

......F =

CME

CMR∼ F1,n−2 ddl

Interpretation : {H0 : ”Le modele est non explicatif”

H1 : ”Le modele est explicatif”

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 59 / 123

Page 47: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Inference statistique

Evaluation des coefficients - β1

Test de significativite de β1

Idee : tester la nullite de β1.{H0 : β1 = 0 ”X n’a aucun pouvoir explicatif sur Y”

H1 : β1 = 0 ”X a un pouvoir explicatif sur Y”

Nous savons que B1−β1

σB1∼ Tn−2, par consequent sous H0

.

......

B1

σB1

∼ Tn−2

Intervalle de confiance de β1

.

......

IC1−α

β1=

b1 ± t(1−α/2;n−2)sn−2√∑n

i=1(xi − x)2

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 60 / 123

Page 48: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Inference statistique

Evaluation des coefficients - β1

Equivalence avec le test de significativite globale

Uniquement dans le cas de la regression lineaire simple, observons que

F =SCE/1

SCR/(n − 2)=

∑ni=1(Yi − Y )2

S2n−2

=

∑ni=1(B1xi + B0 − Y )2

S2n−2

F =

∑ni=1(B1xi + (Y − B1x)− Y )2

s2n−2

=B21

∑ni=1(xi − x)2

s2n−2

=B21

S2n−2∑n

i=1(xi−x)2

F =B21

σ2B1

=

(B1

σB1

)2

.

Note : Equivalence entre la loi de Student et la loi de Fisher.(T(n−2)

)2 ≡ F(1,n−2)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 61 / 123

Page 49: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Inference statistique

Evaluation des coefficients - β1

Equivalence avec le test de significativite de ρ

Observons que

F =SCE/1

SCR/(n − 2)=

(n − 2)SCE

SCR=

(n − 2)SCE

SCT − SCR=

(n − 2)R2

1− R2

T =r√n − 2√1− r2

or R2 = r2 doncF = (T )2

Et comme F =(

B1

σB1

)2

, on conclue que

F = (T )2 =

(B1

σB1

)2

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 62 / 123

Page 50: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Inference statistique

Evaluation des coefficients - β1

Dans le cas d’une regression lineaire simple de type :

Y = β1X + β0 + ϵ

.

......

Tester la significativite globale du modele

Tester la significativite de β1

Tester la significativite de ρ

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 63 / 123

Page 51: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Inference statistique

Evaluation des coefficients - β1

Lien entre test et intervalle de confiance

IC1−α

θ = {θ0/H0 = {θ = θ0} est accepte au niveau de confiance 1− α}

Consequences : pour tester H0 : β1 = 0 au risque α, on peut simplement verifiersi 0 appartient ou non a l’intervalle de confiance :

Si 0 ∈ IC alors on conserve H0

Si 0 /∈ IC alors on rejette H0

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 64 / 123

Page 52: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Inference statistique

Evaluation des coefficients - β0

Test de significativite de β0

Idee : tester la nullite de β0.{H0 : β0 = 0 ”L’ordonnee a l’origine n’est pas significative”

H1 : β0 = 0 ”L’ordonnee a l’origine est significative”

Nous savons que B0−β0

σB0∼ Tn−2, par consequent sous H0

.

......

B0

σB0

∼ Tn−2

Intervalle de confiance de β0

.

......

IC1−α

β0=

[b0 ± t(1−α/2;n−2)sn−2

√1

n+

x2∑ni=1(xi − x)2

]

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 65 / 123

Page 53: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Prediction

Intervalle de prediction d’une observation

Contexte : Le modele de regression ayant ete valide, il est possible d’estimer lavaleur de yn+1 pour une observation xn+1 n’appartenant pas a l’echantillon :

yn+1 = b1xn+1 + b0

Or yn+1 n’est qu’une estimation de la ”vraie droite de regression” dans lapopulation. Une estimation ponctuelle ne suffit pas, il faut lui associer unintervalle de confiance :.

......

IC1−α

yn+1=

[yn+1 ± t(1−α/2;n−2)sn−2

√1 +

1

n+

(xn+1 − x)2∑ni=1(xi − x)2

]

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 67 / 123

Page 54: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Prediction

Intervalle de prediction d’une observation

.

......

IC1−α

yn+1=

[yn+1 ± t(1−α/2;n−2)sn−2

√1 +

1

n+

(xn+1 − x)2∑ni=1(xi − x)2

]

Quelques remarques

La taille du rayon de l’intervalle de confiance sera d’autant plus faible que

s2n−2 est faible → la regression est de bonne qualiten est elevexn+1 est proche de x ↔ (xn+1 − x)2 est faible∑n

i=1(xi − x)2 est eleve → les xi sont bien disperses

Attention : utiliser des valeurs de x qui sont dans le cadre d’etude(relativement proches de x pour obtenir de bonnes predictions.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 68 / 123

Page 55: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Mise en evidence d’un probleme

Mise en evidence d’un probleme

Vente de CD et cas de grippe H1N1 en 2009

Region Nb cas de grippe H1N1 Nb ventes CD M.J.

Region 1 . .Region 2 . .

. . .

. . .Region n . .

Il existe une liaison lineaire significative . . .

Test de ρ : p < 1.10−4, Test de β1 : p < 1.10−4

. . . mais pas de relation de cause a effet !

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 70 / 123

Page 56: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Mise en evidence d’un probleme

Mise en evidence d’un probleme

Existence de Facteurs de confusion (ici : la periode de temps)Exemple : vente de CD de MJ les plus fortes en automne alors

Pour la meme periode :

{↗ ventes

↗ cas de grippes

Grippe

Temps

Ventes

Moyenne d’une V.A. continueX ! L(µ,!2)

Figure : Diagramme de correlation

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 71 / 123

Page 57: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire simple Mise en evidence d’un probleme

Mise en evidence d’un probleme

Necessite de pouvoir ajuster sur des facteurs de confusion

Dans de nombreuses situations, plusieurs facteurs peuvent expliquer uncaractere

Y = f (X1,X2, . . . ,Xp)

Regression lineaire multiple

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 72 / 123

Page 58: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple

Cadre d’etude

Y est un caractere non controle (caractere explique)

X1,X2, . . .Xp sont des caracteres controles (caracteres explicatifs)

Considerons un echantillon de n observations i.i.d. : I = {1, . . . , n}yi est la valeur observee pour l’individu i

xij est la valeur fixee pour l’individu i et la variable j , j ∈ {1, 2, . . . , p}

Objectif : Exprimer le lien entre Y et les Xj .

Y = f (X1,X2, . . . ,Xp) + ϵ

Il existe une infinite de liaisons fonctionnelles −→ la plus simple est lineaire

Regression lineaire multiple...1 Modele de regression...2 Hyperplan de regression au sens des moindres carres

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 74 / 123

Page 59: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Modele de regression lineaire multiple

Modele de regression lineaire multiple

∀i ∈ I , yi est la realisation de la v.a.r. Yi telle que.

......

Yi = β0 + β1xi1 + β2xi2 + . . . βpxip + ϵi = β0 +

p∑j=1

βjxij + ϵi

Avec

ϵi : erreur du modele (v.a.r.) (part de variabilite de Y qui n’est pas expliqueepar le lien fonctionnel lineaire)

β0, β1, . . . , βp : coefficients du modele, constantes (valeurs fixes dans lapopulation).

Hypotheses du modele

E[ϵi ] = 0, V[ϵi ] = σ2 (hypothese d’homoscedasticite)

L’erreur est independantes des Xj → COV(xij , ϵi ) = 0

ϵi ∼ N (0, σ2) (normalite des residus) → tests dans le modele

Les ϵi , 1 ≤ i ≤ n, sont mutuellement independantes (absenced’autocorrelation des residus) → Cov(ϵi , ϵj) = 0 si i = j .

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 76 / 123

Page 60: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Modele de regression lineaire multiple

Ecriture du modeleSur un echantillon de n observations i.i.d. :

Y1 = β0 + β1x11 + β2x12 + . . .+ βpx1p + ϵ1

Y2 = β0 + β1x21 + β2x22 + . . .+ βpx2p + ϵ2...

Yn = β0 + β1xn1 + β2xn2 + . . .+ βpxnp + ϵn

Ecriture matricielle

Y =

Y1

...Yn

β =

β0

...βp

X =

1 x11 x12 · · · x1p...

......

. . ....

1 xn1 xn2 · · · xnp

ϵ =

ϵ1...ϵn

Y = X. β + ϵn × 1 n × (p + 1) (p + 1)× 1 n × 1

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 77 / 123

Page 61: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Methode des moindres carres ordinaires

Hyperplan de regression au sens des moindres carres

Objectif : estimer β0, β1, . . . , βp grace a leur estimateurs B0,B1,B2, . . . ,Bp etleur realisations b0, b1, b2, . . . , bp sur un echantillon d’observations i.i.d. de taillen.

β =

β0

...βp

B =

B0

...Bp

b =

b0...bp

Trouver b qui minimisent l’erreur :

.

......

S(β0, . . . , βp) =n∑

i=1

(ϵi )2 =

n∑i=1

yi − β0 −p∑

j=1

βjxij

2

= ||ϵ||2

.

...... Solution : b =(XTX

)−1XTY

Remarque : B est appele estimateur des moindres carres de β. .. Details

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 79 / 123

Page 62: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Methode des moindres carres ordinaires

Hyperplan de regression au sens des moindres carres

L’ hyperplan de regression au sens des moindres carres a pour expression :

.

......

yi = b0 +

p∑j=1

bjxij

C’est une estimation du modele de regression multiple par la methode desmoindres carres.

Les erreurs observees sur l’echantillon sont appeles residus.

.

......

ei = (yi − yi ) = yi − b0 −p∑

j=1

bjxij

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 80 / 123

Page 63: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Methode des moindres carres ordinaires

Proprietes des estimateurs - Moments (1)

.

...... E[B] = β estimateur sans biais

.

...... V[B] = σ2(XTX

)−1

.. Details

V[B](p+1)×(p+1) est appelee matrice de variances - covariances des coefficients :σ2B0

COV (B0,B1) . . . COV (B0,Bp)· σ2

B1. . . COV (B1,Bp)

... · . . . ·· · . . . σ2

Bp

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 81 / 123

Page 64: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Methode des moindres carres ordinaires

Proprietes des estimateurs - Moments (2)

La matrice de variances - covariances V[B] fait intervenir la variance de l’erreurσ2.

Cette variance est inconnue

Elle est estimee par S2n−p−1 au moyen du tableau d’ANOVA.

On montre que

.

......S2n−p−1 =

SCR

n − p − 1=

∑ni=1 (Ei )

2

n − p − 1

est un estimateur non biaise de σ2.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 82 / 123

Page 65: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Methode des moindres carres ordinaires

Proprietes des estimateurs - Distributions d’echantillonnage

De par les hypotheses du modele et l’estimation de σ2, on montre que∀j ∈ {0, 1, . . . , p}.

......

Bj − βj

σBj

∼ Tn−p−1 d.d.l.

avec σBj tire de la matrice de variances-covariances.

Ces distributions vont nous permettre de realiser une inference statistique sur lescoefficients (tests de nullite et intervalles de confiance).

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 83 / 123

Page 66: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Qualite de l’ajustement

Qualite de l’ajustement

Equation d’analyse de la variance

yi − y = (yi − y) + (yi − yi )

(yi − y)2 = (yi − y)2 + (yi − yi )2

n∑i=1

(yi − y)2 =n∑

i=1

(yi − y)2 +n∑

i=1

(yi − yi )2

.

......

n∑i=1

(yi − y)2︸ ︷︷ ︸Somme des carres

totaleSCT

=n∑

i=1

(yi − y)2︸ ︷︷ ︸Somme des carres

expliqueeSCE

+n∑

i=1

(yi − yi )2

︸ ︷︷ ︸Somme des carres

residuelleSCR

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 85 / 123

Page 67: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Qualite de l’ajustement

Qualite de l’ajustement

Evaluation de la qualite d’ajustement du modele

⇒ Coefficient de determination.

......R2 =

SCE

SCT∈ [0, 1]

Interpretation : Part de variabilite de Y expliquee par le modele de regressionlineaire multiple.

Remarque importante : R2 est fonction du nombre variables explicatives dans lemodele (meme non pertinentes)

p ↗ → R2 ↗

Aussi : tests de significativite des coefficients, selection de variables (modeleparcimonieux)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 86 / 123

Page 68: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Etude de la validite du modele

Etude des residus : Verification des hypotheses du modele faites sur les erreurs

Verifier la normalite des residus observes

Verifier que les residus ne contiennent pas d’information structuree(V[ϵ] = σ2)

Les residus ne dependent pas des Xj

Verifier que les residus ne sont pas auto-correles entre eux (les ϵi sontmutuellement independantes)

→ Ces hypotheses vont permettre par la suite de realiser des tests dans lemodele lineaire.

Observations aberrantes / influentes

Valeur aberrante d’une observation (diagnostic univarie, multivarie)

Observation i mal reconstituee par la regression → (ei eleve)

Observation i presentant un poids exagere dans la regression (prediction /coefficients)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 88 / 123

Page 69: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Etude des residus

Verification de la normalite des residus

histogramme ⇒ la distribution doit etre unimodale et symetrique autour de 0.

Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peupuissants (peu aptes a rejeter H0)

Droite de Henry ⇒ confronte les quantiles theoriques de la loi normale et ladistribution cumulee estimee sur les donnees

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 89 / 123

Page 70: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Etude des residus

Verification de l’homoscedasticite des residus

Les residus sont dits homoscedastiques si leur dispersion est homogene et nedepend pas des valeurs de la variable explicative xj (et donc pas non plus desvaleurs predites).On verifie que les residus n’ont pas de structure particuliere en tracant un graphedes residus :

Introduction Correlation Regression lineaire simple Conclusion

Etude des residus

Verification de l’homoscedasticite des residus

Les residus sont homoscedastiques si leur repartition est homogeneet ne depend pas des valeurs de la variable explicative (et donc pasnon plus des valeurs predites).On verifie que les residus n’ont pas de structure particuliere entracant un graphe des residus :

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

−40 −20 0 20 40

−4−2

02

4

Residus non correles

X

Residus

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

−40 −20 0 20 40

−2−1

01

2

Residus correles

X

Residus

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 90 / 123

Page 71: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Etude des residus

On peut localiser des points du nuage mal expliques par la relation lineaire entracant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1

on peut considerer ces points, si ils ne sont pas trop nombreux, comme despoints exceptionnels, les eliminer et recalculer b1 et b0.

on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindrescarres ponderes (fonction de l’ecart |y − y |/2s2n−p−1). Methode plus robuste

si il y a beaucoup de points mal expliques (en dehors de la bande), c’est quele modele est mal choisi.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 91 / 123

Page 72: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Etude des residus

● ●

25 30 35 40 45 50 55

−6

−4

−2

02

46

graphe des residus

age

resi

dus

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 92 / 123

Page 73: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Etude des residus

Verification de l’independance entre les residus

Test de Durbin Watson{H0 : il n’y a pas de correlation entre ϵi et ϵi−1

H1 : il y a une correlation entre ϵi et ϵi−1

.

......d =

∑ni=2(ei − ei−1)

2∑ni=1 e

2i

La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pasd’autocorrelation.La loi de d est tabulee : DL et DU bornes au risque α.

0 4 4-DU DU DL 2 4-DL

AC Positive Rejet H0

AC Négative Rejet H0

Pas d’AC Non Rejet de

H0

? ?

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 93 / 123

Page 74: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Valeur aberrante de xj (Univarie) → Boxplot

Effet important sur l’estimation de l’hyperplan de regression

Mauvais ajustement aux donnees

Solution : descriptif univarie → boxplot

1020

3040

50

Probleme : Ne prend pas en compte les interactions possibles entre les Xj .

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 94 / 123

Page 75: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Valeur aberrante (Multivarie) → Levier

Principe : Pour une observation i , mesure la distance avec le centre de gravite dunuage defini par les Xj , j ∈ {1, , . . . , p}Le levier d’une observation i se lit sur la diagonale de la matrice H (hat matrix) :

H = X(XTX

)−1XT

En pratique

.

...... hii = hi = xi(XTX

)−1xTi

avec xi la ieme ligne de la matrice X.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 95 / 123

Page 76: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Valeur aberrante (Multivarie) → Levier

Regle de decision

.

......R.C . : hi > 2× p + 1

n

Permet de detecter des observations aberrantes / influentes d’un point de vuemultivarie

Effet nefaste sur l’estimation des βj par les MCO

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 96 / 123

Page 77: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Residus studentises internes

Idee : Mettre en evidence les observations dont le residu ei est important Pour uneobservation i , le residu studentise interne est defini par :

.

......ti =

ei

sn−p−1

√1− hi

avec hi levier de l’observation i . On montre que

Ti ∼ T(n−p−1).

D’ou :RC : |ti | > t

1−α/2n−p−1

Probleme : L’observation evaluee a participe a la construction de la droite (Jugeet partie).

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 97 / 123

Page 78: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Residus studentises externes

Idee : Estimer le modele sans l’observation i (−i) et comparer la valeur observeede yi a celle predite par le modele (yi (−i) : prediction pour une nouvelleobservation).Pour une observation i , le residu studentise externe est defini par :

.

......t∗i =

yi − yi (−i)

sn−p−1(−i)√1− hi (−i)

On montre queT ∗i ∼ T(n−p−1).

D’ou :RC : |t∗i | > t

1−α/2n−p−1

Remarque :

t∗i =

√n − p − 2

n − p − 1− t2i

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 98 / 123

Page 79: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Distance de Cook

Idee : Evaluer l’influence d’une observation i sur l’estimation des coefficients.Comparaison des predictions du modele complet et du modele sans l’observation i .La distance de Cook pour une observation i est definie par

.

......Di =

∑nj=1(yj − yj(−i))2

(p + 1)s2n−p−1

Regle de decisionRC : Di > 1

RC : Di >4

n − p − 1(Ajustement sur le nombre de variables)

Si la difference entre les predictions est elevee, l’observations i joue un role surl’estimation des coefficients.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 99 / 123

Page 80: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

DFBETAS

Idee : Si la distance de COOK a identifie une observation ayant une influence surl’estimation des coefficients, on peut aller plus loin pour determiner quelcoefficient est affecte.Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, leDFBETAS est defini par :

.

......

DFBETASi,j =bj − bj(−i)

sn−p−1(−i)√(XTX)

−1j

Regle de decision

RC : |DFBETASi,j | >2√n

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 100 / 123

Page 81: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Inference statistique

Evaluation globale de la regression

Tableau d’analyse de variance - Test de significativite globale

R2 permet d’evaluer la qualite de l’ajustement. L’information emmenee par laregression de Y par les Xj traduit-elle une relation qui existe vraiment dans lapopulation ?

Table : Tableau ANOVA

Source de variation Somme des carres DDL Carres moyens

Expliquee SCE =∑

i (yi − y)2 p CME = CMEp

Residuelle SCR =∑

i (yi − yi )2 n − p − 1 CMR = CMR

n−p−1

Totale SCT =∑

i (yi − y)2 n − 1 -

Degres de liberte :

SCT necessite l’estimation y → n − 1 ddl

SCR necessite l’estimation des βj pour yi → n − (p + 1) ddl

SCE par deduction : (n − 1)− (n − p − 1) = 1 ddl

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 102 / 123

Page 82: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Inference statistique

Evaluation globale de la regression

Tableau d’analyse de variance - Test de significativite globale

Le test F permet d’evaluer la significativite globale de la regression.{H0 : β1 = β2 = . . . = βp = 0

H1 : ∃j/βj = 0

Sous H0

.

......F =

CME

CMR∼ Fp,n−p−1 ddl

Interpretation : {H0 : ”Le modele est non explicatif”

H1 : ”Le modele est explicatif”

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 103 / 123

Page 83: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Inference statistique

Evaluation des coefficients - βj

Test de significativite de βj

Idee : tester la nullite de βj .{H0 : βj = 0 ”Xj n’a aucun pouvoir explicatif sur Y”

H1 : βj = 0 ”Xj a un pouvoir explicatif sur Y”

Nous savons queBj−βj

σBj∼ Tn−p−1, par consequent :

Sous H0

.

......

Bj

σBj

∼ Tn−p−2

Intervalle de confiance de βj

.

...... IC1−α

βj=

[bj ± t(1−α/2;n−p−1)σBj

]Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 104 / 123

Page 84: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Prediction

Intervalle de prediction d’une observation

Contexte : Le modele de regression ayant ete valide, il est possible d’estimer lavaleur de yn+1 pour une observation Xn+1 n’appartenant pas a l’echantillon :

Xn+1 = (xn+1,1, xn+1,2, . . . , xn+1,p)

yn+1 = b0 +

p∑j=1

bjxn+1,j

yn+1 = Xn+1.b

Or yn+1 n’est qu’une estimation du ”vrai hyperplan de regression” dans lapopulation. Une estimation ponctuelle ne suffit pas, il faut lui associer unintervalle de confiance :.

......IC

1−α

yn+1=

[yn+1 ± t(1−αr ;n−p−1)sn−p−1

√1 + Xn+1 (XTX)

−1XT

n+1

]

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 106 / 123

Page 85: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Detection et traitement de la colinearite

Definition et consequences de la colinearite

Definition

Une variable explicative Xj est colineaire a une autre variable Xk lorsquerXj ,Xk

> 0.8.Une variable explicative Xj est multicolineaire aux autres variables lorsque

Xj = β′

0 + β′

1X1 + . . .+ β′

j−1Xj−1 + β′

j+1Xj+1 + . . .+ β′

pXp,

elle peut s’ecrire comme une combinaison lineaire des autres variables explicatives.

Consequences

Valeurs/Signes des coefficients contraires a l’intuition

Variances estimees des coefficients trop importantes

Coefficients non significatifs (inference statistique)

Instabilite du modele

Risque de passer a cote d’une variable importante (redondance)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 108 / 123

Page 86: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Detection et traitement de la colinearite

Detection de la colinearite

Variance Inflation Factor - VIF

Principe : Pour chaque Xj , realisation de la regression de Xj avec les autresvariables explicatives. On note R2

j le coefficient de determination associe a cetteregression.Pour une variable Xj , le VIF est defini par

.

......VIFj =

1

1− R2j

La valeur du VIF sera d’autant plus forte que Xj est une combinaison lineaire desautres variables.

Regle de decisionVIFj ≥ 4

Rq : Determination des variables incriminees dans la combinaison lineaire →Cercle des correlations (ACP)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 109 / 123

Page 87: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Detection et traitement de la colinearite

Detection de la colinearite

Variance Inflation Factor - VIF

Remarque :

σ2Bj

=σ2

nVIFj

Donc :

Plus la valeur de VIFj est importante plus σ2Bj

sera importante

Estimation instable

Probleme de significativite du coefficient

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 110 / 123

Page 88: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Detection et traitement de la colinearite

Traitement de la colinearite

Approche ”metier”

Mise en evidence de plusieurs variables explicatives colineaires (VIF + ACP)

Discussion et choix de la (ou les) variable(s) la (les) plus pertinente(s) pourl’analyse

Approche statistique

Methode de selection de variables (Forward, Backward, Stepwise)

Mais si toutes les variables sont pertinentes ?

Regression sur les composantes principales de l’ACP

Regression ridge

Regression PLS

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 111 / 123

Page 89: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Selection de variables

Motivations - Critere de selection de variables

Motivations

Selection d’un sous-ensemble de Xj pertinentes et non redondantes quiexpliquent au mieux Y

Principe du rasoir d’Occam → Modeles parcimonieux

Modele plus simple, lisible, robuste, stableNombre restreint de variables explicatives (collecte des donnees)

Traitement de la multicolinearite

Critere de selection de variables

Retrait ou ajout d’une variable Xj dans le modele en fonction de sa valeur du Fj

partiel de Fisher :

.

......Fj =

(Bj

σBJ

)2

∼ F1,n−p−1

.. Details

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 113 / 123

Page 90: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Selection de variables

Motivations - Critere de selection de variables

Autres criteres de selection de variables

R2 ajuste

R2 = 1− SCR/(n − p − 1)

SCT/(n − 1)

AIC (a minimiser)

AIC = n ln

(SCR

n

)+ 2(p + 1)

BIC de Schwartz (a maximiser)

BIC = n ln

(SCR

n

)+ ln(n)(p + 1)

etc. . .

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 114 / 123

Page 91: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Selection de variables

Methodes de selection de variables

Methode ascendante (Forward)

Principe : On part du modele sans Xj . On ajoute successivement les Xj qui sontsignificatifs au sens du F partiel de Fisher et on s’arrete lorsqu’on ne peut plusajouter de Xj (NS dans le modele)

TANT QUE Condition d’arret = FAUX FAIRE

Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arret)Choix de F ∗

j tel que F ∗j = max{F1, . . . ,Fp}

SI P(F ∗j > f ∗j

)< αsle ALORS

Ajout de Xj au modele

SINON Arret

Fin TANT QUE

Remarques :

Plus αsle est eleve plus le nombre de variables dans le modele sera important

En pratique : αsle = 0.2

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 115 / 123

Page 92: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Selection de variables

Methodes de selection de variables

Methode ascendante (Forward) - Exemple

Soient Y et X1,X2,X3 sur un echantillon de n = 50 observations

Etape Modele ddl F (p-value)

1 Y = β0 1 ;50-1-1 X1 → 43 (3, 51.10−8)X2 → 150 (2, 22.10−16)X3 → 12 (1, 11.10−3)

2 Y = β0 + β2X2 1 ;50-2-1 X1 → 9 (4, 31.10−3)X3 → 2 (0.1639)

3 Y = β0 + β2X2 + β1X1 1 ;50-3-1 X3 → 0.7 (0.4071)

X3 n’est plus significative dans le modele. Modele final :

Y = β0 + β2X2 + β1X1

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 116 / 123

Page 93: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Selection de variables

Methodes de selection de variables

Methode descendante (Backward)

Principe : On part du modele sature (toutes les Xj). On retire successivement lesXj qui sont non significatifves au sens du F partiel de Fisher et on s’arretelorsqu’on toutes les Xj sont significatives.

TANT QUE Condition d’arret = FAUX FAIRE

Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arret)Choix de F ∗

j tel que F ∗j = min{F1, . . . ,Fp}

SI P(F ∗j > f ∗j

)> αsls ALORS

Retrait de Xj du modele

SINON Arret

Fin TANT QUE

Remarques :

Plus αsls est faible plus le nombre de variables dans le modele sera faible

En pratique : αsls = 0.2

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 117 / 123

Page 94: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Selection de variables

Methodes de selection de variables

Methode Stepwise

Principe : ”Mix” entre les methodes ascendante et descendante. On debut par lemodele sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher(αsle). Dans les etapes suivantes, on verifie que l’ajout d’une variable de conduitpas a la non significativite (αsls) des autres deja presentes dans le modele (phasedescendante).Le processus se termine quand aucune Xj n’est significative lors de la phaseascendante.

Avantage : Contrairement la methode ascendante, une Xj introduite dans lemodele peut etre remise en cause lors des etapes suivantes.

En pratique :αsle = αsls = 0.2

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 118 / 123

Page 95: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Selection de variables

Methodes de selection de variables

Methode Stepwise

On part du modele : Y = β0

TANT QUE Condition d’arret = FAUX FAIRE

Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arret)Choix de F ∗

j tel que F ∗j = max{F1, . . . ,Fp}

SI P(F ∗j > f ∗j

)< αsle ALORS

Ajout de Xj du modelePOUR Chaque Xj inclue dans le modele FAIRE

Calcul de Fj pour chaque Xj

Choix de F ∗j tel que F ∗

j = min{F1, . . . ,Fp}SI P

(F ∗j > f ∗j

)> αsls ALORS

Retrait de Xj du modele

FIN POUR

SINON Arret

Fin TANT QUE

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 119 / 123

Page 96: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Regression lineaire multiple Conclusions

Processus de modelisation...1 Estimation des coefficients (MCO)...2 Mesure de la qualite d’ajustement (R2)...3 Etude la validite du modele

Si hypotheses sur les erreurs non verifiees → STOPSi observations aberrantes/influentes →

Correction/SuppressionRetour a l’Etape 1

...4 Inference statistique

Test de significativite globaleTests de significativite des coefficients

...5 Evaluation de la multicolinearite

...6 Selection de variables (Modele parcimonieux)

Modele restreintReiteration des Etapes 1, 2, 3, 4

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 121 / 123

Page 97: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

References

References

Livres

Probabilites Analyses des donnees et Statistique, G. Saporta, TECHNIP

Dodge, Y, Rousson, V., Analyse de regression appliquee, Dunod, 2eme edition,2004.

Supports en ligne

Econometrie - Regression lineaire simple et multiple, R. Rakotomalalahttp://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf

Pratique de la regression lineaire multiple - Diagnostic et Selection devariables, R. Rakotomalalahttp://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf

Regression lineaire, A. Guyaderhttp:

//www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 123 / 123

Page 98: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 1 - Systeme aux equations normales

min S(β0, β1) = minn∑

i=1

(yi − (β1xi + β0))2

= minn∑

i=1

[y2i − 2xiyiβ1 − 2yiβ0 + β2

1x2i + 2β0β1xi + β2

0

]S(β0, β1) est strictement convexe donc elle admet un minimum au point unique(b0, b1) determine en annulant les derivees partielles de S :

∂S(β0, β1)

∂β0= 0 ⇒

n∑i=1

−2yi + 2b1xi + 2b0 = 0 (1)

∂S(β0, β1)

∂β1= 0 ⇒

n∑i=1

−2xiyi + 2b1x2i + 2b0xi = 0 (2)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 1 / 11

Page 99: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 1 - Systeme aux equations normales

De (1) on deduit que

b0 =

∑ni=1 yi − b1

∑ni=1 xi

n= y − b1x (3)

De (2) on deduit que

b1

n∑i=1

x2i + b0

n∑i=1

xi =n∑

i=1

xiyi (4)

En utilisant (3) nous obtenons

b1

n∑i=1

x2i + (y − b1x)n∑

i=1

xi =n∑

i=1

xiyi (5)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 2 / 11

Page 100: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 1 - Systeme aux equations normales

En divisant par n les deux termes :

b11

n

n∑i=1

x2i + (y − b1x)x =1

n

n∑i=1

xiyi (6)

b1

[1

n

n∑i=1

x2i − x2

]=

1

n

n∑i=1

xiyi − x y (7)

b1 =sxys2x

(8)

.. Retour

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 3 / 11

Page 101: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 2 - RLM : MCO

Observons que ||ϵ||2 = ||Y − Xβ||2. Aussi

||ϵ||2 = (Y − Xβ)T (Y − Xβ) = YTY − YTXβ − βTXTY + βTXTXβ.

Or comme la transposee d’un scalaire est egale a lui-meme :(YTXβ

)T= βTXTY,

nous avons donc

S(β0, . . . , βp) = ||ϵ||2 = YTY − 2βTXTY + βTXTXβ

Minimiser la fonction S revient a annuler les derivees differentielles par rapport aβ. L’annulation de la derivation matricielle nous donne

∂S

∂β= −2

(XTY

)+ 2

(XTX

)b = 0

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 4 / 11

Page 102: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 2 - RLM : MCO

Aussi (XTX

)b =

(XTY

).

Or rg(X) = p et p ≤ n donc(XTX

)est inversible. Aussi

b =(XTX

)−1 (XTY

).. Retour

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 5 / 11

Page 103: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 3 - RLM : moments des estimateurs

Esperance

E[B] = E[(XTX

)−1XTY

]=

(XTX

)−1XTE[Y]

E[B] =(XTX

)−1XTE[X.β + ϵ] = β

Variance

V[B] = V[(XTX

)−1XTY

]= X

(XTX

)−1 V[Y](XTX

)−1XT

V[B] = X(XTX

)−1 V[ϵ](XTX

)−1XT = σ2

(XTX

)−1

.. Retour

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 6 / 11

Page 104: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 4 - F partiel de Fisher

L’egalite

F =

(Bj

σBJ

)2

∼ F1,n−p−1

se base sur un cas particulier du test de nullite d’un bloc de q coefficients.{H0 : Y = β0 + β1X1 + . . .+ βjXj + βj+q+1Xj+q+1 + . . .+ βpXp + ϵ

H1 : Y = β0 + β1X1 + . . .+ βpXp + ϵ{H0 : Modele sans les q variables (modele restreint)

H1 : Modele complet

Posons

R2(0) : Coefficient de determination du modele restreint (H0)

R2(1) : Coefficient de determination du modele complet (H1)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 7 / 11

Page 105: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 4 - F partiel de Fisher

Notons F la statistique de test associee. On montre que sous H0,

F =

(R2(1) − R2

(0)

)/q(

1− R2(1)

)/(n − p − 1)

∼ Fq,n−p−1

Autre interpretation : si l’accroissement(R2(1) − R2

(0)

)>

q

n − p − 1fq,n−p−1

alors la place des q variables dans le modele est justifiee.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 8 / 11

Page 106: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 4 - F partiel de Fisher

Cas particulier quand q = 1

On veut tester la nullite d’un coefficient βj{H0 : Y = β0 + β1X1 + . . .+ βj−1Xj−1 + βj+1Xj+1 + . . .+ βpXp + ϵ

H1 : Y = β0 + β1X1 + . . .+ βpXp + ϵ{H0 : Modele sans Xj (modele restreint)

H1 : Modele complet

Posons

R2(0) : Coefficient de determination du modele restreint (H0)

R2(1) : Coefficient de determination du modele complet (H1)

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 9 / 11

Page 107: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 4 - F partiel de Fisher

Cas particulier quand q = 1

Notons F la statistique de test associee. On montre que sous H0,

F =

(R2(1) − R2

(0)

)/1(

1− R2(1)

)/(n − p − 1)

∼ F1,n−p−1

Or

T =Bj

σBJ

∼ Tn−p−1

Donc

F = T 2 =

(Bj

σBJ

)2

Remarque : test de la significativite du coefficient et son apport au R2.

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 10 / 11

Page 108: Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Annexe 4 - F partiel de Fisher

Cas particulier quand q = 1

Autre interpretation : si l’accroissement(R2(1) − R2

(0)

)>

1

n − p − 1f1,n−p−1

alors la place de Xj dans le modele est justifiee.

Note : Tests de type III sous SAS.

.. Retour

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 11 / 11


Recommended