Home >Documents >Premi eres notions de statistique R egression Lin...

Premi eres notions de statistique R egression Lin...

Date post:16-Sep-2018
Category:
View:212 times
Download:0 times
Share this document with a friend
Transcript:
  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Premieres notions de statistiqueRegression Lineaire

    Franck Picard

    UMR CNRS-5558, Laboratoire de Biometrie et Biologie Evolutive

    [email protected]

    F. Picard, 1/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Outline

    1 Principe generaux et typologie des modeles lineaires

    2 Quest ce quun modele de regression ?

    3 Quest ce quun modele de regression lineaire?

    4 Le modele de regression lineaire simple

    5 Tests, intervalles de confiance, et prediction

    6 Decomposition de la variance

    7 Analyse des Residus

    8 Regression Lineaire Multiple

    F. Picard, 2/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Preambule

    Une des strategies les plus utilisee pour planifier des experienceset/ou analyser leurs resultats

    Les modeles lineaires permettent une modelisation simple desrelations entre une variable a expliquer, souvent notee Y , et desvariables explicatives souvent notees X (et souvent appeleescovariables).

    Exemple: la taille des filles et des garcons est-elle la meme ? lesalaire depend-il de lage ? le medicament a-t-il un effet ? Le geneA predispose-t-il a la maladie M ?

    Historiquement, le modele lineaire a ete developpe par Fisher, avecapplications en genetique et en agronomie

    F. Picard, 3/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Modele Lineaire Gaussien et Modeles Lineaires Generalises

    Quelle distribution pourmodeliser les observations ?

    Importance de lanalysedescriptive

    Modele lineaire gaussien pourdes observations pouvant etremodelisees par une loi normale

    Modele lineaire generalisepour dautres distributions(Poisson, Bernoulli...)

    F. Picard, 4/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Modeles pour les observations (in)dependantes

    Le modele lineaire gaussien pourdes observations quiindependantes

    Series chronologiques etmodeles de dependancetemporelle

    statistique spatiale pourmodeliser dependance spatiale

    Les modeles lineaires mixtespermettent egalement demodeliser certains types dedependance

    F. Picard, 5/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Elements de vocabulaire courant (et pertinent ?)

    LANOVA se caracterise par des variables explicatives discretes oucategorielles ou qualitatives (ex: Fille/Garcon, medicament A-B ouC)

    La Regression se caracterise par des variables explicatives continuesou quantitatives (ex: lage, le poids)

    LANCOVA se caracterise par un melange de variables qualitatives etquantitatives

    Il existe egalement des facteurs dits ordinaux: facteurs discretsordonnes.

    Ces trois modeles sont des modeles lineaires et se traitent de manieresimilaire: dun point de vue mathematique et pratique il ny a pas de

    difference

    F. Picard, 6/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Outline

    1 Principe generaux et typologie des modeles lineaires

    2 Quest ce quun modele de regression ?

    3 Quest ce quun modele de regression lineaire?

    4 Le modele de regression lineaire simple

    5 Tests, intervalles de confiance, et prediction

    6 Decomposition de la variance

    7 Analyse des Residus

    8 Regression Lineaire Multiple

    F. Picard, 7/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Premieres notations

    On suppose que lon dispose de n observations (y1, . . . , yn) que lonmodelise par des variables aleatoires gaussiennes independantes(Y1, . . . ,Yn): Yi N (i , 2).

    On suppose que la variance de toutes les observations est la meme :cest lhypothese dhomoscedasticite (2 est constante).

    On observe egalement des covariables (x1, . . . , xn), sur les memesindividus. Les donnees dont on dispose sont en fait les couples(yi , xi )i .

    Exemples : le poids yi dune personne i et sa taille xi , le rendementdune culture yi et la dose dengrais xi .

    Pour un modele lineaire standard on suppose que les Yi sontaleatoires et que les xi sont fixees

    F. Picard, 8/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Notion desperance conditionnelle

    Une strategie de modelisation pour etudier les relations entre yi et xiest de supposer que les covariables ont une influence surlesperance des Yi

    On modelise lesperance de Yi conditionnellement aux valeursobservees des Xi a xi :

    Yi |{Xi = xi} N ((xi ), 2)

    (xi ) = E(Yi |Xi = xi ) =

    yi fY |X (yi ; xi )dy

    (xi ) sappelle la fonction de regression: cest la fonction qui relieles xi aux observations.

    Ce que lon neglige en considerant lesperance conditionnelle, cestla variabilite des covariables que lon suppose fixees.

    F. Picard, 9/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Et la variance conditionnelle ?

    Quen est-il de la relation entre les covariables et la variance des Y ? On note V(Yi |Xi = xi ) cette variance conditionnelle

    V(Yi |Xi = xi ) = E(Y 2i |Xi = xi ) E2(Yi |Xi = xi )

    Dans le modele lineaire gaussien on suppose que la variabilite desobservations Yi ne depend pas des covariables

    V(Yi |Xi = xi ) = 2

    Exemple: la variabilite de la taille des filles est la meme que lavariabilite de la taille des garcons.

    Ce nest pas forcement une hypothese realiste, mais elle permet defaire les calculs

    Il existe des strategies pour stabiliser la variance (methode delta)

    F. Picard, 10/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Definition des variables residuelles

    Jusqua present, le modele secrivait : Yi |{Xi = xi} N ((xi ), 2) On peut considerer la nouvelle variable

    i = Yi E(Yi |Xi = xi ) N (0, 2)

    Cest lecart entre lobservation Yi et son esperance conditionnelle. i est residu aleatoire: cest erreur aleatoire que lon commettrait

    en remplacant Yi par (xi ).

    On propose une autre ecriture du modele lineaire gaussien:

    Yi = (xi ) + i , i iidN (0, 2)

    Le parametre 2 sinterprete comme la variabilite des erreursaleatoires

    F. Picard, 11/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Outline

    1 Principe generaux et typologie des modeles lineaires

    2 Quest ce quun modele de regression ?

    3 Quest ce quun modele de regression lineaire?

    4 Le modele de regression lineaire simple

    5 Tests, intervalles de confiance, et prediction

    6 Decomposition de la variance

    7 Analyse des Residus

    8 Regression Lineaire Multiple

    F. Picard, 12/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Quelle forme pour la fonction de regression ?

    Le modele E(Yi |Xi = xi ) = (xi ) est tres general, et on ne connaitpas forcement la forme de la fonction

    Le cadre de la regression fonctionnelle sinteresse a lestimation dela fonction directement

    Dans le modele lineaire, on fait des hypotheses supplementairessur la forme de :

    1 On suppose que depend de parametres = (0, . . . , p). prepresente le nombre de covariables disponibles

    2 On suppose que est une fonction affine

    Dans un modele lineaire on supposera que

    (xi ) = 0 + 1xi , et que (0, 1) sont fixes mais inconnus

    F. Picard, 13/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Illustration de la Regression Lineaire

    F. Picard, 14/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Variables et Parametres

    En faisant lhypothese que (xi ) = 0 + 1xi , on a reformule leprobleme de lexplication de Yi par xi .

    En choisissant la forme de la fonction de regression, on peut sefocaliser sur les parametres (0, 1)

    Etudier les liens entre Y et x revient desormais a etudier lesparametres du modele (estimation, test).

    Si 1 = 0, alors on supposera que x na pas dinfluence sur Y

    On interpretera 1 comme leffet de la covariable x sur la reponse Y.

    F. Picard, 15/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Regression Lineaire / Regression Non Lineaire

    La linearite du modele lineaire concerne les parametres et pasforcement les variables

    Exemples :(x) = 0 + 1 cos(x) est une fonction lineaire en 0, 1mais pas en x , (x) = x exp(0)/(0 + 1) nest pas lineaire en lesparametres, mais elle est lineaire en x

    Dans certaines situations on peut se ramener a un modele lineairepar transformations. Exemples

    (x) = 0 exp(1x) (x) = 0x1 (x) = 0 + 1/x

    Attention aux transformations ! Il faut adapter linterpretation desparametres !

    F. Picard, 16/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Regression Lineaire Simple / Regression Lineaire Multiple

    La regression lineaire simple consiste a etudier la relation affineentre Y et un seul regresseur x

    La regression lineaire multiple sinteresse aux relations entre Yi etplusieurs regresseurs

    On notera xj le regresseur j , et xij son observation sur lindividu i . On associe a xj le parametre j commun a tous les (x1j , . . . , xnj). La fonction de regression depend de p regresseurs (x1, . . . , xp):

    (x1, . . . , xp) = 0 +

    pj=1

    jxj

    j sinterpretera comme leffet de la covariable xj .

    F. Picard, 17/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Regresion / ANOVA, meme combat !

    On considere souvent que la regression se limite au cas ou x estquantitatif, mais elle peut se generaliser au cas ou x est discret

    Si est une variable discrete : xi = 1 si lindividu i est un garcon, 0sinon.

    On utilise la notation 1A = 1 si levenement A est realise, 0 sinon On sinteresse au poids Yi des individus en fonction de leur genre, et

    on peut definir la fonction de regression suivante:

    (x) = 0 + 11{x=1} + 21{x=0}

    La regression peut donc considerer des facteurs quantitatifs ETqualitatifs. Par contre, elle est contrainte ce que la distribution de la

    reponse soit gaussienne.

    F. Picard, 18/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Outline

    1 Principe generaux et typologie des modeles lineaires

    2 Quest ce quun modele de regression ?

    3 Quest ce quun modele de regression lineaire?

    4 Le modele de regression lineaire simple

    5 Tests, intervalles de confiance, et prediction

    6 Decomposition de la variance

    7 Analyse des Residus

    8 Regression Lineaire Multiple

    F. Picard, 19/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Contexte et objectifs - 1

    On observe 2 caracteristiques quantitatives y et x sur unepopulation de n individus. Les donnees sont donc sous la forme decouples (yi , xi )i .

    On suppose quil existe une relation affine entre y et x , qui dependde deux parametres (0, 1):

    (x) = 0 + 1x

    On suppose egalement que les observations sont des realisations devariables aleatoires gaussiennes i.i.d, telles que

    Yi |Xi = xi N (0 + 1xi , 2)

    On introduit les variables derreur aleatoires i , independantes,gaussiennes centrees de variance 2 constante

    F. Picard, 20/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Contexte et objectifs - 2

    Le modele de regression simple secrit:

    Yi = 0 + 1xi + i , i i.i.d. N (0, 2)

    0 represente la valeur moyenne des observations Yi quand xi = 0(interpretation ?)

    1 represente la pente de la droite de regression, et correspond ala variation moyenne de Y si x augmentait dune unite, et si lavraie relation entre Y et x etait lineaire.

    Objectifs de letude statistique: Estimer les parametres du modele (0, 1) et 2 Etudier la pertinence du modele: analyse des residus, tests Construire un intervalle de confiance et de prediction de la droite de

    regression

    F. Picard, 21/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Estimation des parametres par la methode desmoindre-carres A partir des observations (Yi , xi ) on souhaite trouver des

    estimateurs 0, 1. La strategie communement envisagee est celle des moindre-carres

    ordinaires (MCO) On considere lerreur quadratique moyenne EQM definie par:

    EQM() =1

    n

    ni=1

    (Yi (xi ))2 =1

    n

    ni=1

    2i

    EQM(0, 1) =1

    n

    ni=1

    (Yi [0 + 1xi ])2

    LEQM quantifie la distance entre le modele (xi ) et les observations Yiou encore la variabilite des erreurs i

    F. Picard, 22/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Systeme dequations

    (MCO0 , MCO1 ) sont les solutions de

    EQM(0, 1)

    0= 0,

    EQM(0, 1)

    1= 0

    Les derivees partielles sont:

    EQM(0, 1)

    0= 2

    ni=1

    (Yi [0 + 1xi ])

    EQM(0, 1)

    1= 2

    ni=1

    xi (Yi [0 + 1xi ])

    F. Picard, 23/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Estimateurs des moindre-carres ordinaires

    On utilise les notations usuelles:

    Y =1

    n

    ni=1

    Yi , x =1

    n

    ni=1

    xi

    Les estimateurs des MCO sont alors:

    MCO0 = Y MCO1 x

    MCO1 =

    ni=1(Yi Y )(xi x)n

    i=1(xi x)2

    On appelle droite de regression la droite dequation

    y = MCO0 + MCO1 x pour tout (y , x)

    F. Picard, 24/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Interpretation des estimateurs des parametres

    0 est lestimateur de lordonnee a lorigine de la droite de regression Ce parametre nest pas toujours interpretable ! (depend de la

    signification de x et du fait que x soit centree ou non)

    Autre ecriture:Y = 0 + 1x

    La droite de regression passe par le centre de gravite du nuage depoints (Y , x).

    Precaution : la technique des MCO creee des estimateurs sensiblesaux valeurs atypiques (cf. analyse des residus)

    F. Picard, 25/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Covariance theorique entre deux variables aleatoires La covariance et la correlation theoriques entre deux variables

    aleatoires (X ,Y ) sont definies par:

    Cov(Y ,X ) = E([Y EY ][X EX ]) = E(XY ) E(X )E(Y )

    Corr(Y ,X ) =Cov(Y ,X )V(Y )V(X )

    Si Y etait de la forme 0 + 1X , alors:

    Cov(Y ,X ) = Cov(0 + 1X ,X ) = 1V(X )

    Corr(Y ,X ) = Corr(0 + 1X ,X ) = 1

    La covariance entre deux variable mesure la part de dependancelineaire entre X et Y. La correlation est un coefficient sans unite, cest

    la version standardisee de la covariance

    F. Picard, 26/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Interpretation geometrique de la correlation

    Si Corr(X ,Y ) = 0 alors il ny a pas de relation lineaire entre Y et X . Si |Corr(X ,Y )| = 1 alors la connaissance de X determine

    exactement celle de Y

    Si Corr(X ,Y ) > 0 alors quand X augmente, Y augmente enmoyenne

    Si Corr(X ,Y ) < 0 alors quand X augmente, Y diminue en moyenne(anticorrelation)

    La correlation ninforme en rien sur la causalite entre X et Y maispermet de detecter un lien de type lineaire

    F. Picard, 27/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Covariance empirique entre deux variables aleatoires

    La covariance et la correlation empiriques sont definies par:

    Cov(Y ,X ) =1

    n 1

    ni=1

    (Xi X )(Yi Y )

    S2Y =1

    n 1

    ni=1

    (Yi Y )2, S2X =1

    n 1

    ni=1

    (Xi X )2

    Corr(Y ,X ) =Cov(Y ,X )

    S2Y S2X

    Ce sont des estimateurs sans biais de la covariance et ducoefficient de correlation

    F. Picard, 28/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Interpretation de lestimateur du coefficient de regression

    Lestimateur de 1 peut secrire:

    1 =

    ni=1(Yi Y )(xi x)n

    i=1(xi x)2=

    Cov(Y ,X )

    S2X= Corr(Y ,X )

    SYSX

    On peut sinteresser a lEQM en le point (0, 1):

    EQM(0, 1) = S2Y (1 Corr(Y ,X )) =

    n 2n

    2

    Lerreur quadratique minimale est dautant plus faible que lacorrelation entre X et Y est forte.

    Lerreur quadratique minimale sert destimateur a la variance desresidus (correction pour le biais)

    F. Picard, 29/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Outline

    1 Principe generaux et typologie des modeles lineaires

    2 Quest ce quun modele de regression ?

    3 Quest ce quun modele de regression lineaire?

    4 Le modele de regression lineaire simple

    5 Tests, intervalles de confiance, et prediction

    6 Decomposition de la variance

    7 Analyse des Residus

    8 Regression Lineaire Multiple

    F. Picard, 30/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Avec ou sans modele de distribution ?

    Il est important de noter que la construction du modele deregression et lestimation des parametres par MCO ne fait pas appelaux hypotheses de distribution

    Les hypotheses de distribution sont essentielles lorsquil sagit deconstruire des tests et des intervalles de confiance et de prediction

    Hypotheses fondamentales: Les observations sont independantes La variance des erreurs est constante 2 La loi des erreurs est une loi normale N (0, 2)

    F. Picard, 31/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Loi des estimateurs du modele lineaire gaussien On admettra que les estimateurs des parametres j sont gaussiens

    sans biais, tels que

    j jV(j)

    N (0, 1)

    V(j) est la variance de lestimateur du parametre j et onadmettra egalement quelle est de la forme:

    V(0) = 2(

    1

    n+

    (x)2

    (n 1)S2X1

    ), V(1) =

    2

    (n 1)S2X1 S2X1 represente la dispersion de X1 2 peut etre estimee par lEQM en (0, 1), dou

    V(1) =2

    (n 1)S2X1 2(n 2)

    F. Picard, 32/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Test des parametres et intervalles de confiance

    On se pose la question de leffet de la covariable H0 : {1 = 0} Dapres les hypotheses et les proprietes precedentes, on peut

    construire un test a partir de la statistique:

    j 0V(j)

    H0T (n 2)

    De meme, on peut construire un intervalle de confiance duparametre de la pente:

    IC1(1) =

    [1 tn21/2

    2

    (n 1)S2X1

    ]

    F. Picard, 33/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Intervalle de confiance de la droite de regression

    On a construit des intervalles de confiance pour les parametres 0 et1.

    On peut egalement construire un intervalle de confiance pour ladroite de regression:

    IC1(0) =

    0 tn21/22(1

    n+

    (x)2

    (n 1)S2X1

    )IC1(1) =

    [1 tn21/2

    2

    (n 1)S2X1

    ]

    IC1(0 + 1xi ) =

    0 + 1xi tn21/22(1

    n+

    (xi x)2(n 1)S2X1

    ) La largeur de lintervalle de confiance depend de la distance (xi x)2

    F. Picard, 34/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Interpretation du test de la pente

    Il faut toujours se rappeler que la regression lineaire ne sinteressequa la part lineaire de la dependance entre deux variables

    Si on rejette H0, cela ne signifie pas que tous les liens entre les deuxvariables sont captes par le modele.

    Si H0 nest pas rejetee: il nexiste pas de lien (du tout) entre les variables il ny a pas suffisamment de donnees pour detecter ce lien (pb de

    puissance) le lien entre les variables nest pas de type lineaire

    F. Picard, 35/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Prediction

    On peut considerer lexercice de regression en deux temps:apprentissage et prediction

    Apprentissage: On considere (Yi , xi )i un echantillondapprentissage sur lequel on apprend la forme de (x) et on enpropose une :

    (x) = 0 ((Yi , xi )i=1,n) + 1 ((Yi , xi )i=1,n) x

    Prediction: pour un nouvel x0 est ce que lon peut predire lareponse Y0 ?

    Y0 = (x0) = 0 ((Yi , xi )i=1,n) + 1 ((Yi , xi )i=1,n) x0

    F. Picard, 36/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Variance de prediction

    Quelle est lerreur que lon commettrait en predisant un nouvel Y0par (x0)

    Un point essentiel est que pour cet x0 le residu 0 de variance 2

    nest pas observe:

    Y0 = 0 ((Yi , xi )i=1,n) + 1 ((Yi , xi )i=1,n) x0 + 0

    Ce residu nayant pas ete observe, il est independant de lechantillondapprentissage:

    V(Y0) = V[0 ((Yi , xi )i=1,n) + 1 ((Yi , xi )i=1,n) x0

    ]+ V(0)

    = 2

    (1

    n+

    (x0 x)2

    (n 1)S2X1

    )+ 2

    F. Picard, 37/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Intervalle de prediction

    La non observation de x0 se traduit par un terme 2 supplementaire Lintervalle de prediction est plus large que lintervalle de confiance

    IC1(0 + 1xi ) =

    0 + 1xi tn21/22(1

    n+

    (xi x)2(n 1)S2X1

    )

    IP1(0+1x0) =

    0 + 1x0 tn21/22(1 + 1

    n+

    (x0 x)2(n 1)S2X1

    ) La qualite de la prediction depend elle aussi de la distance au centre

    de gravite (x0 x)2

    F. Picard, 38/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Illustration des Intervalles de Confiance/Prediction

    F. Picard, 39/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Outline

    1 Principe generaux et typologie des modeles lineaires

    2 Quest ce quun modele de regression ?

    3 Quest ce quun modele de regression lineaire?

    4 Le modele de regression lineaire simple

    5 Tests, intervalles de confiance, et prediction

    6 Decomposition de la variance

    7 Analyse des Residus

    8 Regression Lineaire Multiple

    F. Picard, 40/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Le cas particulier de la regression lineaire simple

    Le modele est le suivant: Yi = 0 + 1xi + i (+hypotheses) Les sommes de carres : Yi (xi ) = 0 + 1xi :

    SCT(Y) =n

    i=1

    (Yi Y )2

    SCM(Y,X) =n

    i=1

    (0 + 1xi Y )2

    SCR(Y,X) =n

    i=1

    (Yi (0 + 1xi ))2

    F. Picard, 41/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Le cas particulier de la regression lineaire simple

    La table dAnalyse de la variance secrit:Source df SS MS F

    Model 1 SCM SCM/1 SCM/1SCR/(n2)Error n-2 SCR SCR/(n-2)Total n-1 SCT SCT/(n-1)

    Le test de Fisher consiste a comparer le modele nul au modelecomplet

    Dans le cas de la regression simple, il revient a tester lhypotheseH0{1 = 0}

    F. Picard, 42/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Coefficient de correlation et de determination

    Une confusion est souvent faite entre linterpretation de R2 dans lecas de la regression simple et dans le cas general.

    Dans le cas de la regression simple, il secrit: R2 = 21S2X/S

    2Y

    R2 ' 1 indique que le coefficient de correlation empirique entre lesobservations et la covariable est proche de 1, donc que lamodelisation des observations par une droite est tres satisfaisante

    Dans le cas general, R2 nest pas un coefficient de correlation

    F. Picard, 43/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Outline

    1 Principe generaux et typologie des modeles lineaires

    2 Quest ce quun modele de regression ?

    3 Quest ce quun modele de regression lineaire?

    4 Le modele de regression lineaire simple

    5 Tests, intervalles de confiance, et prediction

    6 Decomposition de la variance

    7 Analyse des Residus

    8 Regression Lineaire Multiple

    F. Picard, 44/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Motivation et definition

    La premiere question a se poser avant de regarder les resultats dumodele : les hypotheses qui ont ete faites au depart sont-ellesrespectees ?

    Hypotheses fondamentales: (i ) sont gaussien N (0, 2) (i ) sont independants 2 est constante (ne varie pas avec x)

    Malheureusement, les valeurs exactes des residus resterontinconnues, mais on les estimera par :

    i = Yi (0 + 1xi

    ) On introduit le coefficient hii tel que:

    hii =1

    n+

    (xi x)2ni=1(xi x)2

    F. Picard, 45/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Variance des residus estimes

    Meme sous lhypothese dhomoscedasticite les residus estimes nont pasla meme variance ! (mais ils sont centres par construction)

    hii =1

    n

    (1 +

    (xi x)2

    S2X

    )S2X =

    1

    n

    ni=1

    (xi x)2

    V (i ) = 2(1 hii )

    Leur dispersion au point (i) depend de la distance de xi au centre degravite x .

    F. Picard, 46/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Residus estimes reduits

    On peut reduire les residus estimes en considerant la variable

    ri =i

    V (i ) N (0, 1)

    Mais on ne connait pas V (i ) que lon estime par:

    V (i ) = 2(1 hii )

    Les residus estimes reduits suivent une loi de Student a (n-2)degres de liberte:

    iV (i )

    Tn2

    F. Picard, 47/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Influence de la i eme observation

    Le critere des moindre carres est tres sensible aux valeurs aberrantes(loin du centre de gravite du nuage (Y , x)).

    Letude des residus se fait egalement en etudiant linfluence despoins aberrants et la stabilite des estimations

    On procede en enlevant lobservation (i) et on calcule 2(i),lestimateur de la variance des residus calcules sur (n 1)observations en se privant de la ieme.

    On definit les residus studentises:

    ti =i

    (i)

    1 hii Tn3

    Lanalyse graphique consiste a explorer la distribution des ti .

    F. Picard, 48/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Effet Levier, Distance de Cook

    Le terme hii represente le poids de lobservation i sur sa propreestimation. On peut montrer que:

    Yi = hiiYi +j 6=i

    hijYj

    hij =1

    n+

    (xi x)(xj x)nh=1(xh x)2

    Si hii est grand ( 1/2), alors le point i est un point levier (pointatypique)

    La distance de Cook est utilisee pour mesurer linfluence delobservation i sur lestimation:

    Di =

    nj=1(Y(i)j Yj)2

    22=

    hii2(1 hii )

    r2i

    F. Picard, 49/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Le graph des residus

    Par le theoreme de Cochran on sait que Yi et Yi Yi sontindependants

    Pour verifier cette hypothese, on trace le graphe des residus Yi Yivs Yi

    Ce graph ne doit montrer aucune tendance, et doit etre centre enzero

    Il permet de verifier visuellement lhypothese dhomoscedasticite. Cest le premier indicateur a regarder:

    si le graph des residus nest pas correctement structure, alors les resultatsdu modele nont aucun sens car les hypotheses ne sont pas respectees.

    F. Picard, 50/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Outline

    1 Principe generaux et typologie des modeles lineaires

    2 Quest ce quun modele de regression ?

    3 Quest ce quun modele de regression lineaire?

    4 Le modele de regression lineaire simple

    5 Tests, intervalles de confiance, et prediction

    6 Decomposition de la variance

    7 Analyse des Residus

    8 Regression Lineaire Multiple

    F. Picard, 51/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Motivations, Definitions

    En pratique, on souhaite souvent expliquer les variations dunereponse a laide de plusieurs covariables

    On note Yi la reponse, et xi = (x0i , xi1, . . . , xip) le vecteur descovariables de taille p + 1 (convention x0i = 1).

    On peut considerer des puissances successives dune variable: cestun modele polynomial E[Yi |xi ] = 0 + 1xi + 2x2i

    On peut considerer des variables differentesE[Yi |xi , zi , xi ] = 0 + 1xi + 2zi + 3wi

    La methode destimation sera identique (estimateurs desmoindre-carres)

    Mais la question de la confusion deffet devient importante : lescovariables ont-elles des liens entre elles ? Sont-elles correlees ?Peut-on distinguer leffet dune covariables sachant tout le reste ?

    F. Picard, 52/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Regression lineaire multiple, notations matricielles

    Le modele de regression lineaire multiple a p regresseurs secrit:

    Yi = 0 +

    pj=1

    jxij + i , i N (0, 2)

    On considere les vecteurs Y = [Y1, . . . ,Yn]T et = [1, . . . , n]T detaille n,

    On considere la matrice X de taille n p, telle que la colonne j deX correspond a la covariable xj pour tout i et la ligne i correspond alenregistrement de toutes les variables pour lobservation i .

    On considere = [0, . . . , p]T le vecteur des coefficients (p 1).

    Y = X + , N (0, 2In)

    F. Picard, 53/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Estimation Lestimation se deroule comme dans le cas de la regression simple

    (p=1), avec le critere des Moindre-carres:

    MC (0, . . . , p) =n

    i=1

    (Yi [0 + 1xi1 + . . .+ pxip])2

    Un des criteres important pour pouvoir resoudre le systeme est quilnexiste pas de redondance dans les covariables (rang(X) = p + 1).

    Un estimateur de la variance residuelle est donne par:

    2 =1

    n p 1MC (0, . . . , p)

    Un predicteur de Yi sera donne par: Yi =p

    j=0 jxij . La somme des carres du modele secrit :

    SCM =n

    i=1

    (Yi Y )2

    F. Picard, 54/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Table danalyse de la variance

    Source df SS MS F

    Model p SCM SCM/p SCM/pSCR/(np1)Error n-p-1 SCR SCR/(n-p-1)Total n-1 SCT SCT/(n-1)

    Le modele peut etre teste globalement H0 : {0 = 1 = . . . = p}

    Mais cette strategie globale nest pas tres informative car elle revient acomparer le modele nul au modele complet et H0 sera rejetee des quun

    seul des j est non nul

    F. Picard, 55/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Qualite dajustement et taille du modele

    On peut definir la taille dun modele par le nombre de parametreslibres qui le caracterisent

    Dans le cas de la regression multiple: 1 pour la moyenne generale(0), p pour les (j)j et 1 pour la variance des erreurs

    2

    La somme des carres totale etant constante quand la taille du modeleaugmente, SCM augmente et SCE diminue

    Plus on ajoute des variables, plus le modele sajuste aux donnees,mais plus on commet derreurs destimation.

    Si on sinteresse uniquement au R2 = SCM/SCT = 1 SCR/SCT ,il est croissant avec le nombre de parametres.

    F. Picard, 56/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    La selection de variables

    La pratique de la modelisation suppose un equilibre entre: Un grand nombre de variables explicatives, pour avoir un modele

    exhaustif qui prend en compte une certaine complexite desdonnees

    Un nombre raisonnable de parametres (interpretabilite, parcimonie)

    La selection de variables consiste a choisir un sous ensemble de qvariables parmi les p disponibles (un sous modele)

    SCT = SCMp + SCRp = SCMq + SCRq

    Si les q variables selectionnes sont pertinentes, alors on suppose queles p q restantes on un effet negligeable sur la somme des carresresiduelle

    F. Picard, 57/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    R2 ajuste

    Le coefficient de determination R2 etant croissant avec le nombre devariables, il ne peut etre utilise que pour comparer des modeles ayant le

    meme nombre de parametres

    On definit le R2 ajuste pour comparer des modeles de taillesdifferentes

    R2aj = 1SCRp/(n p 1)

    SCT/(n 1)

    le R2aj compare les sommes des carres moyennes (ajustees au nombrede parametres)

    Il existe dautres criteres pour comparer des modeles entre eux (Cpde Mallows, AIC, BIC).

    F. Picard, 58/59

  • Generalites Regression Regression Lineaire Regression simple Tests Table ANOVA Residus Regression Multiple

    Algorithmes de selection

    Il existe 2p modeles differents quand on considere p variables Quand p est grand, on ne peut pas tous les explorer. Il existe plusieurs strategies pour explorer les modeles:

    Selection Forward: une variable est ajoutee a chaque pas Selection Backward: une variable est enlevee a chaque pas Selection stepwise: introduction de variables supplementaires, mais

    elimination des redondantes a chaque etape

    Le critere de choix du modele est souvent defini a part (AIC, BIC,Cp, R2aj) et utilise dans lalgorithme

    F. Picard, 59/59

    Principe gnraux et typologie des modles linairesQu'est ce qu'un modle de rgression ? Qu'est ce qu'un modle de rgression ``linaire''? Le modle de rgression linaire simpleTests, intervalles de confiance, et prdictionDcomposition de la varianceAnalyse des RsidusRgression Linaire Multiple

of 59/59
en´ eralit´ es egression egression Lin´ eaire egression simple Tests Table ANOVA esidus egression Multiple Premi` eres notions de statistique egression Lin´ eaire Franck Picard UMR CNRS-5558, Laboratoire de Biom´ etrie et Biologie Evolutive [email protected] F. Picard, 1/59
Embed Size (px)
Recommended