+ All Categories
Home > Documents > Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10....

Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10....

Date post: 14-Oct-2020
Category:
Upload: others
View: 7 times
Download: 1 times
Share this document with a friend
35
Analyse en composantes principales Julien JACQUES Université de Lyon, Lyon 2 & ERIC EA 3083 1 / 21
Transcript
Page 1: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Julien JACQUES

Université de Lyon, Lyon 2 & ERIC EA 3083

1 / 21

Page 2: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Un exemple de données

Données USArrests :� nombres d’agressions, de meurtres et de viols (par 100 000

habitants)� pourcentage de population urbaine� pour chacun des 50 états des USA en 1973

On dispose donc d’une matrice de 50 lignes (les 50 états) et 4 colonnes.

2 / 21

Page 3: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Visualiser les données lorsque p = 1

� Question 1 : représenter le pourcentage de population urbaine.

� Réponse : histogrammeHistogram of USArrests$UrbanPop

USArrests$UrbanPop

Fre

quen

cy

30 40 50 60 70 80 90 100

02

46

810

12

3 / 21

Page 4: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Visualiser les données lorsque p = 1

� Question 1 : représenter le pourcentage de population urbaine.� Réponse : histogramme

Histogram of USArrests$UrbanPop

USArrests$UrbanPop

Fre

quen

cy

30 40 50 60 70 80 90 100

02

46

810

12

3 / 21

Page 5: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Visualiser les données lorsque p = 2

� Question 2 : représenter le nombre d’agressions en fonction dupourcentage de population urbaine.

� Réponse : nuage de points

50 100 150 200 250 300

3040

5060

7080

90

USArrests$Assault

US

Arr

ests

$Urb

anP

op

4 / 21

Page 6: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Visualiser les données lorsque p = 2

� Question 2 : représenter le nombre d’agressions en fonction dupourcentage de population urbaine.

� Réponse : nuage de points

50 100 150 200 250 300

3040

5060

7080

90

USArrests$Assault

US

Arr

ests

$Urb

anP

op

4 / 21

Page 7: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Visualiser les données lorsque p > 2

� Question 3 : représenter le nombre d’agressions, de meurtres et deviols en fonction du pourcentage de population urbaine.

� Réponse : ???

Mathématiquement� chaque observation est un point dans un espace de 4 dimensions :

R4

� on ne peut visualiser un espace de dimension supérieur à 3 (etencore en dimension 3 ce n’est pas si facile...)

� ce que l’on sait bien visualiser est la dimension 2 !

5 / 21

Page 8: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Visualiser les données lorsque p > 2

� Question 3 : représenter le nombre d’agressions, de meurtres et deviols en fonction du pourcentage de population urbaine.

� Réponse : ???

Mathématiquement� chaque observation est un point dans un espace de 4 dimensions :

R4

� on ne peut visualiser un espace de dimension supérieur à 3 (etencore en dimension 3 ce n’est pas si facile...)

� ce que l’on sait bien visualiser est la dimension 2 !

5 / 21

Page 9: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Visualiser les données lorsque p > 2

� Question 3 : représenter le nombre d’agressions, de meurtres et deviols en fonction du pourcentage de population urbaine.

� Réponse : ???

Mathématiquement� chaque observation est un point dans un espace de 4 dimensions :

R4

� on ne peut visualiser un espace de dimension supérieur à 3 (etencore en dimension 3 ce n’est pas si facile...)

� ce que l’on sait bien visualiser est la dimension 2 !

5 / 21

Page 10: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Visualiser les données lorsque p > 2

� Question 3 : représenter le nombre d’agressions, de meurtres et deviols en fonction du pourcentage de population urbaine.

� Réponse : une solution non optimale, le biplot

Murder

50 100 150 200 250 300 10 20 30 40

510

15

5010

020

030

0

Assault

UrbanPop

3040

5060

7080

90

5 10 15

1020

3040

30 40 50 60 70 80 90

Rape

6 / 21

Page 11: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Visualiser les données lorsque p > 2

� Question 3 : représenter le nombre d’agressions, de meurtres et deviols en fonction du pourcentage de population urbaine.

� Réponse : une solution optimale, l’analyse en composantesprincipales (ACP)

6 / 21

Page 12: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Les dataOn stocke les données sous forme d’une matrice

X =

x11 x12 . . . x1px21 x22 . . . x2p...

......

...xn1 xn2 . . . xnp

où xij : valeur de la j-ème variable pour le i-ème individu.On définit :� la moyenne de la variable j : x̄j = 1

n

∑ni=1 xij

� l’écart-type de la variable j : sj =√

1n

∑ni=1(xij − x̄j )2

� la distance entre deux individus : d(xi ,xi′) =√∑p

j=1(xij − xi′ j )2

7 / 21

Page 13: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

On définit également:� la covariance entre les variables j et k :

covjk = 1n

∑ni=1(xij − x̄j )(xik − x̄k )

� la corrélation entre les variables j et k : corjk =covjksj sk∈ [−1,1]

� la matrice de variance-covariance des données X:

Σ =

s2

1 cov12 . . . cov1pcov21 s2

2 . . . cov2p...

......

...covp1 covp2 . . . s2

p

8 / 21

Page 14: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Les objectifs� visualiser les données (nuage de points en dimension p) dans un

espace de faible dimension (2)� identifier des individus semblables� identifier des liens entre variables (liens linéaires, coefficient de

corrélation)

9 / 21

Page 15: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Pré-traitement : centrage réduction� centrer les données (retrancher à chaque variable sa moyenne) ne

modifie pas la forme du nuage : on le fera toujours

150 160 170 180 190 200

4050

6070

8090

100

taille en cm

poids

en kg

−20 −10 0 10 20 30

−30

−20

−10

010

2030

taille centrée en cm

poids

centr

é en k

g

10 / 21

Page 16: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Pré-traitement : centrage réduction� centrer les données (retrancher à chaque variable sa moyenne) ne

modifie pas la forme du nuage : on le fera toujours� réduire les données (diviser chaque variable pas son écart-type)

permet de s’affranchir des unités de mesures. En effet, lechangement d’unité de mesure modifie la forme du nuage de points :

−30 −20 −10 0 10 20 30

−20

−10

010

2030

taille centrée en cm

poids

centr

é en k

g

−30 −20 −10 0 10 20 30

−20

−10

010

2030

taille centrée en m, centrée en 0

poids

centr

é en k

g

10 / 21

Page 17: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Pré-traitement : centrage réduction� centrer les données (retrancher à chaque variable sa moyenne) ne

modifie pas la forme du nuage : on le fera toujours� réduire les données (diviser chaque variable pas son écart-type)

permet de s’affranchir des unités de mesures.� Ainsi, on transformera chaque les observations comme suit :

xij →xij − x̄j

sj

10 / 21

Page 18: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Recherche du sous-espace de projection optimal� Visuellement

� Caractérisation mathématique� projeter le nuage diminue nécessairement les distances entre individus� ⇒ limiter la déformation = maximiser les distances entre individus� maximiser les distances entre individus ⇔ maximiser la variance du

nuage de points projeté

11 / 21

Page 19: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Recherche du sous-espace de projection optimal� Visuellement

� Caractérisation mathématique� projeter le nuage diminue nécessairement les distances entre individus� ⇒ limiter la déformation = maximiser les distances entre individus� maximiser les distances entre individus ⇔ maximiser la variance du

nuage de points projeté

11 / 21

Page 20: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Recherche du sous-espace de projection optimal� Résolution

� on recherche le premier axe (factoriel) f1 maximisant la variance despoints projetés

� on recherche ensuite un second f2 selon le même critère, mais orthogonalà f1 pour ne pas transcrire d’information redondante

� (f1, f2) forme le premier plan factoriel.� on peut continuer avec f3, f4, ... suivant la quantité d’information qu’ils

retranscrivent

� Mathématiquement� chaque axe factoriel fj est un axe dans l’espace Rp : il peut être vu

comme une nouvelle variable, synthétique, définie comme unecombinaison linéaire des variables initiales

� f1, f2, ... sont les vecteurs propres de la matrice de variance Σ associésaux plus grande valeurs propres λ1 > λ2 > ...

12 / 21

Page 21: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Recherche du sous-espace de projection optimal� Résolution

� on recherche le premier axe (factoriel) f1 maximisant la variance despoints projetés

� on recherche ensuite un second f2 selon le même critère, mais orthogonalà f1 pour ne pas transcrire d’information redondante

� (f1, f2) forme le premier plan factoriel.� on peut continuer avec f3, f4, ... suivant la quantité d’information qu’ils

retranscrivent� Mathématiquement

� chaque axe factoriel fj est un axe dans l’espace Rp : il peut être vucomme une nouvelle variable, synthétique, définie comme unecombinaison linéaire des variables initiales

� f1, f2, ... sont les vecteurs propres de la matrice de variance Σ associésaux plus grande valeurs propres λ1 > λ2 > ...

12 / 21

Page 22: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

ACP sous R� library(FactoMineR)

� res.pca <- PCA(USArrests, graph = FALSE)

13 / 21

Page 23: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Interprétation des axes factoriels� on examine les corrélations entre les variables initiales et les axes

(variables) factoriel(le)s : r(xj , f`) ∈ [−1,1]plot(res.pca,choix = "var")

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.

0−

0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (62.01%)

Dim

2 (

24.7

4%)

Murder

Assault

UrbanPop

Rape

14 / 21

Page 24: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Interprétation des axes factoriels� on examine les corrélations entre les variables initiales et les axes

(variables) factoriel(le)s : r(xj , f`) ∈ [−1,1]plot(res.pca,choix = "var")

14 / 21

Page 25: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Représentation (projection) des individus� on projette les individus sur les axes (variables) factoriel(le)s :plot(res.pca,choix = "ind")

−2 0 2

−3

−2

−1

01

2

Individuals factor map (PCA)

Dim 1 (62.01%)

Dim

2 (

24.7

4%)

Alabama Alaska

Arizona

Arkansas

California

ColoradoConnecticut

Delaware

Florida

Georgia

Hawaii

Idaho

Illinois

IndianaIowaKansas

KentuckyLouisiana

Maine Maryland

Massachusetts

Michigan

Minnesota

Mississippi

Missouri

Montana

Nebraska

Nevada

New Hampshire

New Jersey

New Mexico

New York

North Carolina

North Dakota

Ohio

Oklahoma

OregonPennsylvania

Rhode Island

South Carolina

South Dakota Tennessee

Texas

Utah

Vermont

Virginia

Washington

West Virginia

Wisconsin

Wyoming

15 / 21

Page 26: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Représentation (projection) des individus� on projette les individus sur les axes (variables) factoriel(le)s :plot(res.pca,choix = "ind")

15 / 21

Page 27: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Choix du nombre d’axes factoriels� on calcule le pourcentage d’information retranscrite par chaque axe :barplot(res.pca$eig[,2],main="Pourcentage devariance expliquée")

62.01 24.74 8.91 4.34

Pourcentage de variance expliquée

010

2030

4050

60

16 / 21

Page 28: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Choix du nombre d’axes factoriels� on calcule le pourcentage d’information retranscrite par chaque axe :barplot(res.pca$eig[,2],main="Pourcentage devariance expliquée")

16 / 21

Page 29: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Choix du nombre d’axes factorielsPlusieurs façon de choisir� retenir le nombre d’axes pour expliquer au moins 80% de la variance� rechercher un coude dans l’ébouli des valeurs propres

17 / 21

Page 30: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Aide à l’interprétation - variables� corrélation variables/axes : res.pca$var$coord

Dim.1 Dim.2 Dim.3 Dim.4Murder 0.84 -0.41 0.20 0.27Assault 0.91 -0.18 0.16 -0.30UrbanPop 0.43 0.86 0.22 0.05Rape 0.85 0.16 -0.48 0.03

� contributions des variables aux axes : res.pca$var$contribDim.1 Dim.2 Dim.3 Dim.4 total

Murder 28.71 17.48 11.64 42.14 100Assault 34.01 3.53 7.19 55.26 100UrbanPop 7.73 76.17 14.28 1.79 100Rape 29.53 2.79 66.87 0.79 100

� qualité de la représentation des variables sur les axes :res.pca$var$cos2

18 / 21

Page 31: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Aide à l’interprétation - variables� corrélation variables/axes : res.pca$var$coord

Dim.1 Dim.2 Dim.3 Dim.4Murder 0.84 -0.41 0.20 0.27Assault 0.91 -0.18 0.16 -0.30UrbanPop 0.43 0.86 0.22 0.05Rape 0.85 0.16 -0.48 0.03

� contributions des variables aux axes : res.pca$var$contribDim.1 Dim.2 Dim.3 Dim.4 total

Murder 28.71 17.48 11.64 42.14 100Assault 34.01 3.53 7.19 55.26 100UrbanPop 7.73 76.17 14.28 1.79 100Rape 29.53 2.79 66.87 0.79 100

� qualité de la représentation des variables sur les axes :res.pca$var$cos2

18 / 21

Page 32: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Aide à l’interprétation - variables� corrélation variables/axes : res.pca$var$coord

Dim.1 Dim.2 Dim.3 Dim.4Murder 0.84 -0.41 0.20 0.27Assault 0.91 -0.18 0.16 -0.30UrbanPop 0.43 0.86 0.22 0.05Rape 0.85 0.16 -0.48 0.03

� contributions des variables aux axes : res.pca$var$contribDim.1 Dim.2 Dim.3 Dim.4 total

Murder 28.71 17.48 11.64 42.14 100Assault 34.01 3.53 7.19 55.26 100UrbanPop 7.73 76.17 14.28 1.79 100Rape 29.53 2.79 66.87 0.79 100

� qualité de la représentation des variables sur les axes :res.pca$var$cos2

18 / 21

Page 33: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Aide à l’interprétation - individus� coordonnées des individus sur les axes : res.pca$ind$coord� contributions des individus aux axes : res.pca$ind$contrib� qualité de la représentation des individus sur les axes :res.pca$ind$cos2

19 / 21

Page 34: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Individus et variables supplémentaires� il est possible de mettre des individus et/ou des variables

(quantitatives ou qualitatives) en supplémentaire, ce qui signifie qu’ilsn’interviennent pas dans le calcul des axes factoriels, mais ils serontreprésentés et il sera possible d’interpréter leur positions :PCA(..., ind.sup = NULL, quanti.sup = NULL,quali.sup = NULL, ...)

20 / 21

Page 35: Analyse en composantes principaleseric.univ-lyon2.fr/~jjacques/Download/Cours/ACP.pdf · 2020. 10. 1. · Analyse en composantes principales Pré-traitement : centrage réduction

Analyse en composantes principales

Exercice d’application� Réaliser une ACP du jeu de données autos.xls, en indiquant les

variables finition, prix et r-poid.puis en supplémentaire.

21 / 21


Recommended