+ All Categories
Home > Documents > Analyse en Composantes Principales - IGM

Analyse en Composantes Principales - IGM

Date post: 16-Jun-2022
Category:
Upload: others
View: 11 times
Download: 0 times
Share this document with a friend
12
Introduction ethode Exemple esum´ e Applications Analyse en Composantes Principales Vincent Nozick Vincent Nozick Analyse en Composantes Principales 1 / 46 Introduction ethode Exemple esum´ e Applications Analyse en Composantes Principales Introduction : ethode qui permet d’identifier les corr´ elations entre des variables. En anglais : Principal Component Analysis (PCA) Vincent Nozick Analyse en Composantes Principales 2 / 46 Introduction ethode Exemple esum´ e Applications Analyse en Composantes Principales Plus pr´ ecis´ ement : L’ACP traite un tableau d’individus × variables. individus variables z }| { Vincent Nozick Analyse en Composantes Principales 3 / 46 Introduction ethode Exemple esum´ e Applications Exemples individus vins notes examen salaire variables fruit´ e qt´ e de travail ann´ ees d’´ etudes charpent´ e pointure exp´ erience pro capiteux aime chocolat homme / femme gouleyant Les enjeux : ´ evaluer les ressemblances entre individus. esumer l’ensemble des variables par un petit nombre de vari- ables synth´ etiques (les composantes principales) repr´ esentant un groupe de variables li´ ees entres elles. trier les composantes principales par ordre d’impact. permet d’´ eliminer les variables non pertinentes. Vincent Nozick Analyse en Composantes Principales 4 / 46
Transcript
Page 1: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Analyse en Composantes Principales

Vincent Nozick

Vincent Nozick Analyse en Composantes Principales 1 / 46

Introduction Methode Exemple Resume Applications

Analyse en Composantes Principales

Introduction :Methode qui permet d’identifier les correlations entre des variables.

En anglais : Principal Component Analysis (PCA)

Vincent Nozick Analyse en Composantes Principales 2 / 46

Introduction Methode Exemple Resume Applications

Analyse en Composantes Principales

Plus precisement :L’ACP traite un tableau d’individus × variables.

individus

variables︷ ︸︸ ︷

Vincent Nozick Analyse en Composantes Principales 3 / 46

Introduction Methode Exemple Resume Applications

Exemples

individus vins notes examen salaire

variables fruite qte de travail annees d’etudescharpente pointure experience procapiteux aime chocolat homme / femmegouleyant

Les enjeux :

• evaluer les ressemblances entre individus.

• resumer l’ensemble des variables par un petit nombre de vari-ables synthetiques (les composantes principales) representantun groupe de variables liees entres elles.

• trier les composantes principales par ordre d’impact.→ permet d’eliminer les variables non pertinentes.

Vincent Nozick Analyse en Composantes Principales 4 / 46

Page 2: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Limitations

Age de Miss Americacorrele avec

Meurtres par vapeurs et objets chauds

spurrious correlations : http://tylervigen.com/

Une correlation n’implique pas de relation de cause a effet.

Vincent Nozick Analyse en Composantes Principales 5 / 46

Introduction Methode Exemple Resume Applications

Exemple 2D

individus = pointsvariables = 2 coordonnees

A =

12 145 88 720 11· · · · · ·14 167 1022 15

Vincent Nozick Analyse en Composantes Principales 6 / 46

Introduction Methode Exemple Resume Applications

Centrer les donnees

donnees de depart

Vincent Nozick Analyse en Composantes Principales 7 / 46

Introduction Methode Exemple Resume Applications

Centrer les donnees

calcul des moyennes 〈Ai•〉 pour chaque variable i

Vincent Nozick Analyse en Composantes Principales 8 / 46

Page 3: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Centrer les donnees

centrer les donnees : Aij ← Aij − 〈Ai•〉

Vincent Nozick Analyse en Composantes Principales 9 / 46

Introduction Methode Exemple Resume Applications

Covariance

Definition : Cov(x,y) =

∑ni=1(xi − 〈x〉)(yi − 〈y〉)

n− 1

Correlation entre 2 axes :

• Cov(x,y) > 0 : les 2 dimensions varient conformement

• Cov(x,y) < 0 : les 2 dimensions varient de facon contraire

• Cov(x,y) = 0 : les 2 dimensions sont independantes

Notes :

• Cov(x,y) = Cov(y,x)

• Cov(x,x) = variance de x

Vincent Nozick Analyse en Composantes Principales 10 / 46

Introduction Methode Exemple Resume Applications

Matrice de covariance

Qui varie avec qui ?

C =

Cov(x,x) Cov(x,y) Cov(x, z)• Cov(y,y) Cov(y, z)• • Cov(z, z)

Pour nos donnees : C =A>mnAnmn− 1

Note : La matrice C est symetrique.

Vincent Nozick Analyse en Composantes Principales 11 / 46

Introduction Methode Exemple Resume Applications

Matrice de covariance

A =

12 145 88 720 11· · · · · ·14 167 1022 15

n

C =A>A

n− 1=

[0.6165 0.61540.6154 0.7165

]

Vincent Nozick Analyse en Composantes Principales 12 / 46

Page 4: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Vecteurs propres et valeurs propres

C =

[0.6165 0.61540.6154 0.7165

]Methode :Quels sont les “axes forts” de cette matrice?→ vecteurs propres et valeurs propres.

Vecteurs propres et valeurs propres :

λ1 = 1.2844 v1 = (−0.678,−0.735)>λ2 = 0.049 v2 = (−0.735, 0.678)>

vecteurs normes et orthogonaux entre eux.

Vincent Nozick Analyse en Composantes Principales 13 / 46

Introduction Methode Exemple Resume Applications

Vecteurs propres et valeurs propres

λ1 = 1.2844 v1 = (−0.678,−0.735)>λ2 = 0.049 v2 = (−0.735, 0.678)>

Vincent Nozick Analyse en Composantes Principales 14 / 46

Introduction Methode Exemple Resume Applications

Vecteurs propres et valeurs propres

Un nouvel espace : C = PDP−1 = PDP>

Vecteurs propres :

P> =

[−0.678 −0.735−0.735 0.678

] [v>1v>2

]les vecteurs sont tries par valeur propres decroissante.

La transformation pour aller dans cet espace :

A′> = P>A> x′ = P>x

Note : P> est une matrice de rotation.

Vincent Nozick Analyse en Composantes Principales 15 / 46

Introduction Methode Exemple Resume Applications

Transformation

A′> = P>A>

Vincent Nozick Analyse en Composantes Principales 16 / 46

Page 5: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Transformation

A′> = P>A>

Vincent Nozick Analyse en Composantes Principales 17 / 46

Introduction Methode Exemple Resume Applications

Transformation

Pour chaque donnee :

x′ =

[v>1v>2

]x

soit (x′

y′

)=

[−0.678 −0.735−0.735 0.678

](xy

)

Vincent Nozick Analyse en Composantes Principales 18 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

Reduction de P> :On peut supprimer les vecteurs propres associes aux valeurs pro-pres les plus faibles. On ne garde que les composantes principalesrepresentant les variables les plus correles (les plus representatifs)parmi les donnees.

P> =

[−0.678 −0.735−0.735 0.678

]→ P′

>=

[−0.678 −0.735

0 0

]

Vincent Nozick Analyse en Composantes Principales 19 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

Reduction de P> :On peut supprimer les vecteurs propres associes aux valeurs pro-pres les plus faibles. On ne garde que les composantes principalesrepresentant les variables les plus correles (les plus representatifs)parmi les donnees.

P> =

[−0.678 −0.735−0.735 0.678

]

→ P′>=

[−0.678 −0.735

0 0

]

Vincent Nozick Analyse en Composantes Principales 19 / 46

Page 6: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Simplification des donnees

Reduction de P> :On peut supprimer les vecteurs propres associes aux valeurs pro-pres les plus faibles. On ne garde que les composantes principalesrepresentant les variables les plus correles (les plus representatifs)parmi les donnees.

P> =

[−0.678 −0.735−0.735 0.678

]→ P′

>=

[−0.678 −0.735

0 0

]

Vincent Nozick Analyse en Composantes Principales 19 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

Projection :

x′ =

[v>10>

]x

soit (x′

0

)=

[−0.678 −0.735

0 0

](xy

)

Vincent Nozick Analyse en Composantes Principales 20 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

(x′

0

)=

[−0.678 −0.735

0 0

](xy

)Vincent Nozick Analyse en Composantes Principales 21 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

(x′

0

)=

[−0.678 −0.735

0 0

](xy

)Vincent Nozick Analyse en Composantes Principales 22 / 46

Page 7: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Simplification des donnees

Projection :x′ = P′>x

→ on ne garde dans x′ que les k premieres composantes, cellesqui ont vraiment une signification.

→ chacune de ces composantes regroupe un ensemble de variablescorrelees.

Vincent Nozick Analyse en Composantes Principales 23 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

Reprojection :la transformation

x′ = PP′>x

renvoie le vecteur x dans son espace d’origine en incluant la simpli-fication.

Vincent Nozick Analyse en Composantes Principales 24 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

x′ = PP′>x

Vincent Nozick Analyse en Composantes Principales 25 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

x′ = PP′>x

Vincent Nozick Analyse en Composantes Principales 26 / 46

Page 8: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Exemple

Quel super heros etes-vous?

Vincent Nozick Analyse en Composantes Principales 27 / 46

Introduction Methode Exemple Resume Applications

Exemple

Quel super heros etes-vous?

Les variables :

1 possede des super pouvoirs (0 ou 1)

2 porte des collants (appreciation entre 1 et 3)

3 travaille en equipe (appreciation entre 1 et 10)

4 possede un equipement particulier (appreciation entre 1 et 10)

5 homme / femme (1 ou 0)

Vincent Nozick Analyse en Composantes Principales 28 / 46

Introduction Methode Exemple Resume Applications

Quel super heros etes-vous?

Les individus :

Superman Batman Spiderman Hulk

Ironman Catwoman x-or Daredevil

Wonderwoman Bioman x-men Tortues ninjasVincent Nozick Analyse en Composantes Principales 29 / 46

Introduction Methode Exemple Resume Applications

Les donnees

1 2 3 4 5Superman 1 3 2 2 1Batman 0 3 7 10 1Spiderman 1 3 2 2 1Hulk 1 1 1 1 1Ironman 0 1 3 10 1Catwoman 0 3 2 3 0x-or 0 1 2 10 1Daredevil 0 3 2 3 1Wonderwoman 1 2 3 9 0Bioman 0 3 10 10 0.6x-men 1 2 8 7 0.5Tortues Ninja 0 1 10 7 0.8

Vincent Nozick Analyse en Composantes Principales 30 / 46

Page 9: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Centrer les donnees

1 2 3 4 5Superman 1 3 2 2 1Batman 0 3 7 10 1Spiderman 1 3 2 2 1Hulk 1 1 1 1 1Ironman 0 1 3 10 1Catwoman 0 3 2 3 0x-or 0 1 2 10 1Daredevil 0 3 2 3 1Wonderwoman 1 2 3 9 0Bioman 0 3 10 10 0.6x-men 1 2 8 7 0.5Tortues Ninja 0 1 10 7 0.8

moyenne 0.41 2.17 4.33 6.17 0.74

Vincent Nozick Analyse en Composantes Principales 31 / 46

Introduction Methode Exemple Resume Applications

Centrer les donnees

1 2 3 4 5Superman 0.58 0.83 -2.33 -4.17 0.26Batman -0.42 0.83 2.67 3.83 0.26Spiderman 0.58 0.83 -2.33 -4.17 0.26Hulk 0.58 -1.17 -3.33 -5.17 0.26Ironman -0.42 -1.17 -1.33 3.83 0.26Catwoman -0.42 0.83 -2.33 -3.17 -0.74x-or -0.42 -1.17 -2.33 3.83 0.26Daredevil -0.42 0.83 -2.33 -3.17 0.26Wonderwoman 0.58 -0.17 -1.33 2.83 -0.74Bioman -0.42 0.83 5.67 3.83 -0.14x-men 0.58 -0.17 3.67 0.833 -0.24Tortues Ninja -0.42 -1.17 5.67 0.833 0.058

moyenne 0.0 0.0 0.0 0.0 0.0

Vincent Nozick Analyse en Composantes Principales 32 / 46

Introduction Methode Exemple Resume Applications

Normer les donnees

1 2 3 4 5Superman 0.58 0.83 -2.33 -4.17 0.26Batman -0.42 0.83 2.67 3.83 0.26Spiderman 0.58 0.83 -2.33 -4.17 0.26Hulk 0.58 -1.17 -3.33 -5.17 0.26Ironman -0.42 -1.17 -1.33 3.83 0.26Catwoman -0.42 0.83 -2.33 -3.17 -0.74x-or -0.42 -1.17 -2.33 3.83 0.26Daredevil -0.42 0.83 -2.33 -3.17 0.26Wonderwoman 0.58 -0.17 -1.33 2.83 -0.74Bioman -0.42 0.83 5.67 3.83 -0.14x-men 0.58 -0.17 3.67 0.833 -0.24Tortues Ninja -0.42 -1.17 5.67 0.833 0.058

variance 0.49 0.83 2.9 3.3 0.31

Vincent Nozick Analyse en Composantes Principales 33 / 46

Introduction Methode Exemple Resume Applications

Normer les donnees

1 2 3 4 5Superman 1.2 1 -0.79 -1.3 0.83Batman -0.86 1 0.91 1.2 0.83Spiderman 1.2 1 -0.79 -1.3 0.83Hulk 1.2 -1.4 -1.1 -1.6 0.83Ironman -0.86 -1.4 -0.45 1.2 0.83Catwoman -0.86 1 -0.79 -0.96 -2.4x-or -0.86 -1.4 -0.79 1.2 0.83Daredevil -0.86 1 -0.79 -0.96 0.83Wonderwoman 1.2 -0.2 -0.45 0.86 -2.4Bioman -0.86 1 1.9 1.2 -0.46x-men 1.2 -0.2 1.2 0.25 -0.78Tortues Ninja -0.86 -1.4 1.9 0.25 0.19

variance 1 1 1 1 1

Vincent Nozick Analyse en Composantes Principales 34 / 46

Page 10: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Matrice de covariance

C =

1.1 0.04 −0.36 −0.56 −0.130.04 1.3 0.01 −0.34 −0.24−0.36 0.01 1.3 0.68 −0.16−0.56 −0.34 0.68 1.2 −0.16−0.13 −0.24 −0.16 −0.16 1.5

Remarque :Evidement, les meilleures correlations sont sur la diagonale.

Methode :Quels sont les “axes forts” de cette matrice?→ vecteurs propres et valeurs propres.

Vincent Nozick Analyse en Composantes Principales 35 / 46

Introduction Methode Exemple Resume Applications

Vecteurs propres et valeurs propres

C =

1.1 0.04 −0.36 −0.56 −0.130.04 1.3 0.012 −0.34 −0.24−0.36 0.012 1.3 0.68 −0.16−0.56 −0.34 0.68 1.2 −0.16−0.13 −0.24 −0.16 −0.16 1.5

Vecteurs propres et valeurs propres :

λ1 = 2.4 v1 = (0.45, 0.18,−0.59,−0.64, 0.11)>λ2 = 1.7 v2 = (0.15, 0.48, 0.14,−0.037,−0.85)>λ3 = 1.2 v3 = (0.35,−0.79,−0.22, 0.15,−0.43)>λ4 = 0.8 v4 = (0.7,−0.02, 0.67− 0.089, 0.23)>

λ5 = 0.4 v5 = (0.41, 0.33,−0.37, 0.75, 0.17)>

vecteurs normes et orthogonaux entre eux.

Vincent Nozick Analyse en Composantes Principales 36 / 46

Introduction Methode Exemple Resume Applications

Vecteurs propres et valeurs propres

Matrice des vecteurs propres :

P> =

v>1v>2

...v>n

les vecteurs sont tries par valeur propres decroissante.

Vincent Nozick Analyse en Composantes Principales 37 / 46

Introduction Methode Exemple Resume Applications

Vecteurs propres et valeurs propres

Un nouvel espace : C = PDP−1 = PDP>

Pour aller dans cet espace : A′> = P>A>

Plus generalement pour un individu x : x′ = P>x

ou x′ est la representation de x dans un espace plus pertinent.

Vincent Nozick Analyse en Composantes Principales 38 / 46

Page 11: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Simplification des donnees

Reduction de P> :

P> =

v>1v>2

...v>ivi+1

...v>n

→ P′> =

v>1v>2

...v>i0...0

Vincent Nozick Analyse en Composantes Principales 39 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

Reduction de P> :

P′> =

v>1v>2

...v>i0...0

→ P′> =

v>1v>2

...v>i

Vincent Nozick Analyse en Composantes Principales 40 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

Reduction de P> :

P> =

0.45 0.18 −0.59 −0.64 0.110.15 0.48 0.14 −0.037 −0.850.35 −0.79 −0.22 0.15 −0.430.7 −0.02 0.67 −0.089 0.230.41 0.33 −0.37 0.75 0.17

P′> =

0.45 0.18 −0.59 −0.64 0.110.15 0.48 0.14 −0.037 −0.850.35 −0.79 −0.22 0.15 −0.430 0 0 0 00 0 0 0 0

Vincent Nozick Analyse en Composantes Principales 41 / 46

Introduction Methode Exemple Resume Applications

Simplification des donnees

Projection :x′ = P′>x

ou x′ a une dimension inferieure a celle de x.

→ on ne garde dans x′ que les k premieres composantes, cellesqui ont vraiment une signification.

→ chacune de ces composantes regroupe un ensemble de variablescorrelees.

Vincent Nozick Analyse en Composantes Principales 42 / 46

Page 12: Analyse en Composantes Principales - IGM

Introduction Methode Exemple Resume Applications

Lecture de l’acp

Quel super heros etes-vous?

• on a garde 3 dimensions

• pour un nouvel individu :

x′ = P′>x− 〈Ai,•〉σ(Ai,•)

• on regarde dans ce sous espace quelest le super heros le plus proche.

Vincent Nozick Analyse en Composantes Principales 43 / 46

Introduction Methode Exemple Resume Applications

Super resume

Resume :

• centrer les donnees avec un vecteur 〈Ai,•〉

• normer les donnees avec un vecteur1

σ(Ai,•)

• matrice de covariance C

• vecteurs propres / valeurs propres de C → P>

• choisir la dimension du sous espace : P′>

• projeter des donnees : x′ = P′>x−〈Ai,•〉σ(Ai,•)

• (optionnel) reprojection : x′′ = PP′>x

Vincent Nozick Analyse en Composantes Principales 44 / 46

Introduction Methode Exemple Resume Applications

Applications

Applications :

• detection de visages

• statistiques

• iArtist

• ...

Vincent Nozick Analyse en Composantes Principales 45 / 46

Introduction Methode Exemple Resume Applications

iArtist

Vincent Nozick Analyse en Composantes Principales 46 / 46


Recommended