1
Méthodes d’Analyses FactoriellesACP et AFCM
Séminaire « Tahiti » - IRISA - Île de Houat - 26-27 Avril 2004
Emmanuel ROUX, Alfredo HERNANDEZ et Guy CARRAULTLTSI - INSERM U642
LTSI
2
Introduction
• Contexte– Nombre important de variables et d’individus statistiques– Pas ou peu de connaissances préalables sur les données
• Objectifs des méthodes– Réduction des données
• Identifier les variables discriminantes les plus informatives• Identifier des relations entre variables
– Juger de la capacité de caractérisation des variables– Identifier des groupes d’individus et/ou des types de comportement
3
Plan de l’Exposé
• Principes communs aux méthodes factorielles
• Analyse en Composantes Principales (ACP)→ Exemple
• Analyse des Correspondances– Simple (AFC)– Multiple (AFCM)
→ Exemple
• Étude en cours
4
Principes Communs
• Tableau de donnéesn individus statistiques × p variables
• ObjectifReprésenter les données de manière « optimale »
• Méthode– Transformation D→X adaptée à l’analyse souhaitée– Définition d’une distance– Critère d’optimisation
Analyse en Composantes PrincipalesPrincipes Communs Analyse des Correspondances Étude en Cours
5
Espace des Individus / des Variables
IndividusStatistiques
Variables
dnpIn
…
I2
d12d11I1
Vp…V2V1D
IndividusStatistiques
Variables
xnpIn
…
I2
x12x11I1
Vp…V2V1X
V1Rn
V2
Vp
I1
Rp
I2Ip
I3
Mise en forme
Analyse en Composantes PrincipalesPrincipes Communs Analyse des Correspondances Étude en Cours
vu
⎟⎠
⎞⎜⎝
⎛ ⋅∑=
n
iiu
OHidp1
)(maxr
H2
6
Propriétés de Base
• Dans l’espace des variables Rpuα = vecteurs propres de XtX associés aux valeurs propres λα
• Dans l’espace des individus Rnvα = idem avec XXt
Analyse en Composantes PrincipalesPrincipes Communs Analyse des Correspondances Étude en Cours
Les valeurs propres de XtX est de XXt sont égales !!
Rechercher la meilleure représentation des individusrevient à chercher la meilleure représentation des variables
7
Analyse en Composantes Principales(ACP)
• Type de données– Variables continues– ACP normée : données centrées réduites (X)
• Distance euclidienne• Critère
• Recherche des valeurs propres de XtX
j
jijij
ddxpnji
σ−
=×∈ ], ,1[] ,1[),(
⎟⎠
⎞⎜⎝
⎛∑=
n
iuGHid
1
)(maxr
Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales
8
Exemple ACP - Données
Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales
75841082845,0Suisse602534712544,2Suède211515774194,0Slovaquie871817454849,0RoyaumeUni61880752410,3Roumanie
212261048427,6RépTchèque301834653118,7Portugal2022401167223,9Pologne991869642735,7Pays-Bas442344771962,8Norvège41850053473,9Lettonie
3820255514410,5Italie271760760338,3Israël672155791631,6Irlande222525959325,6Hongrie2218254375910,9Grèce6821310464436,4France43221010484226,9Finlande22070626680,6Russie
471627514217,1Espagne772518573549,5Danemark632149712036,1Belgique4820212731542,3Autriche7516310474336,6Allemagne
LectCD(Nb / 100 Hab)
TxImp(%)
TxEnrPirates(%)
MusClas(%)
MusPopInt(%)
MusPopNat(%)
Vente($ US / Hab)
Activités et Tendances Culturelles : Musique Enregistrée (1998)
http://www.unesco.org/culture/worldreport/html_fr/stat2/table5f.pdf
9
Valeurs Propres
Critères de choix des axes principaux• % inertie expliquée > 80%• Valeurs propres > 1• Différence significative entre 2 valeurs propres successives
Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales
InterprétationRésultats ACP
% d’inertie expliquée par l’axe αλα/Σαλα
Variances suivant l’axe αValeurs propres λα
Dépend du nombre de variables
10
Variables
0,82
Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales
InterprétationRésultats ACP
CorrélationCosinus angle entre variablesQualité de la représentation dans le planPosition absolue de la variable
Axe : 1VENTE$/HAB 0,83
LECTCD/100 0,81
MUSPOPINT 0,73
MUSCLAS 0,38
TXIMP -0,04
MUSPOPNAT -0,78
TXENRPIRAT -0,81
Axe : 2MUSPOPINT 0,65
TXENRPIRAT 0,33
MUSCLAS -0,13
VENTE$/HAB -0,35
TXIMP -0,37
LECTCD/100 -0,42
MUSPOPNAT -0,60
Coo
rdon
nées
var
iabl
es
-0,98-0,74
11
Individus
Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales
InterprétationRésultats ACP
Contribution à l’inertie suivant l’axe αContribution d’un individu à l’axe αSimilitudesProximités entre individus
OUEST et NORD ?
EST et SUD ?
12
Individus / Variables Supplémentaires (Illustratives)
• Individus : Projection dans Rp• Variables continues : Projection dans Rn• Variables nominales : Projection dans Rp !!
xi+4p…xi+
4j…xi+41
xi+3p…xi+
3j…xi+31
nominalecontinue
mod 1…
mod 2…
mod 1
Individussupplémentaires
Individusactifs
Variables supplémentairesVariables actives
………………xv+
i1xip…xij…xi1
…………
…
xi+2p
xi+1p
xnp
…
x1p
…………
…
………
xi+2jxi+
21
xi+1jxi+
11
xv+n1xnjxn1
xv+11x1jx11
moyenne
Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales
13
Individus Supplémentaires
Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales
14
ACP en Bref
• Variables continues
• Relations linéaires entre variables
• Pas de représentation simultanée individus –variables(en fait si)
• Possibilité de projeter individus et variables (continues et nominales) supplémentaires
Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales
15
Analyse Factorielle des Correspondances (AFC) - Données
• Tableau croisant deux variables nominales• Transformations des données brutes
– Calcul des fréquences relatives– Calcul des profils lignes– ________________colonnes
Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances
Cheveux
Yeux
59212771286108Total
21594178420Bleu
641614295Vert
9310145415Noisette
22072611968Marron
TotalBlondRouxChâtainBrun
10,220,120,480,18Profil moyen
10,440,80,390,9Bleu
10,250,220,450,8Vert
10,110,150,580,16Noisette
10,30,120,540,31Marron
TotalBlondRouxChâtainBrun
11111Total
0,360,740,240,290,19Bleu
0,110,130,20,10,5Vert
0,160,80,20,190,14Noisette
0,370,60,370,420,63Marron
Profil moyenBlondRouxChâtainBrun
Profils colonnesProfils lignes
16
AFC - Méthode
• Distance entre profils : distance du χ²
• Critère
• Recherche des valeurs propres de FtD-1nFD-1
p
2
'
'
1²
1)',(² ⎟⎟⎠
⎞⎜⎜⎝
⎛−=∑
= i
ji
i
ijp
j j ff
ff
fiid χ
⎟⎠
⎞⎜⎝
⎛ ⋅∑=
n
iiu
iOdf1
² ),(²max χr
Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances
17
Spécificités de l’AFC
• Lignes et Colonnes jouent le même rôle
• On s’intéresse aux distances entre profils
• L’inertie totale du nuage de points (Σαλα) reflète l’indépendance statistique entre les deux variables(test du χ²)
• Représentation simultanée des deux nuages de points
Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances
18
Analyse Factorielle des Correspondances Multiples (AFCM) - Données
• Tableau croisant n individus statistiques et s « questions » ayant ms modalités
• Application privilégiée : enquêtes
Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances
Satisfaction
MoyenTrès SatisfaitFIndividu n
…………
PetitPas SatisfaitHIndividu 3
GrandMoyennement SatisfaitFIndividu 2
GrandTrès SatisfaitHIndividu 1
TailleSexe
19
AFCM - Méthode
0
…
0
1
0
Petit
1
…
0
0
0
Moyen
0
…
1
0
0
PasSatisfait
Satisfaction
Grand
00110Individu n
………………
00001Individu 3
11010Individu 2
10101Individu 1
Taille
MoyennementSatisfait
TrèsSatisfait
FH
Sexe
Satisfaction
MoyenTrès SatisfaitFIndividu n
…………
PetitPas SatisfaitHIndividu 3
GrandMoyennement SatisfaitFIndividu 2
GrandTrès SatisfaitHIndividu 1
TailleSexe
Tableau DisjonctifComplet
AFCM = AFC d’un tableau disjonctif complet
Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances
20
Exemple AFCM
Réponses au questionnaire ASESÉvaluation fonctionnelle du membre supérieur
…71 individus
Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances
GERBERFacileFacileFacileFacileFacileImpossibleFacileFacilePat11_6M
GERBERFacileFacileAssez DifficileFacileFacileImpossibleFacileTrès DifficilePat11_3M
GERBERAssez DifficileFacileFacileFacileFacileImpossibleFacileFacilePat11_1A
Totale AnatomiqueImpossibleImpossibleImpossibleImpossibleImpossibleImpossibleImpossibleImpossiblePat10_PO
Totale AnatomiqueAssez DifficileFacileAssez DifficileFacileFacileImpossibleTrès DifficileAssez DifficilePat10_3M
Totale AnatomiqueImpossibleFacileImpossibleImpossibleTrès DifficileImpossibleImpossibleImpossiblePat1_PO
Totale AnatomiqueAssez DifficileFacileAssez DifficileFacileFacileAssez DifficileFacileAssez DifficilePat1_6M
Totale AnatomiqueAssez DifficileAssez DifficileImpossibleAssez DifficileFacileImpossibleTrès DifficileTrès DifficilePat1_3M
Totale AnatomiqueFacileFacileFacileAssez DifficileFacileFacileFacileFacilePat1_1A
ProthèseLancerUne Balle
LeverUne Charge
Atteindre uneEtagère HauteSe PeignerFaire
Sa ToiletteSe
Laver le DosDormir
Sur l’EpauleMettre
Un ManteauIndividus
21
AFCM – Valeurs Propres
Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances
0.574636970.677892210.739497780.78668220.82479575
% cumulé
% : indice pessimiste de l’information extraiteAutre critère d’appréciation de l’inertie : (Valeurs Propres) ²
22
Ressemblance (mêmes profils)Distance entre individusModalités choisies par les mêmesindividus ou des ind. semblables
Proximités entre modalitésde variables différentes
Ressemblance des ind. ayant choisi ces modalités
Proximités entre modalitésd’une même variable Contribution à l’inertie des axesContribution Qualité de la représentationCorrélation (cos²)
cos²
AFCM – Individus et Variables
Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances
2
1
InterprétationRésultats
23
AFCM –Variables Supplémentaires
Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances
1
2
Types de prothèses
Recul
24
AFCM En Bref
Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances
• Variables nominales et/ou continues avec codage (flou)
• Relations non linéaires entre variables
• Représentation simultanée individus –variables
• Possibilité de projeter individus, modalités et variables (nominales et continues) supplémentaires
25
Étude en Cours – Projet CEPICA
• Population d’étudePatients avec pacemaker bi-ventriculaire
• ObjectifLes données « physiologiques » recueillies permettent-elles
– Le suivi de l’état de santé des patients ?– De différentier les répondeurs des non-répondeurs à la stimulation ?
• Données disponibles– Données « physiologiques » journalières sur 1 ou 3 mois, tous les 3
mois– 37 variables– Trop peu d’individus (8)
Principes Communs Analyse en Composantes Principales Analyse des Correspondances Étude en Cours
26
ACP – Codage des Données
Principes Communs Analyse en Composantes Principales Analyse des Correspondances Étude en Cours
30 60 90 120 150 180 (jours)
(s)
Patient n°1Durée Totale En Exercice
………
…2,6 . 10e4Pat1_60
…2,2 . 10e4Pat1_30
…Durée Totale En ExerciceIndividus
2,6 . 10e4 ACP
27
Début 30j 60j
AFCM – Codage des Données
Principes Communs Analyse en Composantes Principales Analyse des Correspondances Étude en Cours
30 60 90 120 150 180 (jours)
(s)
Patient n°1Durée Totale En Exercice
Faib
leM
oyen
neIm
porta
nte
(Loslever et Bouilland, Fuzzy sets and systems, 1999)
AFCM0.2
0.1
Importante
0.5
0.5
Moyenne
Durée Totale En ExerciceIndividus
………
…0.3Pat1_30j
…0.4Pat1_Début
…Faible