+ All Categories
Home > Documents > Méthodes d’Analyses Factorielles ACP et AFCM · Analyse Factorielle des Correspondances...

Méthodes d’Analyses Factorielles ACP et AFCM · Analyse Factorielle des Correspondances...

Date post: 11-Sep-2018
Category:
Upload: duongtruc
View: 219 times
Download: 0 times
Share this document with a friend
28
1 Méthodes d’Analyses Factorielles ACP et AFCM Séminaire « Tahiti » - IRISA - Île de Houat - 26-27 Avril 2004 Emmanuel ROUX, Alfredo HERNANDEZ et Guy CARRAULT LTSI - INSERM U642 LTSI
Transcript

1

Méthodes d’Analyses FactoriellesACP et AFCM

Séminaire « Tahiti » - IRISA - Île de Houat - 26-27 Avril 2004

Emmanuel ROUX, Alfredo HERNANDEZ et Guy CARRAULTLTSI - INSERM U642

LTSI

2

Introduction

• Contexte– Nombre important de variables et d’individus statistiques– Pas ou peu de connaissances préalables sur les données

• Objectifs des méthodes– Réduction des données

• Identifier les variables discriminantes les plus informatives• Identifier des relations entre variables

– Juger de la capacité de caractérisation des variables– Identifier des groupes d’individus et/ou des types de comportement

3

Plan de l’Exposé

• Principes communs aux méthodes factorielles

• Analyse en Composantes Principales (ACP)→ Exemple

• Analyse des Correspondances– Simple (AFC)– Multiple (AFCM)

→ Exemple

• Étude en cours

4

Principes Communs

• Tableau de donnéesn individus statistiques × p variables

• ObjectifReprésenter les données de manière « optimale »

• Méthode– Transformation D→X adaptée à l’analyse souhaitée– Définition d’une distance– Critère d’optimisation

Analyse en Composantes PrincipalesPrincipes Communs Analyse des Correspondances Étude en Cours

5

Espace des Individus / des Variables

IndividusStatistiques

Variables

dnpIn

I2

d12d11I1

Vp…V2V1D

IndividusStatistiques

Variables

xnpIn

I2

x12x11I1

Vp…V2V1X

V1Rn

V2

Vp

I1

Rp

I2Ip

I3

Mise en forme

Analyse en Composantes PrincipalesPrincipes Communs Analyse des Correspondances Étude en Cours

vu

⎟⎠

⎞⎜⎝

⎛ ⋅∑=

n

iiu

OHidp1

)(maxr

H2

6

Propriétés de Base

• Dans l’espace des variables Rpuα = vecteurs propres de XtX associés aux valeurs propres λα

• Dans l’espace des individus Rnvα = idem avec XXt

Analyse en Composantes PrincipalesPrincipes Communs Analyse des Correspondances Étude en Cours

Les valeurs propres de XtX est de XXt sont égales !!

Rechercher la meilleure représentation des individusrevient à chercher la meilleure représentation des variables

7

Analyse en Composantes Principales(ACP)

• Type de données– Variables continues– ACP normée : données centrées réduites (X)

• Distance euclidienne• Critère

• Recherche des valeurs propres de XtX

j

jijij

ddxpnji

σ−

=×∈ ], ,1[] ,1[),(

⎟⎠

⎞⎜⎝

⎛∑=

n

iuGHid

1

)(maxr

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

8

Exemple ACP - Données

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

75841082845,0Suisse602534712544,2Suède211515774194,0Slovaquie871817454849,0RoyaumeUni61880752410,3Roumanie

212261048427,6RépTchèque301834653118,7Portugal2022401167223,9Pologne991869642735,7Pays-Bas442344771962,8Norvège41850053473,9Lettonie

3820255514410,5Italie271760760338,3Israël672155791631,6Irlande222525959325,6Hongrie2218254375910,9Grèce6821310464436,4France43221010484226,9Finlande22070626680,6Russie

471627514217,1Espagne772518573549,5Danemark632149712036,1Belgique4820212731542,3Autriche7516310474336,6Allemagne

LectCD(Nb / 100 Hab)

TxImp(%)

TxEnrPirates(%)

MusClas(%)

MusPopInt(%)

MusPopNat(%)

Vente($ US / Hab)

Activités et Tendances Culturelles : Musique Enregistrée (1998)

http://www.unesco.org/culture/worldreport/html_fr/stat2/table5f.pdf

9

Valeurs Propres

Critères de choix des axes principaux• % inertie expliquée > 80%• Valeurs propres > 1• Différence significative entre 2 valeurs propres successives

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

InterprétationRésultats ACP

% d’inertie expliquée par l’axe αλα/Σαλα

Variances suivant l’axe αValeurs propres λα

Dépend du nombre de variables

10

Variables

0,82

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

InterprétationRésultats ACP

CorrélationCosinus angle entre variablesQualité de la représentation dans le planPosition absolue de la variable

Axe : 1VENTE$/HAB 0,83

LECTCD/100 0,81

MUSPOPINT 0,73

MUSCLAS 0,38

TXIMP -0,04

MUSPOPNAT -0,78

TXENRPIRAT -0,81

Axe : 2MUSPOPINT 0,65

TXENRPIRAT 0,33

MUSCLAS -0,13

VENTE$/HAB -0,35

TXIMP -0,37

LECTCD/100 -0,42

MUSPOPNAT -0,60

Coo

rdon

nées

var

iabl

es

-0,98-0,74

11

Individus

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

InterprétationRésultats ACP

Contribution à l’inertie suivant l’axe αContribution d’un individu à l’axe αSimilitudesProximités entre individus

OUEST et NORD ?

EST et SUD ?

12

Individus / Variables Supplémentaires (Illustratives)

• Individus : Projection dans Rp• Variables continues : Projection dans Rn• Variables nominales : Projection dans Rp !!

xi+4p…xi+

4j…xi+41

xi+3p…xi+

3j…xi+31

nominalecontinue

mod 1…

mod 2…

mod 1

Individussupplémentaires

Individusactifs

Variables supplémentairesVariables actives

………………xv+

i1xip…xij…xi1

…………

xi+2p

xi+1p

xnp

x1p

…………

………

xi+2jxi+

21

xi+1jxi+

11

xv+n1xnjxn1

xv+11x1jx11

moyenne

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

13

Individus Supplémentaires

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

14

ACP en Bref

• Variables continues

• Relations linéaires entre variables

• Pas de représentation simultanée individus –variables(en fait si)

• Possibilité de projeter individus et variables (continues et nominales) supplémentaires

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

15

Analyse Factorielle des Correspondances (AFC) - Données

• Tableau croisant deux variables nominales• Transformations des données brutes

– Calcul des fréquences relatives– Calcul des profils lignes– ________________colonnes

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

Cheveux

Yeux

59212771286108Total

21594178420Bleu

641614295Vert

9310145415Noisette

22072611968Marron

TotalBlondRouxChâtainBrun

10,220,120,480,18Profil moyen

10,440,80,390,9Bleu

10,250,220,450,8Vert

10,110,150,580,16Noisette

10,30,120,540,31Marron

TotalBlondRouxChâtainBrun

11111Total

0,360,740,240,290,19Bleu

0,110,130,20,10,5Vert

0,160,80,20,190,14Noisette

0,370,60,370,420,63Marron

Profil moyenBlondRouxChâtainBrun

Profils colonnesProfils lignes

16

AFC - Méthode

• Distance entre profils : distance du χ²

• Critère

• Recherche des valeurs propres de FtD-1nFD-1

p

2

'

'

1)',(² ⎟⎟⎠

⎞⎜⎜⎝

⎛−=∑

= i

ji

i

ijp

j j ff

ff

fiid χ

⎟⎠

⎞⎜⎝

⎛ ⋅∑=

n

iiu

iOdf1

² ),(²max χr

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

17

Spécificités de l’AFC

• Lignes et Colonnes jouent le même rôle

• On s’intéresse aux distances entre profils

• L’inertie totale du nuage de points (Σαλα) reflète l’indépendance statistique entre les deux variables(test du χ²)

• Représentation simultanée des deux nuages de points

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

18

Analyse Factorielle des Correspondances Multiples (AFCM) - Données

• Tableau croisant n individus statistiques et s « questions » ayant ms modalités

• Application privilégiée : enquêtes

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

Satisfaction

MoyenTrès SatisfaitFIndividu n

…………

PetitPas SatisfaitHIndividu 3

GrandMoyennement SatisfaitFIndividu 2

GrandTrès SatisfaitHIndividu 1

TailleSexe

19

AFCM - Méthode

0

0

1

0

Petit

1

0

0

0

Moyen

0

1

0

0

PasSatisfait

Satisfaction

Grand

00110Individu n

………………

00001Individu 3

11010Individu 2

10101Individu 1

Taille

MoyennementSatisfait

TrèsSatisfait

FH

Sexe

Satisfaction

MoyenTrès SatisfaitFIndividu n

…………

PetitPas SatisfaitHIndividu 3

GrandMoyennement SatisfaitFIndividu 2

GrandTrès SatisfaitHIndividu 1

TailleSexe

Tableau DisjonctifComplet

AFCM = AFC d’un tableau disjonctif complet

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

20

Exemple AFCM

Réponses au questionnaire ASESÉvaluation fonctionnelle du membre supérieur

…71 individus

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

GERBERFacileFacileFacileFacileFacileImpossibleFacileFacilePat11_6M

GERBERFacileFacileAssez DifficileFacileFacileImpossibleFacileTrès DifficilePat11_3M

GERBERAssez DifficileFacileFacileFacileFacileImpossibleFacileFacilePat11_1A

Totale AnatomiqueImpossibleImpossibleImpossibleImpossibleImpossibleImpossibleImpossibleImpossiblePat10_PO

Totale AnatomiqueAssez DifficileFacileAssez DifficileFacileFacileImpossibleTrès DifficileAssez DifficilePat10_3M

Totale AnatomiqueImpossibleFacileImpossibleImpossibleTrès DifficileImpossibleImpossibleImpossiblePat1_PO

Totale AnatomiqueAssez DifficileFacileAssez DifficileFacileFacileAssez DifficileFacileAssez DifficilePat1_6M

Totale AnatomiqueAssez DifficileAssez DifficileImpossibleAssez DifficileFacileImpossibleTrès DifficileTrès DifficilePat1_3M

Totale AnatomiqueFacileFacileFacileAssez DifficileFacileFacileFacileFacilePat1_1A

ProthèseLancerUne Balle

LeverUne Charge

Atteindre uneEtagère HauteSe PeignerFaire

Sa ToiletteSe

Laver le DosDormir

Sur l’EpauleMettre

Un ManteauIndividus

21

AFCM – Valeurs Propres

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

0.574636970.677892210.739497780.78668220.82479575

% cumulé

% : indice pessimiste de l’information extraiteAutre critère d’appréciation de l’inertie : (Valeurs Propres) ²

22

Ressemblance (mêmes profils)Distance entre individusModalités choisies par les mêmesindividus ou des ind. semblables

Proximités entre modalitésde variables différentes

Ressemblance des ind. ayant choisi ces modalités

Proximités entre modalitésd’une même variable Contribution à l’inertie des axesContribution Qualité de la représentationCorrélation (cos²)

cos²

AFCM – Individus et Variables

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

2

1

InterprétationRésultats

23

AFCM –Variables Supplémentaires

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

1

2

Types de prothèses

Recul

24

AFCM En Bref

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

• Variables nominales et/ou continues avec codage (flou)

• Relations non linéaires entre variables

• Représentation simultanée individus –variables

• Possibilité de projeter individus, modalités et variables (nominales et continues) supplémentaires

25

Étude en Cours – Projet CEPICA

• Population d’étudePatients avec pacemaker bi-ventriculaire

• ObjectifLes données « physiologiques » recueillies permettent-elles

– Le suivi de l’état de santé des patients ?– De différentier les répondeurs des non-répondeurs à la stimulation ?

• Données disponibles– Données « physiologiques » journalières sur 1 ou 3 mois, tous les 3

mois– 37 variables– Trop peu d’individus (8)

Principes Communs Analyse en Composantes Principales Analyse des Correspondances Étude en Cours

26

ACP – Codage des Données

Principes Communs Analyse en Composantes Principales Analyse des Correspondances Étude en Cours

30 60 90 120 150 180 (jours)

(s)

Patient n°1Durée Totale En Exercice

………

…2,6 . 10e4Pat1_60

…2,2 . 10e4Pat1_30

…Durée Totale En ExerciceIndividus

2,6 . 10e4 ACP

27

Début 30j 60j

AFCM – Codage des Données

Principes Communs Analyse en Composantes Principales Analyse des Correspondances Étude en Cours

30 60 90 120 150 180 (jours)

(s)

Patient n°1Durée Totale En Exercice

Faib

leM

oyen

neIm

porta

nte

(Loslever et Bouilland, Fuzzy sets and systems, 1999)

AFCM0.2

0.1

Importante

0.5

0.5

Moyenne

Durée Totale En ExerciceIndividus

………

…0.3Pat1_30j

…0.4Pat1_Début

…Faible

28

ACP et AFCM en Bref

—Peu adaptées à la prise de décision mais étape préalable pour

⇒ Tests d’hypothèses⇒ Classification non-supervisée / supervisée …

+ Méthodes descriptives, exploratoires

+ Pas d’hypothèse préalable sur les données(non Paramétriques)

+ Synthèse rapide de l’information


Recommended