Un modèle général pour la classificationnon supervisée sous contraintes d’utilisateur
Thi-Bich-Hanh DAO, Khanh-Chuong DUONG,Christel VRAIN
LIFOUniversité d’Orléans
JFPC 2013
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 1 / 41
Plan
1 MotivationClassification non superviséeContraintes d’utilisateurMotivation
2 ModèleVariablesContraintesStratégie de recherche
3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur
4 Conclusion
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 2 / 41
Plan
1 MotivationClassification non superviséeContraintes d’utilisateurMotivation
2 ModèleVariablesContraintesStratégie de recherche
3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur
4 Conclusion
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 3 / 41
Classification non supervisée
O = {o1, . . . , on
}: n objets. d(oi
, oj
): dissimilarité entre o
i
et o
j
.Tâche: Regrouper n objets en k groupes.Le problème peut être formulé comme un problème d’optimisationavec un critère E :
Minimisation du diamètre maximalMaximisation du séparateur minimalMinimisation de la somme de dissimilaritésMinimisation des moindres carrésMinimisation de l’erreur absolue...
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 4 / 41
Classification non supervisée
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 5 / 41
Critère: Minimisation du diamètre maximal
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 6 / 41
Critère: Maximisation du séparateur minimal
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 7 / 41
Critère: Minimisation de la somme de dissimilarités
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 8 / 41
Plan
1 MotivationClassification non superviséeContraintes d’utilisateurMotivation
2 ModèleVariablesContraintesStratégie de recherche
3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur
4 Conclusion
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 9 / 41
Contraintes d’utilisateur
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 10 / 41
Contraintes portant sur les clusters
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 11 / 41
Contrainte: Diamètre Maximal
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 12 / 41
Contrainte: Séparation Minimale
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 13 / 41
Contraintes: Must-link et Cannot-link
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 14 / 41
Plan
1 MotivationClassification non superviséeContraintes d’utilisateurMotivation
2 ModèleVariablesContraintesStratégie de recherche
3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur
4 Conclusion
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 15 / 41
Motivation
Ce problème d’optimisation est NP-difficile. Les algorithmesclassiques trouvent un optimum local.Ils doivent être adaptés pour chaque type de contraintes.
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 16 / 41
Motivation
Un modèle général qui cherche l’optimum global.Intégration avec des contraintes définies par l’utilisateur.Choix des critères d’optimisation:
minimisation du diamètre maximal.maximisation de la séparation entre les clusters.minimisation de la somme des dissimilarités intracluster.
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 17 / 41
Plan
1 MotivationClassification non superviséeContraintes d’utilisateurMotivation
2 ModèleVariablesContraintesStratégie de recherche
3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur
4 Conclusion
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 18 / 41
Variables : représentants
Chaque groupe est identifié par un représentant.Pour casser la symétrie, le représentant d’un cluster est le pointdu plus petit indice.k variables: I[1], . . . , I[k ] avec le domaine [1, n].8c 2 [1, k ], I[c] est le représentant du cluster c
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 19 / 41
Variables : points aux clusters
Pour chaque point, son cluster est donné par l’indice dureprésentant.G[1], . . . ,G[n] avec le domaine [1, n].8i 2 [1, n], G[i] est la valeur du représentant associé.
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 20 / 41
Variables du critère à optimiser
D : diamètre maximal.V : somme des dissimilarités intra-cluster.
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 21 / 41
Plan
1 MotivationClassification non superviséeContraintes d’utilisateurMotivation
2 ModèleVariablesContraintesStratégie de recherche
3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur
4 Conclusion
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 22 / 41
Modélisation d’une partition
Le représentant d’un représentant est lui-même:
8c 2 [1, k ], G[I[c]] = I[c]
Le représentant d’un point doit être parmi les représentants:
8i 2 [1, n], #{c | G[i]= I[c]} = 1
Le représentant doit être d’indice minimal:
8i 2 [1, n], G[i] i
Les représentants sont en ordre croissant:
8c < c
0 2 [1, k ], I[c] < I[c0]
Le représentant du premier cluster est le premier point:
G[1] = 1, I[1] = 1
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 23 / 41
Contraintes du diamètre maximal
Les contraintes réifiées du diamètre:
8i < j 2 [1, n] : d(i , j) > D ! (G[i] 6= G[j])
minimise D.
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 24 / 41
Contrainte de la somme des dissimilarités
Contrainte linéaire de la somme des dissimilarités intra-clusters
V =X
i<j2[1,n]
(G[i] == G[j])d(i , j)2
minimise V .
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 25 / 41
Modélisation des contraintes définies par l’utilisateur
Pour les contraintes portant sur les clusters:Capacité minimale ↵ des clusters:
8c 2 [1, k ], #{i | G[i]= I[c]} � ↵
Capacité maximale � des clusters:
8c 2 [1, k ], #{i | G[i]= I[c]} �
Séparation minimale ✓ des clusters:
8i < j 2 [1, n], d(i , j) < ✓ : G[i] = G[j]
Diamètre maximal � des clusters:
8i < j 2 [1, n], d(i , j) > � : G[i] 6= G[j]
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 26 / 41
Modélisation des contraintes définies par l’utilisateurGénéralisation de la ✏-contrainte:
#{j | d(i , j) ✏,G[j]=G[i]} � MinPts
Pour les contraintes sur les couples de points:Une contrainte must-link sur i , j :
G[i] = G[j]
Une contrainte cannot-link sur i , j :
G[i] 6= G[j]
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 27 / 41
Plan
1 MotivationClassification non superviséeContraintes d’utilisateurMotivation
2 ModèleVariablesContraintesStratégie de recherche
3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur
4 Conclusion
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 28 / 41
Stratégie de recherche
Ordre de choix des variables: I puis G.Choix des variables de I: I[1] à I[k ]
Choix des variables de G: sur la taille du domaine restant.Choix de valeur pour chaque G[i]: l’indice du représentant le plusproche.
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 29 / 41
Amélioration du modèle
Utilisation d’une heuristique fondée sur l’algorithme FPF [F.Gonzalez, 1985] pour réordonner les points.Amélioration des contraintes réifiées du diamètre prenant encompte le diamètre trouvé par FPF.Un filtrage supplémentaire pour la somme de dissimilarités.
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 30 / 41
Amélioration de la recherche en réordonnant lespoints
Importance des indices des points.FPF est utilisé pour réordonner les points.
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 31 / 41
Amélioration de la recherche en réordonnant lespoints
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 32 / 41
Un filtrage supplémentaire pour la somme
V =X
i<j2[1,n]
(G[i] == G[j])d(i , j)2
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 33 / 41
Plan
1 MotivationClassification non superviséeContraintes d’utilisateurMotivation
2 ModèleVariablesContraintesStratégie de recherche
3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur
4 Conclusion
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 34 / 41
Clustering sans contraintes d’utilisateur
Base de données #Objets #Classes Diamètre Séparationiris 150 3 0.1s 0.3sionosphere 351 2 0.8s 7.4ssynthetic control 600 6 24.6s 102.8svehicle 846 4 36.7s 308.6syeast 1484 10 4211.2s > 2 heurs
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 35 / 41
Clustering sans contraintes d’utilisateur
30 32 34 36 38 40
0
20
40
60
80
100
n
te
mp
s(s)
Avec le filtrage supplémentaireSans filtrage supplémentaire
Critère de la somme des dissimilarités:
V =X
i<j2[1,n]
(G[i] == G[j])d(i , j)2
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 36 / 41
Plan
1 MotivationClassification non superviséeContraintes d’utilisateurMotivation
2 ModèleVariablesContraintesStratégie de recherche
3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur
4 Conclusion
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 37 / 41
Performance avec contraintes d’utilisateur
0 0.2 0.4 0.6 0.8 1
100
200
300
400
500
#must-link (%)
#noe
uds
sans contrainte de capacitécapacité � 5%n
capacité � 10%n
capacité � 15%n
critère de diamètre + contraintes de Must-link + contrainte de capacité.
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 38 / 41
Qualité de la solution
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 39 / 41
Conclusion
ConclusionUn modèle générique en PPC pour la classification nonsupervisée avec contraintes d’utilisateur.Un filtrage supplémentaire pour la somme des dissimilarités.Le modèle s’adapte à différents critères de classification.Intégration directe des contraintes d’utilisateur.
PerspectiveAmélioration de l’efficacité.Renforcer la généralité du modèle.
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 40 / 41
Amélioration pour le critère du diamètre maximal
D
optimal
D
FPF
2 ⇥ D
optimal
Contrainte de diamètre est modifié:d(i , j) D
FPF
/2:
d(i , j) > D
FPF
:
DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 41 / 41