Océane CORNIC
DESS Informatique
Décisionnelle
2004-2005
Data Mining
Analyse des résultats scolaires de
lycéens en classe de terminale
Professeur : E. DIDAY
Océane Cornic DESS ID
SOMMAIRE
I. INTRODUCTION 3
II. ETAT DE L’ART DU DATA MINING 5
1) LE DATA MINING 5 2) LES METHODES DU DATA MINING 7 3) LES DIFFERENTS LOGICIELS DE DATA MINING 9 4) SODAS : SYMBOLIC OFFICIAL DATA ANALASYS SYSTEM 10
III. LES DONNEES 14
1) DESCRIPTION DE LA BASE DE DONNEES 14 2) DEFINITION DES INDIVIDUS ET DES CONCEPTS 16 3) EXTRACTION DES CONCEPTS AVEC LE MODULE DB2SO 18 4) AJOUT D’UNE VARIABLE AUX CONCEPTS – ADDSINGLE 19
IV. LES ANALYSES 21
1) SOE – SYMBOLIC OBJECT EDITOR 21 2) STAT – ANALYSES STATISTIQUES ELEMENTAIRES 24 3) SPCA – SYMBOLIC PRINCIPAL COMPOSANTS ANALYSIS 26 4) DIV – DIVISE CLUSTERING 29 5) SCLASS – UNSUPERVISED CLASSIFICATION TREE 32 6) TREE 33
V. LES PEPITES 35
1) LES RESULTATS DE L’ANALYSE 35 2) LES LIMITES DE L’ANALYSE 35
VI. CONCLUSION 36
Data Mining 2/2
Océane Cornic DESS ID
I. INTRODUCTION
Le développement des moyens informatiques de stockage (bases de données) et de calcul
permet de traiter et d’analyser des ensembles de données très volumineux. L’amélioration
des interfaces offrent aux utilisateurs, statisticiens ou non, des possibilités de mise en oeuvre
très simples des outils logiciels. Cette évolution, ainsi que la popularisation de nouvelles
méthodes algorithmiques (comme les réseaux de neurones) et outils graphiques, conduit au
développement et à la commercialisation de logiciels intégrant un sous-ensemble de méthodes
statistiques et algorithmiques sous la terminologie de Data Mining : la prospection ou fouille
de données. Cette approche, issue du marketing spécialisé dans la gestion de la relation client
(CRM) trouve également des développements et applications industrielles en contrôle de
qualité ou même dans certaines disciplines scientifiques dès lors que les ingénieurs et
chercheurs sont confrontés à un volume de données important. L’accroche publicitaire
souvent citée par les éditeurs de logiciels SAS est :
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Les entreprises sont très motivées pour tirer parti des teras-octets de données que leur
service informatique s’emploie à administrer.
Le contexte informationnel de la fouille de données est celui des data warehouses. Un
entrepôt de données est un ensemble de bases relationnelles extraites des données brutes de
l’entreprise et relatives à une problématique :
• gestion des stocks (flux tendu), des ventes d’un groupe afin de prévoir et anticiper au
mieux les tendances du marché,
• suivi des fichiers clients d’une banque, d’une assurance, associés à des données socio-
économiques de l’INSEE, à l’annuaire, en vue de la constitution d’une segmentation
pour cibler des opérations de marketing ou des attributions de crédit
• suivi en ligne des paramètres de production en contrôle de qualité pour détecter au
plus vite l’origine d’une défaillance ;
• prospection textuelle (text mining) et veille technologique…
Data Mining 3/3
Océane Cornic DESS ID
Le Data Mining est ainsi l’art d’extraire de l’information à partir de grandes bases de données.
C’est une nouvelle discipline à l’intersection des statistiques, de la gestion de données, de
l’apprentissage automatique, de l’intelligence artificielle et de l’analyse de données, avec
laquelle elle partage beaucoup de concepts mais qui s’en distingue par la résolution et
problèmes particuliers et la mise en œuvre de solutions tout aussi particulières.
Data Mining 4/4
Océane Cornic DESS ID
II. ETAT DE L’ART DU DATA MINING
1) Le Data Mining
Avec le développement des grands entrepôts de données, nous sommes confrontés à des
sources de données très abondantes et hétérogènes. Le travail de Data Mining peut
s’apparenter à un chercheur d’or (la connaissance) dans une mine (les données), comme
l’illustre le dessin ci-dessus.
Le Data Mining est l’ensemble des algorithmes et méthodes destinés à l’exploration et
l’analyse de grandes bases de données informatiques, sans a priori, en vue de détecter dans
ces données des règles, des tendances inconnues ou cachées, des structures particulières
restituant de façon concise l’essentiel de l’information utile pour l’aide à la décision.
Le Data Mining est avant tout un cadre précisant la démarche à suivre pour exploiter les
données, quelles que soient leur formes, en vue d'en extraire de la connaissance. On distingue
cinq étapes :
• accès aux données, stockées sous une forme structurée (base de données, fichiers
tabulaires) ou non-structurée (texte, image, etc.)
Data Mining 5/5
Océane Cornic DESS ID
• la préparation des données, en vue du traitement
• l'utilisation de techniques de fouille de données, issues de la statistique ou de
l'apprentissage automatique
• évaluer et valider les connaissances extraites
• déploiement des connaissances en vue d'une utilisation effective.
Ceci peut se résumer selon le schéma suivant :
Data Mining 6/6
Océane Cornic DESS ID
2) Les méthodes du Data Mining
Le Data Mining se décompose en différentes méthodes, qui correspondent chacune à des
objectifs particuliers pour la personne qui analyse les données. On peut les regrouper dans
différentes catégories :
- Analyse exploratoire des données : le but est ici d’explorer les données sans idée
précise de ce que l’on recherche. Ce sont le plus souvent des techniques interactives et
visuelles, et il existe beaucoup de méthodes graphiques pour des séries de données
relativement petites et sans beaucoup de dimensions. Dès que le nombre de variables
augmente, il devient plus difficile de visualiser le nuage de points. Il existe alors des
techniques de projection (comme l’analyse en composantes principales – ACP) qui
permettent de réduire l’information.
- Modélisation descriptive : le but d’un modèle descriptif est de décrire toutes les données
(ou le processus qui génère ces données). On utilise ici des techniques telles que la
partition des données en classes (cluster analysis et segmentation). Dans l’analyse de
segmentation, le but est de regrouper des individus similaires où le nombre de classe est
fixé a priori. Ceci diffère de la cluster analysis où le but est de découvrir des groupes
« naturels » dans les données. La modélisation descriptive a été utilisée dans de
nombreuses applications :
o La segmentation a été principalement utilisée en marketing pour diviser les clients
en groupes homogènes basés sur les habitudes d’achats et les données
démographiques et sociologiques (age, revenu…)
o La cluster analysis a été largement utilisée en recherche psychiatrique pour
construire des taxonomies.
- Modélisation prédictive (Classification supervisée et régression) : le but est ici de
construire un modèle qui permettra de prédire la valeur d’une variable à partir des autres
valeurs des variables (connues). Dans la classification supervisée, la variable à prédire est
catégorielle, alors que dans la régression elle est quantitative. Par exemple, on souhaite
prédire le diagnostic d’un patient en fonction de ses symptômes et de ses caractéristiques.
La principale différence entre la prédiction et la description est que la prédiction a
Data Mining 7/7
Océane Cornic DESS ID
comme objectif une unique variable (le diagnostic de la maladie par exemple) alors que
dans les problèmes de description aucune variable n’est centrale dans le modèle.
- Mise en évidence de règles et de modèles1 : un exemple de détection de modèle est de
détecter (en astronomie) des étoiles ou des galaxies inhabituelles qui peut conduire à la
découverte de phénomènes jusqu’alors inconnus. Une autre méthode du Data Mining
consiste à trouver des combinaisons d’items qui apparaissent fréquemment dans les bases
de données (par exemple des produits qui sont souvent achetés ensemble). Ce problème
met en œuvre des techniques algorithmiques basées sur les règles d’association. Une des
difficultés réside ici dans le fait qu’il faut décider de ce qui constitue un véritable
comportement inhabituel.
- Extraction par le contenu (retrieval by content) : l’utilisateur dispose ici d’un modèle
et cherche à trouver des modèles similaires dans la série de données. Cette méthode est
souvent utilisée pour des séries de données d’images ou de texte. Pour le texte, le
modèle peut être un jeu de mots-clés, et l’utilisateur souhaite trouver des documents qui
ont le plus à voir avec ce jeu (recherche de pages Web par exemple). Pour les images,
l’utilisateur peut avoir un morceau d’image ou une description de celle-ci et souhaite
trouver des images similaires à partir d’une large série d’images. Dans ces deux cas, la
définition de la similarité est cruciale, ainsi que les stratégies de recherche utilisée. Il
existe de nombreuses applications de ces méthodes :
o Trouver des documents sur le web, comme le système Google qui utilise un
algorithme mathématique (Page Rank) pour trouver des liens en rapport avec les
mots-clés utilisés.
o QIBC (Query By Image Content), un système développé par IBM, qui permet à
l’utilisateur de rechercher dans une grande base de données d’images en émettant
des requêtes sur la couleur, la texture…
Bien que les cinq « méthodes » précédentes soient différentes l’une de l’autre, elles
partagent cependant de nombreuses caractéristiques communes. Par exemple, la notion de
similarité ou de distance entre deux vecteurs de données est partagée par beaucoup de celles-
ci.
1 Modèle : pattern
Data Mining 8/8
Océane Cornic DESS ID
3) Les différents logiciels de Data Mining
Le Data Mining étant en plein essor, les éditeurs proposent désormais tous un logiciel pour
effectuer de l’extraction de connaissances. Voici une liste non exhaustive des éditeurs et de
leur offre.
- SAS - Entreprise Miner TM : permet des analyses rapides sur de très grosses bases de
données. Il est très complet : Enterprise Miner TM dispose d'une grande richesse
analytique et permet aussi l'intégration de toutes les méthodes statistiques déjà
présentes dans les modules de SAS.
- Decisia – SPAD : pionnier français dans les analyses exploratoires et le data mining.
possède les principales techniques statistiques liées au data mining. Description
automatique de variables, analyse exploratoires multidimensionnelles (ACP, AFC, ACM
et Classification), Réseaux de neurones, Analyse discriminante, Segmentation...
- GrimmerSoft – SmartMiner : logiciel d'aide à la décision qui permet l'exploration des
informations (contenues dans des bases de données commerciales ou d'enquêtes) et
d'en extraire l'information. Il permet de réaliser des segmentation (par arbres de
décision et classification) ainsi que de la prévision (par séries chronologiques et
modélisations).
- SPSS – Clementine
- StatSoft - Statistica et Data Miner
- ISoft - Alice
- IBM - Intelligent Miner
- Oracle - 9I Data Mining
- Insightful - Insightful Miner
- …
Data Mining 9/9
Océane Cornic DESS ID
4) SODAS : Symbolic Official Data Analysis System
SODAS a un positionnement tout particulier par rapport aux autres logiciels de Data Mining. En
effet, SODAS ne travaille pas sur des tableaux de données « classiques », mais sur des données
symboliques.
a. L’analyse de données symboliques
L'objectif de l'analyse de données symboliques est de pouvoir représenter des connaissances
par des expressions à la fois symboliques et numériques. Dans le cadre de cette analyse, on
distingue deux niveaux d’information : les individus et les concepts. Les individus sont le
premier niveau d’information, ce sont par exemple des habitants d’une ville, des élèves d’une
classe, des acteurs d’un film. Les concepts constituent le deuxième niveau, ce sont,
respectivement, les villes, les classes, les films. Les concepts peuvent être modélisés par des
données plus complexes dites symboliques où les propriétés peuvent s'exprimer par des
valeurs qualitatives ou quantitatives mais aussi par des intervalles, des histogrammes ou des
valeurs multiples munies de règles et de taxonomies.
Un tableau de données symboliques autorise plusieurs valeurs par case, valeurs pouvant être
pondérées et liées entre elles par des règles et des taxonomies. L'analyse des données
symboliques a pour objectif d'étendre l'analyse des données traditionnelles aux tableaux de
données symboliques pour en extraire des objets symboliques. Ceux-ci permettent de décrire
les concepts par leurs propriétés communes mais aussi de calculer leurs extensions dans
l'ensemble des individus qu'ils représentent.
Par rapport aux approches classiques, l'analyse des données symboliques présente les
caractéristiques et ouvertures suivantes :
• Elle s'applique à des données plus complexes. En entrée elle part de données symboliques
(variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de
possibilité, capacité...) munies de règles et de taxonomies et peut fournir en sortie des
connaissances nouvelles sous forme d'objets symboliques.
• Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et
spécialisation, d'ordre et de treillis, de calcul d'extension, d'intention et de mesures de
Data Mining 10/10
Océane Cornic DESS ID
ressemblances ou d'adéquation tenant compte des connaissances sous-jacentes basées sur
les règles et taxonomies.
• Elle fournit des représentations graphiques exprimant entre autres la variation interne des
descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera
représenté par une zone (elle même exprimable sous forme d'objet symbolique) et pas
seulement par un point.
b. Les apports de l’analyse de données symboliques
Les principaux avantages des objets symboliques peuvent se résumer comme suit :
• Ils fournissent un résumé de la base plus riche que les données agrégées habituelles car ils
tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites,
ainsi que des taxonomies fournies.
• Ils sont explicatifs, puisqu'ils s'expriment sous forme de propriétés des variables initiales
ou de variables significatives obtenues (axes factoriels).
• En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de
données de plus haut niveau sur lequel une analyse de données symbolique de second
niveau peut s'appliquer.
• Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des
variables provenant de plusieurs tableaux associés à différentes populations. Par exemple,
pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés
issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant
les foyers de chaque ville.
• Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue,
il peut être plus avantageux d'extraire d'abord des objets symboliques de chaque base puis
d'étudier l'ensemble des objets symboliques ainsi obtenus.
• Ils peuvent être facilement transformés sous forme de requête d'une Base de Données.
Ceci a au moins les deux conséquences suivantes :
o Ils peuvent propager les concepts qu'ils représentent d'une base à une autre (par
exemple, d'un pays à l'autre de la communauté européenne).
o Alors qu'habituellement on pose des questions sous forme de requête à la base de
données pour fournir des informations intéressant l'utilisateur, les objets
symboliques formés à partir de la base par les outils de l'Analyse des Données
Data Mining 11/11
Océane Cornic DESS ID
Symbolique permettent à l'inverse de définir des requêtes et donc de fournir des
questions qui peuvent être pertinentes à l'utilisateur.
c. Fonctionnement du logiciel SODAS
Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :
• Partir d'une base de données relationnelle (ORACLE, ACCESS, ...)
• Définir ensuite un contexte par:
o des unités statistiques de premier niveau (habitants, familles, entreprises,
accidents, ...)
o les variables qui les décrivent
o des concepts (villes, groupes socio-économiques, scénario d'accident,...) .
Une fois que la base est constituée, les individus et concepts définis et les variables créées, il
faut importer le tableau à partir duquel SODAS (à partir du module DB2S0) construira le
tableau de données symboliques.
Lorsque ce tableau est constitué, il faut créer une chaîne dans SODAS en précisant la base sur
lesquelles les analyses vont s’effectuer. Une chaîne est une succession de méthodes
appliquées au tableau de données symboliques.
Data Mining 12/12
Océane Cornic DESS ID
En haut de la chaîne se trouve la base des données symboliques. Ensuite, on insère des
méthodes (ici, les méthodes View, STAT et SPCA). Les méthodes en rouge ont déjà été
exécutées, contrairement à celles en grise. Pour fixer les paramètres d’une méthode, il suffit
de faire un clic droit sur son nom, puis de choisir Parameters. Lorsque ceux-ci sont définis, il
faut lancer la méthode (Run Method) pour pouvoir ensuite visualiser les données. Le fichier en
jaune correspond aux données résultats (par exemple, pour la méthode SPCA, on aura les
valeurs et vecteurs propres ainsi que les différents indices de qualité). Les graphes en rouge
ou en bleu permettent quant à eux de visualiser graphiquement les résultats des méthodes
exécutées.
Data Mining 13/13
Océane Cornic DESS ID
III. LES DONNEES
Le travail réalisé pour ce projet porte sur les données du Lycée Lalande2. Ayant une base
d’élèves assez importantes (20 classes de secondes et premières, 9 classes de Terminale et les
classes préparatoires), l’analyse a été restreinte aux élèves de Terminale. Par souci de
confidentialité, les noms et prénoms des élèves n’apparaissent pas dans la base. Les élèves
sont alors identifié par un code crée à partir de la classe, du nom et du prénom.
La construction de cette base de données a nécessité beaucoup de préparation et, par
conséquent, beaucoup de temps. En effet, les données étant dans des fichiers Excel ou
extraites du logiciel de gestion des élèves et personnels, et n’ayant pas toute la même mise
en forme ou syntaxe, la grande majorité de celles-ci ont du être retravaillées afin d’avoir la
base la plus propre. Le nombre de champs a également été restreint. En effet, l’intégralité
des matières n’a pas été sélectionnée pour, d’une part, réduire l’importance de la base, et
d’autre part, pour conserver les matières principales et obligatoires quelque soit la section
(LV1, Philosophie, Histoire-Géographie, Mathématiques3).
1) Description de la base de données
La base de données comprend 5 tables :
- CP : contient les champs Code et Ville. Correspondance entre le code postal et la ville.
- CSP : contient les champs Code et Libellé. Les CSP sont les catégories
socioprofessionnelles. Par souci de clarté, j’ai opté pour le niveau 1 de CSP décrit par
l’INSEE. Il est constitué de 8 CSP qui sont :
o 1 : Agriculteurs exploitants
o 2 : Artisans, commerçants et chefs d’entreprise
o 3 : Cadres et professions intellectuelles supérieures
2 Lycée Lalande – Bourg en Bresse (01) 3 Les mathématiques ne sont pas obligatoires en Terminale Littéraire. J’ai cependant choisi de
l’intégrer pour représenter l’aspect scientifique de l’enseignement.
Data Mining 14/14
Océane Cornic DESS ID
o 4 : Professions intermédiaires
o 5 : Employés
o 6 : Ouvriers
o 7 : Retraités
o 8 : Sans activité professionnelle
Un champ pour les personnes décédées a également été ajouté (Code 9).
- EleveRG : Cette table contient tous les renseignements généraux concernant les
élèves : la classe, le sexe, la qualité (externe, interne, demi-pensionnaire), CP le code
postal du lieu d’habitation, ProfPere la profession du père, ProfMere la profession de
la mère, RedoubleTerm si l’élève redouble ou non sa terminale, CollegeFrequente le
collège fréquentée avant l’entrée en seconde, NbClasseRedoub le nombre de classes
redoublées.
- EleveMAT : Cette table regroupe les différents choix d’option, de langues et de
spécialité faits par les élèves en seconde et en terminale. Les champs sont : SLV1,
SLV2, SLV3 (les langues vivantes choisies par l’élève en seconde), SSES, SArtsPlastiques,
SLatin, SGrec, SCinema, SEPS (codé en oui ou non selon si l’élève a choisi ou non
l’option), TLV1, TLV2, TLV3 (les langues vivantes choisies par l’élève en terminale),
Option (l’option choisie en terminale) et Specialite.
- EleveNOTE : Cette table contient les notes des élèves pour les matières suivantes :
LV1, Histoire-Géographie, Mathématiques, Philosophie.
Data Mining 15/15
Océane Cornic DESS ID
Voici le schéma relationnel de la base :
2) Définition des individus et des concepts
Pour cette analyse de résultats scolaires, les individus étudiés sont les lycéens en classe de
terminale. Chaque individu (ou lycéen) dispose de nombreuses variables dont nous n’avons
extrait que les plus intéressantes pour cette étude.
Plusieurs concepts peuvent être ensuite étudiés. On peut penser à analyser les classes afin de
voir si certaines classes sont meilleures que d’autres en fonction des options par exemple. On
peut également définir un concept Note qui répartirait les élèves en fonction de leur moyenne.
Le concept étudié serait alors par exemple :inférieur à 8, [8-10], [10-12], [12-14], [14-16],
supérieur à 16, ce qui correspondrait aux mentions pouvant être obtenues au baccalauréat. On
peut aussi définir un concept qui serait une combinaison des langues vivantes [LV1, LV2, LV3],
par exemple [Anglais, Espagnol, Italien] ou [Allemand, Anglais, Russe]… pour voir l’influence
de la pratique des langues sur les résultats scolaires…
Dans le cadre de cette étude, tous ces concepts seraient intéressants à étudier. Cependant,
nous n’en étudierons qu’un seul afin de l’approfondir suffisamment : la combinaison des
langues pratiquées en terminale.
Voici la requête avec laquelle nous avons obtenu le tableau individus/concept qui sera ensuite
importé dans SODAS avec le module DB2SO :
Data Mining 16/16
Océane Cornic DESS ID
SELECT Concept.CODE, (Concept.TLV1 & " " & Concept.TLV2 & " " &
Concept.TLV3) AS CombiLV, Concept.CLASSE, Concept.SEXE,
Concept.QUALITE, Concept.ville, Concept.ProfPere, CSP.Libellé AS
ProfMere, Concept.RedoubleTerm, Concept.Collegefrequente,
Concept.NbClasseRedoub, Concept.PHILO, Concept.MATHS, Concept.HG,
Concept.LV1, Concept.SLV1, Concept.SLV2, Concept.SLV3, Concept.SSES,
Concept.SArtsPlastiques, Concept.SLatin, Concept.SGrec,
Concept.SCinema, Concept.SEPS, Concept.TLV1, Concept.TLV2,
Concept.TLV3, Concept.Option, Concept.Specialite
FROM Concept, CSP
WHERE (((CSP.Code)=Concept.ProfMere));
Nous obtenons ainsi 9 classes de concepts (et 236 individus) :
- allemand / anglais / non : 27 élèves
- allemand / anglais / italien : 2 élèves
- anglais / allemand / non : 46 élèves
- anglais / espagnol / non : 128 élèves
- anglais / espagnol / italien : 10 élèves
- anglais / espagnol / russe : 1 élève
- anglais / allemand / italien : 6 élèves
- anglais / allemand / russe : 3 élèves
- anglais / italien / non : 13 élèves.
Data Mining 17/17
Océane Cornic DESS ID
3) Extraction des concepts avec le module DB2SO
Avant d’importer le tableau des données, une liaison ODBC a été créée pour la base de
données utilisée (DataLycee). Une fois dans le module DB2SO, on sélectionne New puis
l’onglet Source de données machine.
Il est ensuite possible de vérifier si les tables importées sont les bonnes.
Data Mining 18/18
Océane Cornic DESS ID
On entre ensuite la requête qui nous permet d’extraire les données et les concepts. Ensuite,
le module DB2SO se charge de transformer les données de cette requête en données
symboliques. On peut ensuite exporter et enregistrer ce nouveau tableau de données
symboliques en fichier .sds.
4) Ajout d’une variable aux concepts – AddSingle
Afin de pouvoir utiliser des méthodes telles que TREE ou SDT (Strata Decision Tree), il est
nécessaire d’ajouter une ou des variables décrivant le concept.
Dans le cadre de cette étude, il n’existe pas de variable évidente pour le concept de
combinaison de langues (dans le cadre d’un concept équipe de foot, on aurait pu choisir le
budget de l’équipe ou le nombre de fois que l’équipe a été championne de France par
exemple). Ainsi, la variable associée aux concepts va être une définition de celui-ci :
Définition du Concept Définition
Pratique de 2 langues vivantes seulement Réservé
Pratique de 3 langues vivantes dont le russe Exotique
Pratique de 3 langues vivantes sauf le russe Polyglotte
Data Mining 19/19
Océane Cornic DESS ID
L’ajout de variables de concept se fait dans le module DB2SO avec la fonction Add-Single. Il
suffit de choisir la table ou d’écrire la requête qui permet d’avoir ces nouvelles variables, et
elles sont ensuite automatiquement intégrées au fichier de données en tant que Categorical
Single.
Data Mining 20/20
Océane Cornic DESS ID
IV. LES ANALYSES
1) SOE – Symbolic Object Editor
a. Description de la méthode
Cette méthode sert à visualiser les concepts et les variables qui les définissent. Les principes
du SOE (Symbolic Object Editor) sont qu’il y un graphique par objet symbolique, que les
informations générales sont données en premier et qu’ensuite il est possible (de manière
interactive) de préciser les informations et que tous les types de variables peuvent être
représentés.
b. Résultats et analyses
Voici un extrait du tableau que l’on obtient :
Afin de visualiser plus facilement ces données, on utilise l’outil graphique. Voici quelques
exemples de graphes que l’on peut obtenir :
Data Mining 21/21
Océane Cornic DESS ID
La comparaison de ces deux combinaisons de langues [Anglais espagnol italien] et [Anglais
allemand non] montre quelques disparités entre ces deux concepts. En effet, pour le concept
[Anglais Allemand non], les notes dans les différentes moyennes ont une plus grande variance
Data Mining 22/22
Océane Cornic DESS ID
que pour le concept [Anglais espagnol italien]. De plus, la répartition filles/garçons est plus
équilibrée pour le concept [Anglais Allemand non].
On constate également que les notes en mathématiques pour les personnes pratiquant trois
langues vivantes sont nettement plus faibles que pour celles qui n’en pratiquent que deux,
comme le confirme les graphiques suivants :
Data Mining 23/23
Océane Cornic DESS ID
2) STAT – Analyses Statistiques Elémentaires
a. Description de la méthode
La méthode STAT (Elementary Statistics On Symbolic Objects) étend aux objets symboliques
plusieurs méthodes de statistique élémentaire. La méthode appliquée dépend du type des
variables présentes dans la base et sont filtrées selon leur nature:
• fréquences relatives pour les variables multi nominales : la fréquence relative des
différentes modalités de la variable multi nominale est étudiée en prenant compte des
éventuelles règles relatives à la base sur laquelle l'étude est réalisée.
• fréquences relatives pour les variables intervalles : deux paramètres sont nécessaires
à l'entrée de cette méthode: une variable intervalle, noté i et un nombre de classe,
noté k. Un histogramme est construit pour la variable i sur un intervalle [a, b] découpé
en k classes et où a représente la borne inférieure de i et b sa borne supérieure. Cette
méthode permet de calculer la fréquence relative associée à la classe Ck tout en
tenant compte du recouvrement de cette classe Ck par les valeurs intervalles de i et
ceci pour tous les objets symboliques.
• capacités et min/max/mean pour variables multi nominales probabilistes : cette
méthode permet de construire un histogramme des capacités des différentes modalités
de la variables considérée. Dans cet histogramme, la capacité d'une modalité est
représentée par l'union des différentes capacités.
• biplot pour les variables intervalles : cette méthode permet de construire un objet
symbolique par un rectangle dans le plan de deux variables sélectionnées par
l'utilisateur. La dimension de chaque coté du rectangle correspond à l'étendue de la
variation de l'objet symbolique relativement à la variable de l'axe considéré.
Data Mining 24/24
Océane Cornic DESS ID
b. Résultats et analyses
• Biplot sur les notes (LV1 / Mathématiques)
Il apparaît clairement sur ce biplot que les élèves étudiant trois langues vivantes ont des notes
nettement plus faibles en mathématiques, mais qu’ils ont également des notes supérieures en
langue vivante 1 par rapport aux élèves n’étudiant que deux langues.
• Fréquences relatives sur les notes :
Les notes de mathématiques sont en général assez faibles (beaucoup de notes autour de 8),
alors qu’en LV1 elles sont plus hautes. Les notes en Histoire-Géographie et Philosophie
sont distribuées de façon plus équilibrée.
Data Mining 25/25
Océane Cornic DESS ID
3) SPCA – Symbolic Principal Composants Analysis
a. Description de la méthode
La méthode SPCA (Principal Component Analysis) correspond à une Analyse en Composante
Principale classique. Néanmoins, au lieu d'obtenir une représentation par points sur un plan
factoriel, cette méthode représente chaque concept par un rectangle. L'objectif est d'étudier
l'intensité des liaisons entre les variables et de repérer les concepts présentant des
caractéristiques voisines.
Cette méthode est une méthode factorielle de réduction du nombre de caractères permettant
des représentations géométriques des individus et des variables. La réduction se fait par la
construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales
au moyen des "facteurs".
Les objectifs poursuivis par une ACP sont :
• la représentation graphique “optimale” des individus (lignes), minimisant les
déformations du nuage des points, dans un sous-espace Eq de dimension q (q < p),
• la représentation graphique des variables dans un sous-espace Fq en explicitant au
“mieux” les liaisons initiales entre ces variables,
• la réduction de la dimension (compression), ou approximation de X par un tableau de
rang q (q < p).
N’ayant qu’au départ que 4 variables continues, l’ACP, dans ce cas-ci, n’apporte pas
réellement de plus-value. Cependant, il reste intéressant de voir ses résultats.
b. Résultats et analyses
Correlations between variables and factors (4 vars, 2 fact)= Var. Factor 1 Factor 2 PHILO 0.94852 0.82929 MATHS 0.63887 0.60290 HG 0.95225 0.93427 LV1 0.97650 0.82097
L’axe 1 représente ainsi les matières plus littéraires.
Data Mining 26/26
Océane Cornic DESS ID
Contributions of the SOs to the axes (9 objs,2 fact)= Objects Factor 1 Factor 2 allemand anglais non 0.16601 0.17594 anglais allemand non 0.12776 0.21849 anglais espagnol non 0.24148 0.26878 anglais italien non 0.15288 0.05757 anglais espagnol ita 0.09668 0.02292 anglais espagnol rus 0.03875 0.18531 anglais allemand ita 0.02713 0.02241 anglais allemand rus 0.02163 0.00960 allemand anglais ita 0.12769 0.03897
Il est difficile d’interpréter correctement ce tableau. En effet, on voit que les concepts qui
contribuent le plus à l’axe 1 sont ceux qui contribuent également le plus à l’axe 2. La taille du
concept joue un rôle trop grand ici pour que l’analyse puisse être considérée comme fiable.
En effet, ce sont les concepts [Anglais espagnol non] et [Allemand Anglais non] qui contribuent
le plus, mais ils constituent également deux des concepts qui ont le plus d’individus.
On peut cependant noter que le concept [Anglais espagnol russe] contribue assez fortement à
l’axe 2. Il faut toutefois vérifier que celui-ci soit bien représenté sur l’axe.
Quality measure of the SOs representation (9 objs,2 fact)= Objects Factor 1 Factor 2 allemand anglais non 0.26354 0.28726 anglais allemand non 0.17795 0.31300 anglais espagnol non 0.25879 0.29625 anglais italien non 0.41980 0.16260 anglais espagnol ita 0.34578 0.08432 anglais espagnol rus 0.16366 0.80498 anglais allemand ita 0.18062 0.15347 anglais allemand rus 0.19930 0.09096 allemand anglais ita 0.66676 0.20929
On constate ainsi que ce concept est très bien représenté sur l’axe 2. Cependant, il n’est
constitué que d’un seul individu qui est très atypique.
Data Mining 27/27
Océane Cornic DESS ID
Il aurait été intéressant de relancer cette analyse en omettant les concepts « atypiques ».
Cependant, malgré l’option de SODAS pour sélectionner les concepts à faire entrer dans
l’analyse, il m’a été impossible de l’effectuer, SODAS renvoyant un message d’erreur.
Data Mining 28/28
Océane Cornic DESS ID
4) DIV – Divise Clustering
a. Description de la méthode
DIV (Divisive Clustering) est une méthode de classification hiérarchique qui commence
avec tous les objets d’une classe et procède par divisions successives de chaque classe. A
chaque étape, une classe est divisée en deux classes selon une question binaire. Cette
question binaire induit le meilleur partage en deux classes selon une extension du critère
de l’inertie. L’algorithme se termine après k-1 divisions, où k représente le nombre de
classes données comme inputs par l’utilisateur.
b. Résultats et analyses
Nous exécutons la méthode Divisive Clustering en utilisant les variables explicatives
suivantes : Sexe, ville, ProfPere, ProfMere, RedoubleTerm, CollegeFrequente. Cependant,
les variables ville et CollegeFrequente ne seront pas utilisées car elles comportent plus de
12 modalités.
L’algorithme DIV nos concepts en 4 classes qui sont les suivantes :
Cluster 1 (n=1) : anglais espagnol russe Cluster 2 (n=1) : allemand anglais non Cluster 3 (n=1) : anglais allemand russe Cluster 4 (n=6) : anglais allemand non anglais espagnol non anglais italien non anglais espagnol italien anglais allemand italien allemand anglais italien
Les trois premiers clusters ne sont composés que d’un seul concept. Le dernier contient
tous les autres.
Data Mining 29/29
Océane Cornic DESS ID
Voici l’arbre de partitionnement que SODAS nous donne :
+---- Classe 1 (Ng=1) ! !----1- [ProfPere = 000000011] ! ! +---- Classe 2 (Ng=1) ! ! ! !----3- [ProfMere = 000000100] ! ! ! ! ! +---- Classe 4 (Nd=6) ! ! !----2- [ProfPere = 000000101] ! +---- Classe 3 (Nd=1)
Et voici la description des règles qui permettent de construire ces classes :
Cluster 1 : IF 1- [ProfPere = Employés OR Agriculteurs exploitants ] Cluster 2 : IF 3- [ProfMere = Cadres et professions intellectuelles supérieures ] AND 2- [ProfPere = Sans activité professionnelle OR Agriculteurs exploitants ] AND 1- [ProfPere = Décédé OR Retraités OR Professions Intermédiaires OR Ouvriers OR Cadres et professions intellectuelles supérieures OR Artisans, commerçants et chefs d'entreprise OR Sans activité professionnelle ] Cluster 3 : IF 2- [ProfPere = Décédé OR Retraités OR Professions Intermédiaires OR Ouvriers OR Cadres et professions intellectuelles supérieures OR Artisans, commerçants et chefs d'entreprise OR Employés ] AND 1- [ProfPere =
Data Mining 30/30
Océane Cornic DESS ID
Décédé OR Retraités OR Professions Intermédiaires OR Ouvriers OR Cadres et professions intellectuelles supérieures OR Artisans, commerçants et chefs d'entreprise OR Sans activité professionnelle ] Cluster 4 : IF 3- [ProfMere = Décédé OR Sans activité professionnelle OR Retraités OR Ouvriers OR Employés OR Professions Intermédiaires OR Artisans, commerçants et chefs d'entreprise OR Agriculteurs exploitants ] AND 2- [ProfPere = Sans activité professionnelle OR Agriculteurs exploitants ] AND 1- [ProfPere = Décédé OR Retraités OR Professions Intermédiaires OR Ouvriers OR Cadres et professions intellectuelles supérieures OR Artisans, commerçants et chefs d'entreprise OR Sans activité professionnelle ]
Les seules variables qui permettent de construire les classes sont les professions du père et
de la mère. Ainsi, on peut retenir que les élèves qui étudient l’allemand en LV1 ont
généralement une mère qui fait partie de la CSP « Cadres et professions intellectuelles
supérieures ». Le choix de l’allemand par l’élève étant souvent déterminé par une
recommandation de ses parents, cette analyse est intéressante, puisqu’elle suppose que
les parents dont la CSP est assez élevée amène leurs enfants à choisir Allemand en LV1.
Data Mining 31/31
Océane Cornic DESS ID
5) SCLASS – Unsupervised Classification Tree
a. Description de la méthode
SCLASS est une méthode de classification qui procède comme la méthode TREE4, à la seule
différence qu’ici il n’y a pas de variable à expliquer. On va rechercher parmi les
différentes variables et coupures, celles qui minimisent le critère d’inertie intra-classes, et
qui maximisent le critère d’inertie inter-classes.
b. Résultats et analyses
Dans le cadre de cette méthode, nous n’utilisons que des variables d’intervalle, à savoir la
moyenne en Histoire-Géographie (HG), en philosophie (PHILO), en mathématiques (MATHS)
et en langue vivante 1 (LV1).
Voici l’arbre qui est créé à partir des règles extraites de SODAS :
PHILO < 11,11 PHILO > 11,11
HG < 11,79 HG > 11,79
PHILO < 9,85 PHILO > 9,85
anglais italien non
anglais espagnol italien
anglais allemand italien
allemand anglais non
anglais allemand non
anglais espagnol non
anglais espagnol russe
anglais allemand russe
allemand anglais italien
On s’aperçoit que seulement deux des variables sont utilisées PHILO et HG. Les concepts
qui ont des notes les plus faibles en philosophie et en histoire-géographie sont ceux qui ont
dans leur combinaison de langues de l’italien, exceptée pour la combinaison [allemand
4 La méthode TREE est expliquée au paragraphe … de cette partie page … .
Data Mining 32/32
Océane Cornic DESS ID
anglais italien] qui est déterminée par la règle « Philo > 11,11 ». Les concepts où l’on
retrouve en LV3 le russe, font partie des concepts qui obtiennent des bonnes notes en HG
et en Philosophie.
6) TREE
a. Description de la méthode
Complémentaires des méthodes statistiques plus classiques : analyse discriminante,
régression linéaire, les arbres de décisions renvoient des solutions présentées sous une
forme graphique simple à interpréter et constituent une aide efficace pour l’aide à la
décision. Elles sont basées sur un découpage, par des hyperplans, de l’espace engendré par
les variables explicatives. Nommées initialement partitionnement récursif ou segmentation,
les développements importants de Breiman, en 1984, les ont fait connaître sous
l’acronyme de CART : Classification and Regression Tree ou encore de C4.5 (Quinlan, 1993)
dans la communauté informatique. L’acronyme correspond à deux situations bien
distinctes selon que la variable à expliquer, modéliser ou prévoir est qualitative
(discrimination ou en anglais classification) ou quantitative (régression).
Ces méthodes ne sont efficaces que pour des tailles d’échantillons importantes et elles
sont très calculatoires. Elles requièrent moins d’hypothèses que des méthodes statistiques
classiques et semblent particulièrement adaptées au cas où les variables explicatives sont
nombreuses. En effet, la procédure de sélection des variables est intégrée à l’algorithme
construisant l’arbre, d’autre part, les interactions sont prises en compte. Néanmoins, cet
algorithme suivant une stratégie pas à pas hiérarchisée, il peut, comme dans le cas du
choix de modèle en régression, passer à coté d’un optimum global. Ceci souligne encore
l’importance de confronter plusieurs approches sur les mêmes données.
La construction d’un arbre de discrimination binaire consiste à déterminer une séquence
de noeuds.
• Un noeud est défini par le choix conjoint d’une variable parmi les explicatives et
d’une division qui induit une partition en deux classes. Implicitement, à chaque
noeud correspond donc un sous-ensemble de l’échantillon auquel est appliquée une
dichotomie.
• Une division est elle-même définie par une valeur seuil de la variable quantitative
sélectionnée ou un partage en deux groupes des modalités si la variable est
qualitative.
Data Mining 33/33
Océane Cornic DESS ID
• A la racine ou noeud initial correspond l’ensemble de l’échantillon ; la procédure
est ensuite itérée sur chacun des sous-ensembles.
L’algorithme considéré nécessite :
• la définition d’un critère permettant de sélectionner la “meilleure” division parmi
toutes celles admissibles pour les différentes variables
• une règle permettant de décider qu’un noeud est terminal : il devient ainsi une
feuille
• l’affectation de chaque feuille à l’une des classes ou à une valeur de la variable à
expliquer.
b. Résultats et analyses
L’arbre de décision se lit de la manière suivante :
+ --- IF ASSERTION IS TRUE (up) ! --- x [ ASSERTION ] ! + --- IF ASSERTION IS FALSE (down)
Voici l’arbre de décision pour la variable de concepts def (reserve, polyglotte, exotique).
Malgré la multitude de variables incorporées pour construire l’arbre, seule deux sont
retenues pour celui-ci : ProfPere et MATHS.
+---- [ 4 ]polyglotte ( 1.64 2.37 0.33 ) ! !----2[ ProfPere = 110110110 ] ! ! ! +---- [ 5 ]exotique ( 0.37 0.63 1.67 ) ! !----1[ MATHS <= 10.170000] ! +---- [ 3 ]reserve ( 1.99 0.00 0.00 )
Le premier nœud se fait sur la variable MATHS. On constate ainsi que ceux qui pratiquent
seulement deux langues sont ceux qui ont des notes en mathématiques, dans l’ensemble,
plus élevées que les autres. Le deuxième nœud se fait sur la variable ProfPere. Ainsi, on
trouvera davantage de pères d’élèves qui sont cadres ou ouvriers dans les élèves qui
étudient le russe.
Data Mining 34/34
Océane Cornic DESS ID
V. LES PEPITES
1) Les résultats de l’analyse
• La répartition filles/garçons est la plus équilibrée pour le concept [Anglais Allemand
non].
• Les personnes pratiquant trois langues vivantes ont des notes en mathématiques
nettement plus faibles que pour celles qui n’en pratiquent que deux.
• Les parents dont la CSP est assez élevée amène leurs enfants à choisir Allemand en LV1.
• On trouve davantage de pères d’élèves qui sont cadres ou ouvriers dans les élèves qui
étudient le russe. Ceci pourrait s’expliquer par le fait que ce sont souvent des élèves
d’immigrés venus s’installer en France, ou par le fait que ce sont des parents assez
aisés qui voyagent peut-être régulièrement.
• Les notes les plus faibles en philosophie et en histoire-géographie se retrouvent parmi
ceux qui ont dans leur combinaison de langues de l’italien.
• Les concepts où l’on retrouve en LV3 le russe, font partie des concepts qui obtiennent
des bonnes notes en HG et en Philosophie.
• La combinaison [allemand anglais italien] est caractérisée par des notes relativement
bonnes en philosophie.
2) Les limites de l’analyse
Dans le cadre de ces données, il aurait été possible de travailler sur d’autres concepts, qui
auraient peut être été plus prolixes en analyses. Cependant, il n’a pas été possible
d’utiliser quelques variables, comme la ville d’habitation ou le collège fréquenté, dans
différentes analyses, car le nombre de modalités étaient trop important.
De plus, la base de données étant très importante, il n’a pas été possible de mettre toutes
les variables souhaitées pour cette analyse, car il aurait fallu retravailler les fichiers de
données et le recoder, ce qui est très long à mettre en oeuvre.
Data Mining 35/35
Océane Cornic DESS ID
VI. CONCLUSION
L’étude de cette base de données faite pour ce projet ne peut constituer qu’une seule
partie des analyses. En effet, de nombreux concepts pouvant être définis, selon le
contexte et selon l’avis du décideur, il est nécessaire de conduire différentes études sur
l’ensemble de ces concepts pour obtenir une vision pertinente et globale du sujet.
Il aurait été intéressant d’étudier les résultats des élèves de terminale de cette année par
rapport à ceux de l’année précédente pour déterminer quels étaient les éléments qui
entraient en compte dans l’obtention du Baccalauréat et des mentions. Cependant, les
données concernant les élèves de l’année précédente n’étaient pas disponibles, et celles
de cette année étaient seulement partielles (seulement les résultats du 1er trimestre).
L'atout majeur du logiciel SODAS est qu’il permet une analyse statistique avancée dans la
mesure où il ne travaille plus sur des individus du premier ordre mais sur des concepts des
individus du premier ordre. Cependant, l’étude statistique classique où l’on étudie
uniquement les individus semble être indispensable à une bonne approche et utilisation du
logiciel SODAS, de même qu’il semble nécessaire de connaître le fonctionnement des
méthodes utilisées sur des données classiques pour comprendre comment SODAS les
effectue.
L’analyse de concepts et de données symboliques s’avère très utile lorsque l’on dispose de
très grandes séries de données, puisqu’elle permet de diminuer le nombre d’informations
sans pour autant en perdre la teneur substantielle.
Data Mining 36/36