Data Mining Analyse des résultats scolaires de lycéens … · DESS Informatique Décisionnelle...

Océane CORNIC

DESS Informatique

Décisionnelle

2004-2005

Data Mining

Analyse des résultats scolaires de

lycéens en classe de terminale

Professeur : E. DIDAY

Océane Cornic DESS ID

SOMMAIRE

I. INTRODUCTION 3

II. ETAT DE L’ART DU DATA MINING 5

1) LE DATA MINING 5 2) LES METHODES DU DATA MINING 7 3) LES DIFFERENTS LOGICIELS DE DATA MINING 9 4) SODAS : SYMBOLIC OFFICIAL DATA ANALASYS SYSTEM 10

III. LES DONNEES 14

1) DESCRIPTION DE LA BASE DE DONNEES 14 2) DEFINITION DES INDIVIDUS ET DES CONCEPTS 16 3) EXTRACTION DES CONCEPTS AVEC LE MODULE DB2SO 18 4) AJOUT D’UNE VARIABLE AUX CONCEPTS – ADDSINGLE 19

IV. LES ANALYSES 21

1) SOE – SYMBOLIC OBJECT EDITOR 21 2) STAT – ANALYSES STATISTIQUES ELEMENTAIRES 24 3) SPCA – SYMBOLIC PRINCIPAL COMPOSANTS ANALYSIS 26 4) DIV – DIVISE CLUSTERING 29 5) SCLASS – UNSUPERVISED CLASSIFICATION TREE 32 6) TREE 33

V. LES PEPITES 35

1) LES RESULTATS DE L’ANALYSE 35 2) LES LIMITES DE L’ANALYSE 35

VI. CONCLUSION 36

Data Mining 2/2


I. INTRODUCTION

Le développement des moyens informatiques de stockage (bases de données) et de calcul

permet de traiter et d’analyser des ensembles de données très volumineux. L’amélioration

des interfaces offrent aux utilisateurs, statisticiens ou non, des possibilités de mise en oeuvre

très simples des outils logiciels. Cette évolution, ainsi que la popularisation de nouvelles

méthodes algorithmiques (comme les réseaux de neurones) et outils graphiques, conduit au

développement et à la commercialisation de logiciels intégrant un sous-ensemble de méthodes

statistiques et algorithmiques sous la terminologie de Data Mining : la prospection ou fouille

de données. Cette approche, issue du marketing spécialisé dans la gestion de la relation client

(CRM) trouve également des développements et applications industrielles en contrôle de

qualité ou même dans certaines disciplines scientifiques dès lors que les ingénieurs et

chercheurs sont confrontés à un volume de données important. L’accroche publicitaire

souvent citée par les éditeurs de logiciels SAS est :

Comment trouver un diamant dans un tas de charbon sans se salir les mains.

Les entreprises sont très motivées pour tirer parti des teras-octets de données que leur

service informatique s’emploie à administrer.

Le contexte informationnel de la fouille de données est celui des data warehouses. Un

entrepôt de données est un ensemble de bases relationnelles extraites des données brutes de

l’entreprise et relatives à une problématique :

• gestion des stocks (flux tendu), des ventes d’un groupe afin de prévoir et anticiper au

mieux les tendances du marché,

• suivi des fichiers clients d’une banque, d’une assurance, associés à des données socio-

économiques de l’INSEE, à l’annuaire, en vue de la constitution d’une segmentation

pour cibler des opérations de marketing ou des attributions de crédit

• suivi en ligne des paramètres de production en contrôle de qualité pour détecter au

plus vite l’origine d’une défaillance ;

• prospection textuelle (text mining) et veille technologique…

Data Mining 3/3


Le Data Mining est ainsi l’art d’extraire de l’information à partir de grandes bases de données.

C’est une nouvelle discipline à l’intersection des statistiques, de la gestion de données, de

l’apprentissage automatique, de l’intelligence artificielle et de l’analyse de données, avec

laquelle elle partage beaucoup de concepts mais qui s’en distingue par la résolution et

problèmes particuliers et la mise en œuvre de solutions tout aussi particulières.

Data Mining 4/4


II. ETAT DE L’ART DU DATA MINING

1) Le Data Mining

Avec le développement des grands entrepôts de données, nous sommes confrontés à des

sources de données très abondantes et hétérogènes. Le travail de Data Mining peut

s’apparenter à un chercheur d’or (la connaissance) dans une mine (les données), comme

l’illustre le dessin ci-dessus.

Le Data Mining est l’ensemble des algorithmes et méthodes destinés à l’exploration et

l’analyse de grandes bases de données informatiques, sans a priori, en vue de détecter dans

ces données des règles, des tendances inconnues ou cachées, des structures particulières

restituant de façon concise l’essentiel de l’information utile pour l’aide à la décision.

Le Data Mining est avant tout un cadre précisant la démarche à suivre pour exploiter les

données, quelles que soient leur formes, en vue d'en extraire de la connaissance. On distingue

cinq étapes :

• accès aux données, stockées sous une forme structurée (base de données, fichiers

tabulaires) ou non-structurée (texte, image, etc.)

Data Mining 5/5


• la préparation des données, en vue du traitement

• l'utilisation de techniques de fouille de données, issues de la statistique ou de

l'apprentissage automatique

• évaluer et valider les connaissances extraites

• déploiement des connaissances en vue d'une utilisation effective.

Ceci peut se résumer selon le schéma suivant :

Data Mining 6/6


2) Les méthodes du Data Mining

Le Data Mining se décompose en différentes méthodes, qui correspondent chacune à des

objectifs particuliers pour la personne qui analyse les données. On peut les regrouper dans

différentes catégories :

- Analyse exploratoire des données : le but est ici d’explorer les données sans idée

précise de ce que l’on recherche. Ce sont le plus souvent des techniques interactives et

visuelles, et il existe beaucoup de méthodes graphiques pour des séries de données

relativement petites et sans beaucoup de dimensions. Dès que le nombre de variables

augmente, il devient plus difficile de visualiser le nuage de points. Il existe alors des

techniques de projection (comme l’analyse en composantes principales – ACP) qui

permettent de réduire l’information.

- Modélisation descriptive : le but d’un modèle descriptif est de décrire toutes les données

(ou le processus qui génère ces données). On utilise ici des techniques telles que la

partition des données en classes (cluster analysis et segmentation). Dans l’analyse de

segmentation, le but est de regrouper des individus similaires où le nombre de classe est

fixé a priori. Ceci diffère de la cluster analysis où le but est de découvrir des groupes

« naturels » dans les données. La modélisation descriptive a été utilisée dans de

nombreuses applications :

o La segmentation a été principalement utilisée en marketing pour diviser les clients

en groupes homogènes basés sur les habitudes d’achats et les données

démographiques et sociologiques (age, revenu…)

o La cluster analysis a été largement utilisée en recherche psychiatrique pour

construire des taxonomies.

- Modélisation prédictive (Classification supervisée et régression) : le but est ici de

construire un modèle qui permettra de prédire la valeur d’une variable à partir des autres

valeurs des variables (connues). Dans la classification supervisée, la variable à prédire est

catégorielle, alors que dans la régression elle est quantitative. Par exemple, on souhaite

prédire le diagnostic d’un patient en fonction de ses symptômes et de ses caractéristiques.

La principale différence entre la prédiction et la description est que la prédiction a

Data Mining 7/7


comme objectif une unique variable (le diagnostic de la maladie par exemple) alors que

dans les problèmes de description aucune variable n’est centrale dans le modèle.

- Mise en évidence de règles et de modèles1 : un exemple de détection de modèle est de

détecter (en astronomie) des étoiles ou des galaxies inhabituelles qui peut conduire à la

découverte de phénomènes jusqu’alors inconnus. Une autre méthode du Data Mining

consiste à trouver des combinaisons d’items qui apparaissent fréquemment dans les bases

de données (par exemple des produits qui sont souvent achetés ensemble). Ce problème

met en œuvre des techniques algorithmiques basées sur les règles d’association. Une des

difficultés réside ici dans le fait qu’il faut décider de ce qui constitue un véritable

comportement inhabituel.

- Extraction par le contenu (retrieval by content) : l’utilisateur dispose ici d’un modèle

et cherche à trouver des modèles similaires dans la série de données. Cette méthode est

souvent utilisée pour des séries de données d’images ou de texte. Pour le texte, le

modèle peut être un jeu de mots-clés, et l’utilisateur souhaite trouver des documents qui

ont le plus à voir avec ce jeu (recherche de pages Web par exemple). Pour les images,

l’utilisateur peut avoir un morceau d’image ou une description de celle-ci et souhaite

trouver des images similaires à partir d’une large série d’images. Dans ces deux cas, la

définition de la similarité est cruciale, ainsi que les stratégies de recherche utilisée. Il

existe de nombreuses applications de ces méthodes :

o Trouver des documents sur le web, comme le système Google qui utilise un

algorithme mathématique (Page Rank) pour trouver des liens en rapport avec les

mots-clés utilisés.

o QIBC (Query By Image Content), un système développé par IBM, qui permet à

l’utilisateur de rechercher dans une grande base de données d’images en émettant

des requêtes sur la couleur, la texture…

Bien que les cinq « méthodes » précédentes soient différentes l’une de l’autre, elles

partagent cependant de nombreuses caractéristiques communes. Par exemple, la notion de

similarité ou de distance entre deux vecteurs de données est partagée par beaucoup de celles-

ci.

1 Modèle : pattern

Data Mining 8/8


3) Les différents logiciels de Data Mining

Le Data Mining étant en plein essor, les éditeurs proposent désormais tous un logiciel pour

effectuer de l’extraction de connaissances. Voici une liste non exhaustive des éditeurs et de

leur offre.

- SAS - Entreprise Miner TM : permet des analyses rapides sur de très grosses bases de

données. Il est très complet : Enterprise Miner TM dispose d'une grande richesse

analytique et permet aussi l'intégration de toutes les méthodes statistiques déjà

présentes dans les modules de SAS.

- Decisia – SPAD : pionnier français dans les analyses exploratoires et le data mining.

possède les principales techniques statistiques liées au data mining. Description

automatique de variables, analyse exploratoires multidimensionnelles (ACP, AFC, ACM

et Classification), Réseaux de neurones, Analyse discriminante, Segmentation...

- GrimmerSoft – SmartMiner : logiciel d'aide à la décision qui permet l'exploration des

informations (contenues dans des bases de données commerciales ou d'enquêtes) et

d'en extraire l'information. Il permet de réaliser des segmentation (par arbres de

décision et classification) ainsi que de la prévision (par séries chronologiques et

modélisations).

- SPSS – Clementine

- StatSoft - Statistica et Data Miner

- ISoft - Alice

- IBM - Intelligent Miner

- Oracle - 9I Data Mining

- Insightful - Insightful Miner

- …

Data Mining 9/9


4) SODAS : Symbolic Official Data Analysis System

SODAS a un positionnement tout particulier par rapport aux autres logiciels de Data Mining. En

effet, SODAS ne travaille pas sur des tableaux de données « classiques », mais sur des données

symboliques.

a. L’analyse de données symboliques

L'objectif de l'analyse de données symboliques est de pouvoir représenter des connaissances

par des expressions à la fois symboliques et numériques. Dans le cadre de cette analyse, on

distingue deux niveaux d’information : les individus et les concepts. Les individus sont le

premier niveau d’information, ce sont par exemple des habitants d’une ville, des élèves d’une

classe, des acteurs d’un film. Les concepts constituent le deuxième niveau, ce sont,

respectivement, les villes, les classes, les films. Les concepts peuvent être modélisés par des

données plus complexes dites symboliques où les propriétés peuvent s'exprimer par des

valeurs qualitatives ou quantitatives mais aussi par des intervalles, des histogrammes ou des

valeurs multiples munies de règles et de taxonomies.

Un tableau de données symboliques autorise plusieurs valeurs par case, valeurs pouvant être

pondérées et liées entre elles par des règles et des taxonomies. L'analyse des données

symboliques a pour objectif d'étendre l'analyse des données traditionnelles aux tableaux de

données symboliques pour en extraire des objets symboliques. Ceux-ci permettent de décrire

les concepts par leurs propriétés communes mais aussi de calculer leurs extensions dans

l'ensemble des individus qu'ils représentent.

Par rapport aux approches classiques, l'analyse des données symboliques présente les

caractéristiques et ouvertures suivantes :

• Elle s'applique à des données plus complexes. En entrée elle part de données symboliques

(variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de

possibilité, capacité...) munies de règles et de taxonomies et peut fournir en sortie des

connaissances nouvelles sous forme d'objets symboliques.

• Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et

spécialisation, d'ordre et de treillis, de calcul d'extension, d'intention et de mesures de

Data Mining 10/10


ressemblances ou d'adéquation tenant compte des connaissances sous-jacentes basées sur

les règles et taxonomies.

• Elle fournit des représentations graphiques exprimant entre autres la variation interne des

descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera

représenté par une zone (elle même exprimable sous forme d'objet symbolique) et pas

seulement par un point.

b. Les apports de l’analyse de données symboliques

Les principaux avantages des objets symboliques peuvent se résumer comme suit :

• Ils fournissent un résumé de la base plus riche que les données agrégées habituelles car ils

tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites,

ainsi que des taxonomies fournies.

• Ils sont explicatifs, puisqu'ils s'expriment sous forme de propriétés des variables initiales

ou de variables significatives obtenues (axes factoriels).

• En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de

données de plus haut niveau sur lequel une analyse de données symbolique de second

niveau peut s'appliquer.

• Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des

variables provenant de plusieurs tableaux associés à différentes populations. Par exemple,

pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés

issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant

les foyers de chaque ville.

• Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue,

il peut être plus avantageux d'extraire d'abord des objets symboliques de chaque base puis

d'étudier l'ensemble des objets symboliques ainsi obtenus.

• Ils peuvent être facilement transformés sous forme de requête d'une Base de Données.

Ceci a au moins les deux conséquences suivantes :

o Ils peuvent propager les concepts qu'ils représentent d'une base à une autre (par

exemple, d'un pays à l'autre de la communauté européenne).

o Alors qu'habituellement on pose des questions sous forme de requête à la base de

données pour fournir des informations intéressant l'utilisateur, les objets

symboliques formés à partir de la base par les outils de l'Analyse des Données

Data Mining 11/11


Symbolique permettent à l'inverse de définir des requêtes et donc de fournir des

questions qui peuvent être pertinentes à l'utilisateur.

c. Fonctionnement du logiciel SODAS

Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :

• Partir d'une base de données relationnelle (ORACLE, ACCESS, ...)

• Définir ensuite un contexte par:

o des unités statistiques de premier niveau (habitants, familles, entreprises,

accidents, ...)

o les variables qui les décrivent

o des concepts (villes, groupes socio-économiques, scénario d'accident,...) .

Une fois que la base est constituée, les individus et concepts définis et les variables créées, il

faut importer le tableau à partir duquel SODAS (à partir du module DB2S0) construira le

tableau de données symboliques.

Lorsque ce tableau est constitué, il faut créer une chaîne dans SODAS en précisant la base sur

lesquelles les analyses vont s’effectuer. Une chaîne est une succession de méthodes

appliquées au tableau de données symboliques.

Data Mining 12/12


En haut de la chaîne se trouve la base des données symboliques. Ensuite, on insère des

méthodes (ici, les méthodes View, STAT et SPCA). Les méthodes en rouge ont déjà été

exécutées, contrairement à celles en grise. Pour fixer les paramètres d’une méthode, il suffit

de faire un clic droit sur son nom, puis de choisir Parameters. Lorsque ceux-ci sont définis, il

faut lancer la méthode (Run Method) pour pouvoir ensuite visualiser les données. Le fichier en

jaune correspond aux données résultats (par exemple, pour la méthode SPCA, on aura les

valeurs et vecteurs propres ainsi que les différents indices de qualité). Les graphes en rouge

ou en bleu permettent quant à eux de visualiser graphiquement les résultats des méthodes

exécutées.

Data Mining 13/13


III. LES DONNEES

Le travail réalisé pour ce projet porte sur les données du Lycée Lalande2. Ayant une base

d’élèves assez importantes (20 classes de secondes et premières, 9 classes de Terminale et les

classes préparatoires), l’analyse a été restreinte aux élèves de Terminale. Par souci de

confidentialité, les noms et prénoms des élèves n’apparaissent pas dans la base. Les élèves

sont alors identifié par un code crée à partir de la classe, du nom et du prénom.

La construction de cette base de données a nécessité beaucoup de préparation et, par

conséquent, beaucoup de temps. En effet, les données étant dans des fichiers Excel ou

extraites du logiciel de gestion des élèves et personnels, et n’ayant pas toute la même mise

en forme ou syntaxe, la grande majorité de celles-ci ont du être retravaillées afin d’avoir la

base la plus propre. Le nombre de champs a également été restreint. En effet, l’intégralité

des matières n’a pas été sélectionnée pour, d’une part, réduire l’importance de la base, et

d’autre part, pour conserver les matières principales et obligatoires quelque soit la section

(LV1, Philosophie, Histoire-Géographie, Mathématiques3).

1) Description de la base de données

La base de données comprend 5 tables :

- CP : contient les champs Code et Ville. Correspondance entre le code postal et la ville.

- CSP : contient les champs Code et Libellé. Les CSP sont les catégories

socioprofessionnelles. Par souci de clarté, j’ai opté pour le niveau 1 de CSP décrit par

l’INSEE. Il est constitué de 8 CSP qui sont :

o 1 : Agriculteurs exploitants

o 2 : Artisans, commerçants et chefs d’entreprise

o 3 : Cadres et professions intellectuelles supérieures

2 Lycée Lalande – Bourg en Bresse (01) 3 Les mathématiques ne sont pas obligatoires en Terminale Littéraire. J’ai cependant choisi de

l’intégrer pour représenter l’aspect scientifique de l’enseignement.

Data Mining 14/14


o 4 : Professions intermédiaires

o 5 : Employés

o 6 : Ouvriers

o 7 : Retraités

o 8 : Sans activité professionnelle

Un champ pour les personnes décédées a également été ajouté (Code 9).

- EleveRG : Cette table contient tous les renseignements généraux concernant les

élèves : la classe, le sexe, la qualité (externe, interne, demi-pensionnaire), CP le code

postal du lieu d’habitation, ProfPere la profession du père, ProfMere la profession de

la mère, RedoubleTerm si l’élève redouble ou non sa terminale, CollegeFrequente le

collège fréquentée avant l’entrée en seconde, NbClasseRedoub le nombre de classes

redoublées.

- EleveMAT : Cette table regroupe les différents choix d’option, de langues et de

spécialité faits par les élèves en seconde et en terminale. Les champs sont : SLV1,

SLV2, SLV3 (les langues vivantes choisies par l’élève en seconde), SSES, SArtsPlastiques,

SLatin, SGrec, SCinema, SEPS (codé en oui ou non selon si l’élève a choisi ou non

l’option), TLV1, TLV2, TLV3 (les langues vivantes choisies par l’élève en terminale),

Option (l’option choisie en terminale) et Specialite.

- EleveNOTE : Cette table contient les notes des élèves pour les matières suivantes :

LV1, Histoire-Géographie, Mathématiques, Philosophie.

Data Mining 15/15


Voici le schéma relationnel de la base :

2) Définition des individus et des concepts

Pour cette analyse de résultats scolaires, les individus étudiés sont les lycéens en classe de

terminale. Chaque individu (ou lycéen) dispose de nombreuses variables dont nous n’avons

extrait que les plus intéressantes pour cette étude.

Plusieurs concepts peuvent être ensuite étudiés. On peut penser à analyser les classes afin de

voir si certaines classes sont meilleures que d’autres en fonction des options par exemple. On

peut également définir un concept Note qui répartirait les élèves en fonction de leur moyenne.

Le concept étudié serait alors par exemple :inférieur à 8, [8-10], [10-12], [12-14], [14-16],

supérieur à 16, ce qui correspondrait aux mentions pouvant être obtenues au baccalauréat. On

peut aussi définir un concept qui serait une combinaison des langues vivantes [LV1, LV2, LV3],

par exemple [Anglais, Espagnol, Italien] ou [Allemand, Anglais, Russe]… pour voir l’influence

de la pratique des langues sur les résultats scolaires…

Dans le cadre de cette étude, tous ces concepts seraient intéressants à étudier. Cependant,

nous n’en étudierons qu’un seul afin de l’approfondir suffisamment : la combinaison des

langues pratiquées en terminale.

Voici la requête avec laquelle nous avons obtenu le tableau individus/concept qui sera ensuite

importé dans SODAS avec le module DB2SO :

Data Mining 16/16


SELECT Concept.CODE, (Concept.TLV1 & " " & Concept.TLV2 & " " &

Concept.TLV3) AS CombiLV, Concept.CLASSE, Concept.SEXE,

Concept.QUALITE, Concept.ville, Concept.ProfPere, CSP.Libellé AS

ProfMere, Concept.RedoubleTerm, Concept.Collegefrequente,

Concept.NbClasseRedoub, Concept.PHILO, Concept.MATHS, Concept.HG,

Concept.LV1, Concept.SLV1, Concept.SLV2, Concept.SLV3, Concept.SSES,

Concept.SArtsPlastiques, Concept.SLatin, Concept.SGrec,

Concept.SCinema, Concept.SEPS, Concept.TLV1, Concept.TLV2,

Concept.TLV3, Concept.Option, Concept.Specialite

FROM Concept, CSP

WHERE (((CSP.Code)=Concept.ProfMere));

Nous obtenons ainsi 9 classes de concepts (et 236 individus) :

- allemand / anglais / non : 27 élèves

- allemand / anglais / italien : 2 élèves

- anglais / allemand / non : 46 élèves

- anglais / espagnol / non : 128 élèves

- anglais / espagnol / italien : 10 élèves

- anglais / espagnol / russe : 1 élève

- anglais / allemand / italien : 6 élèves

- anglais / allemand / russe : 3 élèves

- anglais / italien / non : 13 élèves.

Data Mining 17/17


3) Extraction des concepts avec le module DB2SO

Avant d’importer le tableau des données, une liaison ODBC a été créée pour la base de

données utilisée (DataLycee). Une fois dans le module DB2SO, on sélectionne New puis

l’onglet Source de données machine.

Il est ensuite possible de vérifier si les tables importées sont les bonnes.

Data Mining 18/18


On entre ensuite la requête qui nous permet d’extraire les données et les concepts. Ensuite,

le module DB2SO se charge de transformer les données de cette requête en données

symboliques. On peut ensuite exporter et enregistrer ce nouveau tableau de données

symboliques en fichier .sds.

4) Ajout d’une variable aux concepts – AddSingle

Afin de pouvoir utiliser des méthodes telles que TREE ou SDT (Strata Decision Tree), il est

nécessaire d’ajouter une ou des variables décrivant le concept.

Dans le cadre de cette étude, il n’existe pas de variable évidente pour le concept de

combinaison de langues (dans le cadre d’un concept équipe de foot, on aurait pu choisir le

budget de l’équipe ou le nombre de fois que l’équipe a été championne de France par

exemple). Ainsi, la variable associée aux concepts va être une définition de celui-ci :

Définition du Concept Définition

Pratique de 2 langues vivantes seulement Réservé

Pratique de 3 langues vivantes dont le russe Exotique

Pratique de 3 langues vivantes sauf le russe Polyglotte

Data Mining 19/19


L’ajout de variables de concept se fait dans le module DB2SO avec la fonction Add-Single. Il

suffit de choisir la table ou d’écrire la requête qui permet d’avoir ces nouvelles variables, et

elles sont ensuite automatiquement intégrées au fichier de données en tant que Categorical

Single.

Data Mining 20/20


IV. LES ANALYSES

1) SOE – Symbolic Object Editor

a. Description de la méthode

Cette méthode sert à visualiser les concepts et les variables qui les définissent. Les principes

du SOE (Symbolic Object Editor) sont qu’il y un graphique par objet symbolique, que les

informations générales sont données en premier et qu’ensuite il est possible (de manière

interactive) de préciser les informations et que tous les types de variables peuvent être

représentés.

b. Résultats et analyses

Voici un extrait du tableau que l’on obtient :

Afin de visualiser plus facilement ces données, on utilise l’outil graphique. Voici quelques

exemples de graphes que l’on peut obtenir :

Data Mining 21/21


La comparaison de ces deux combinaisons de langues [Anglais espagnol italien] et [Anglais

allemand non] montre quelques disparités entre ces deux concepts. En effet, pour le concept

[Anglais Allemand non], les notes dans les différentes moyennes ont une plus grande variance

Data Mining 22/22


que pour le concept [Anglais espagnol italien]. De plus, la répartition filles/garçons est plus

équilibrée pour le concept [Anglais Allemand non].

On constate également que les notes en mathématiques pour les personnes pratiquant trois

langues vivantes sont nettement plus faibles que pour celles qui n’en pratiquent que deux,

comme le confirme les graphiques suivants :

Data Mining 23/23


2) STAT – Analyses Statistiques Elémentaires


La méthode STAT (Elementary Statistics On Symbolic Objects) étend aux objets symboliques

plusieurs méthodes de statistique élémentaire. La méthode appliquée dépend du type des

variables présentes dans la base et sont filtrées selon leur nature:

• fréquences relatives pour les variables multi nominales : la fréquence relative des

différentes modalités de la variable multi nominale est étudiée en prenant compte des

éventuelles règles relatives à la base sur laquelle l'étude est réalisée.

• fréquences relatives pour les variables intervalles : deux paramètres sont nécessaires

à l'entrée de cette méthode: une variable intervalle, noté i et un nombre de classe,

noté k. Un histogramme est construit pour la variable i sur un intervalle [a, b] découpé

en k classes et où a représente la borne inférieure de i et b sa borne supérieure. Cette

méthode permet de calculer la fréquence relative associée à la classe Ck tout en

tenant compte du recouvrement de cette classe Ck par les valeurs intervalles de i et

ceci pour tous les objets symboliques.

• capacités et min/max/mean pour variables multi nominales probabilistes : cette

méthode permet de construire un histogramme des capacités des différentes modalités

de la variables considérée. Dans cet histogramme, la capacité d'une modalité est

représentée par l'union des différentes capacités.

• biplot pour les variables intervalles : cette méthode permet de construire un objet

symbolique par un rectangle dans le plan de deux variables sélectionnées par

l'utilisateur. La dimension de chaque coté du rectangle correspond à l'étendue de la

variation de l'objet symbolique relativement à la variable de l'axe considéré.

Data Mining 24/24



• Biplot sur les notes (LV1 / Mathématiques)

Il apparaît clairement sur ce biplot que les élèves étudiant trois langues vivantes ont des notes

nettement plus faibles en mathématiques, mais qu’ils ont également des notes supérieures en

langue vivante 1 par rapport aux élèves n’étudiant que deux langues.

• Fréquences relatives sur les notes :

Les notes de mathématiques sont en général assez faibles (beaucoup de notes autour de 8),

alors qu’en LV1 elles sont plus hautes. Les notes en Histoire-Géographie et Philosophie

sont distribuées de façon plus équilibrée.

Data Mining 25/25


3) SPCA – Symbolic Principal Composants Analysis


La méthode SPCA (Principal Component Analysis) correspond à une Analyse en Composante

Principale classique. Néanmoins, au lieu d'obtenir une représentation par points sur un plan

factoriel, cette méthode représente chaque concept par un rectangle. L'objectif est d'étudier

l'intensité des liaisons entre les variables et de repérer les concepts présentant des

caractéristiques voisines.

Cette méthode est une méthode factorielle de réduction du nombre de caractères permettant

des représentations géométriques des individus et des variables. La réduction se fait par la

construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales

au moyen des "facteurs".

Les objectifs poursuivis par une ACP sont :

• la représentation graphique “optimale” des individus (lignes), minimisant les

déformations du nuage des points, dans un sous-espace Eq de dimension q (q < p),

• la représentation graphique des variables dans un sous-espace Fq en explicitant au

“mieux” les liaisons initiales entre ces variables,

• la réduction de la dimension (compression), ou approximation de X par un tableau de

rang q (q < p).

N’ayant qu’au départ que 4 variables continues, l’ACP, dans ce cas-ci, n’apporte pas

réellement de plus-value. Cependant, il reste intéressant de voir ses résultats.


Correlations between variables and factors (4 vars, 2 fact)= Var. Factor 1 Factor 2 PHILO 0.94852 0.82929 MATHS 0.63887 0.60290 HG 0.95225 0.93427 LV1 0.97650 0.82097

L’axe 1 représente ainsi les matières plus littéraires.

Data Mining 26/26


Contributions of the SOs to the axes (9 objs,2 fact)= Objects Factor 1 Factor 2 allemand anglais non 0.16601 0.17594 anglais allemand non 0.12776 0.21849 anglais espagnol non 0.24148 0.26878 anglais italien non 0.15288 0.05757 anglais espagnol ita 0.09668 0.02292 anglais espagnol rus 0.03875 0.18531 anglais allemand ita 0.02713 0.02241 anglais allemand rus 0.02163 0.00960 allemand anglais ita 0.12769 0.03897

Il est difficile d’interpréter correctement ce tableau. En effet, on voit que les concepts qui

contribuent le plus à l’axe 1 sont ceux qui contribuent également le plus à l’axe 2. La taille du

concept joue un rôle trop grand ici pour que l’analyse puisse être considérée comme fiable.

En effet, ce sont les concepts [Anglais espagnol non] et [Allemand Anglais non] qui contribuent

le plus, mais ils constituent également deux des concepts qui ont le plus d’individus.

On peut cependant noter que le concept [Anglais espagnol russe] contribue assez fortement à

l’axe 2. Il faut toutefois vérifier que celui-ci soit bien représenté sur l’axe.

Quality measure of the SOs representation (9 objs,2 fact)= Objects Factor 1 Factor 2 allemand anglais non 0.26354 0.28726 anglais allemand non 0.17795 0.31300 anglais espagnol non 0.25879 0.29625 anglais italien non 0.41980 0.16260 anglais espagnol ita 0.34578 0.08432 anglais espagnol rus 0.16366 0.80498 anglais allemand ita 0.18062 0.15347 anglais allemand rus 0.19930 0.09096 allemand anglais ita 0.66676 0.20929

On constate ainsi que ce concept est très bien représenté sur l’axe 2. Cependant, il n’est

constitué que d’un seul individu qui est très atypique.

Data Mining 27/27


Il aurait été intéressant de relancer cette analyse en omettant les concepts « atypiques ».

Cependant, malgré l’option de SODAS pour sélectionner les concepts à faire entrer dans

l’analyse, il m’a été impossible de l’effectuer, SODAS renvoyant un message d’erreur.

Data Mining 28/28


4) DIV – Divise Clustering


DIV (Divisive Clustering) est une méthode de classification hiérarchique qui commence

avec tous les objets d’une classe et procède par divisions successives de chaque classe. A

chaque étape, une classe est divisée en deux classes selon une question binaire. Cette

question binaire induit le meilleur partage en deux classes selon une extension du critère

de l’inertie. L’algorithme se termine après k-1 divisions, où k représente le nombre de

classes données comme inputs par l’utilisateur.


Nous exécutons la méthode Divisive Clustering en utilisant les variables explicatives

suivantes : Sexe, ville, ProfPere, ProfMere, RedoubleTerm, CollegeFrequente. Cependant,

les variables ville et CollegeFrequente ne seront pas utilisées car elles comportent plus de

12 modalités.

L’algorithme DIV nos concepts en 4 classes qui sont les suivantes :

Cluster 1 (n=1) : anglais espagnol russe Cluster 2 (n=1) : allemand anglais non Cluster 3 (n=1) : anglais allemand russe Cluster 4 (n=6) : anglais allemand non anglais espagnol non anglais italien non anglais espagnol italien anglais allemand italien allemand anglais italien

Les trois premiers clusters ne sont composés que d’un seul concept. Le dernier contient

tous les autres.

Data Mining 29/29


Voici l’arbre de partitionnement que SODAS nous donne :

+---- Classe 1 (Ng=1) ! !----1- [ProfPere = 000000011] ! ! +---- Classe 2 (Ng=1) ! ! ! !----3- [ProfMere = 000000100] ! ! ! ! ! +---- Classe 4 (Nd=6) ! ! !----2- [ProfPere = 000000101] ! +---- Classe 3 (Nd=1)

Et voici la description des règles qui permettent de construire ces classes :

Cluster 1 : IF 1- [ProfPere = Employés OR Agriculteurs exploitants ] Cluster 2 : IF 3- [ProfMere = Cadres et professions intellectuelles supérieures ] AND 2- [ProfPere = Sans activité professionnelle OR Agriculteurs exploitants ] AND 1- [ProfPere = Décédé OR Retraités OR Professions Intermédiaires OR Ouvriers OR Cadres et professions intellectuelles supérieures OR Artisans, commerçants et chefs d'entreprise OR Sans activité professionnelle ] Cluster 3 : IF 2- [ProfPere = Décédé OR Retraités OR Professions Intermédiaires OR Ouvriers OR Cadres et professions intellectuelles supérieures OR Artisans, commerçants et chefs d'entreprise OR Employés ] AND 1- [ProfPere =

Data Mining 30/30


Décédé OR Retraités OR Professions Intermédiaires OR Ouvriers OR Cadres et professions intellectuelles supérieures OR Artisans, commerçants et chefs d'entreprise OR Sans activité professionnelle ] Cluster 4 : IF 3- [ProfMere = Décédé OR Sans activité professionnelle OR Retraités OR Ouvriers OR Employés OR Professions Intermédiaires OR Artisans, commerçants et chefs d'entreprise OR Agriculteurs exploitants ] AND 2- [ProfPere = Sans activité professionnelle OR Agriculteurs exploitants ] AND 1- [ProfPere = Décédé OR Retraités OR Professions Intermédiaires OR Ouvriers OR Cadres et professions intellectuelles supérieures OR Artisans, commerçants et chefs d'entreprise OR Sans activité professionnelle ]

Les seules variables qui permettent de construire les classes sont les professions du père et

de la mère. Ainsi, on peut retenir que les élèves qui étudient l’allemand en LV1 ont

généralement une mère qui fait partie de la CSP « Cadres et professions intellectuelles

supérieures ». Le choix de l’allemand par l’élève étant souvent déterminé par une

recommandation de ses parents, cette analyse est intéressante, puisqu’elle suppose que

les parents dont la CSP est assez élevée amène leurs enfants à choisir Allemand en LV1.

Data Mining 31/31


5) SCLASS – Unsupervised Classification Tree


SCLASS est une méthode de classification qui procède comme la méthode TREE4, à la seule

différence qu’ici il n’y a pas de variable à expliquer. On va rechercher parmi les

différentes variables et coupures, celles qui minimisent le critère d’inertie intra-classes, et

qui maximisent le critère d’inertie inter-classes.


Dans le cadre de cette méthode, nous n’utilisons que des variables d’intervalle, à savoir la

moyenne en Histoire-Géographie (HG), en philosophie (PHILO), en mathématiques (MATHS)

et en langue vivante 1 (LV1).

Voici l’arbre qui est créé à partir des règles extraites de SODAS :

PHILO < 11,11 PHILO > 11,11

HG < 11,79 HG > 11,79

PHILO < 9,85 PHILO > 9,85

anglais italien non

anglais espagnol italien

anglais allemand italien

allemand anglais non

anglais allemand non

anglais espagnol non

anglais espagnol russe

anglais allemand russe

allemand anglais italien

On s’aperçoit que seulement deux des variables sont utilisées PHILO et HG. Les concepts

qui ont des notes les plus faibles en philosophie et en histoire-géographie sont ceux qui ont

dans leur combinaison de langues de l’italien, exceptée pour la combinaison [allemand

4 La méthode TREE est expliquée au paragraphe … de cette partie page … .

Data Mining 32/32


anglais italien] qui est déterminée par la règle « Philo > 11,11 ». Les concepts où l’on

retrouve en LV3 le russe, font partie des concepts qui obtiennent des bonnes notes en HG

et en Philosophie.

6) TREE


Complémentaires des méthodes statistiques plus classiques : analyse discriminante,

régression linéaire, les arbres de décisions renvoient des solutions présentées sous une

forme graphique simple à interpréter et constituent une aide efficace pour l’aide à la

décision. Elles sont basées sur un découpage, par des hyperplans, de l’espace engendré par

les variables explicatives. Nommées initialement partitionnement récursif ou segmentation,

les développements importants de Breiman, en 1984, les ont fait connaître sous

l’acronyme de CART : Classification and Regression Tree ou encore de C4.5 (Quinlan, 1993)

dans la communauté informatique. L’acronyme correspond à deux situations bien

distinctes selon que la variable à expliquer, modéliser ou prévoir est qualitative

(discrimination ou en anglais classification) ou quantitative (régression).

Ces méthodes ne sont efficaces que pour des tailles d’échantillons importantes et elles

sont très calculatoires. Elles requièrent moins d’hypothèses que des méthodes statistiques

classiques et semblent particulièrement adaptées au cas où les variables explicatives sont

nombreuses. En effet, la procédure de sélection des variables est intégrée à l’algorithme

construisant l’arbre, d’autre part, les interactions sont prises en compte. Néanmoins, cet

algorithme suivant une stratégie pas à pas hiérarchisée, il peut, comme dans le cas du

choix de modèle en régression, passer à coté d’un optimum global. Ceci souligne encore

l’importance de confronter plusieurs approches sur les mêmes données.

La construction d’un arbre de discrimination binaire consiste à déterminer une séquence

de noeuds.

• Un noeud est défini par le choix conjoint d’une variable parmi les explicatives et

d’une division qui induit une partition en deux classes. Implicitement, à chaque

noeud correspond donc un sous-ensemble de l’échantillon auquel est appliquée une

dichotomie.

• Une division est elle-même définie par une valeur seuil de la variable quantitative

sélectionnée ou un partage en deux groupes des modalités si la variable est

qualitative.

Data Mining 33/33


• A la racine ou noeud initial correspond l’ensemble de l’échantillon ; la procédure

est ensuite itérée sur chacun des sous-ensembles.

L’algorithme considéré nécessite :

• la définition d’un critère permettant de sélectionner la “meilleure” division parmi

toutes celles admissibles pour les différentes variables

• une règle permettant de décider qu’un noeud est terminal : il devient ainsi une

feuille

• l’affectation de chaque feuille à l’une des classes ou à une valeur de la variable à

expliquer.


L’arbre de décision se lit de la manière suivante :

+ --- IF ASSERTION IS TRUE (up) ! --- x [ ASSERTION ] ! + --- IF ASSERTION IS FALSE (down)

Voici l’arbre de décision pour la variable de concepts def (reserve, polyglotte, exotique).

Malgré la multitude de variables incorporées pour construire l’arbre, seule deux sont

retenues pour celui-ci : ProfPere et MATHS.

+---- [ 4 ]polyglotte ( 1.64 2.37 0.33 ) ! !----2[ ProfPere = 110110110 ] ! ! ! +---- [ 5 ]exotique ( 0.37 0.63 1.67 ) ! !----1[ MATHS <= 10.170000] ! +---- [ 3 ]reserve ( 1.99 0.00 0.00 )

Le premier nœud se fait sur la variable MATHS. On constate ainsi que ceux qui pratiquent

seulement deux langues sont ceux qui ont des notes en mathématiques, dans l’ensemble,

plus élevées que les autres. Le deuxième nœud se fait sur la variable ProfPere. Ainsi, on

trouvera davantage de pères d’élèves qui sont cadres ou ouvriers dans les élèves qui

étudient le russe.

Data Mining 34/34


V. LES PEPITES

1) Les résultats de l’analyse

• La répartition filles/garçons est la plus équilibrée pour le concept [Anglais Allemand

non].

• Les personnes pratiquant trois langues vivantes ont des notes en mathématiques

nettement plus faibles que pour celles qui n’en pratiquent que deux.

• Les parents dont la CSP est assez élevée amène leurs enfants à choisir Allemand en LV1.

• On trouve davantage de pères d’élèves qui sont cadres ou ouvriers dans les élèves qui

étudient le russe. Ceci pourrait s’expliquer par le fait que ce sont souvent des élèves

d’immigrés venus s’installer en France, ou par le fait que ce sont des parents assez

aisés qui voyagent peut-être régulièrement.

• Les notes les plus faibles en philosophie et en histoire-géographie se retrouvent parmi

ceux qui ont dans leur combinaison de langues de l’italien.

• Les concepts où l’on retrouve en LV3 le russe, font partie des concepts qui obtiennent

des bonnes notes en HG et en Philosophie.

• La combinaison [allemand anglais italien] est caractérisée par des notes relativement

bonnes en philosophie.

2) Les limites de l’analyse

Dans le cadre de ces données, il aurait été possible de travailler sur d’autres concepts, qui

auraient peut être été plus prolixes en analyses. Cependant, il n’a pas été possible

d’utiliser quelques variables, comme la ville d’habitation ou le collège fréquenté, dans

différentes analyses, car le nombre de modalités étaient trop important.

De plus, la base de données étant très importante, il n’a pas été possible de mettre toutes

les variables souhaitées pour cette analyse, car il aurait fallu retravailler les fichiers de

données et le recoder, ce qui est très long à mettre en oeuvre.

Data Mining 35/35


VI. CONCLUSION

L’étude de cette base de données faite pour ce projet ne peut constituer qu’une seule

partie des analyses. En effet, de nombreux concepts pouvant être définis, selon le

contexte et selon l’avis du décideur, il est nécessaire de conduire différentes études sur

l’ensemble de ces concepts pour obtenir une vision pertinente et globale du sujet.

Il aurait été intéressant d’étudier les résultats des élèves de terminale de cette année par

rapport à ceux de l’année précédente pour déterminer quels étaient les éléments qui

entraient en compte dans l’obtention du Baccalauréat et des mentions. Cependant, les

données concernant les élèves de l’année précédente n’étaient pas disponibles, et celles

de cette année étaient seulement partielles (seulement les résultats du 1er trimestre).

L'atout majeur du logiciel SODAS est qu’il permet une analyse statistique avancée dans la

mesure où il ne travaille plus sur des individus du premier ordre mais sur des concepts des

individus du premier ordre. Cependant, l’étude statistique classique où l’on étudie

uniquement les individus semble être indispensable à une bonne approche et utilisation du

logiciel SODAS, de même qu’il semble nécessaire de connaître le fonctionnement des

méthodes utilisées sur des données classiques pour comprendre comment SODAS les

effectue.

L’analyse de concepts et de données symboliques s’avère très utile lorsque l’on dispose de

très grandes séries de données, puisqu’elle permet de diminuer le nombre d’informations

sans pour autant en perdre la teneur substantielle.

Data Mining 36/36

Date post:	13-Sep-2018
Category:	Documents
Upload:	dinhcong
View:	213 times
Download:	0 times

Data Mining Analyse des résultats scolaires de lycéens … · DESS Informatique Décisionnelle...

Documents