+ All Categories
Home > Documents > RAPPORT DE PROJET DATA MINING - CEREMADEtouati/SODAS/EXEMPLES/...différentes méthodes de SODAS...

RAPPORT DE PROJET DATA MINING - CEREMADEtouati/SODAS/EXEMPLES/...différentes méthodes de SODAS...

Date post: 20-Feb-2021
Category:
Upload: others
View: 9 times
Download: 6 times
Share this document with a friend
30
RAPPORT DE PROJET DATA MINING « Analyse des endettements par niveau de développement des pays » Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN DIDAY DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS
Transcript
  • RAPPORT DE PROJET

    DATA MINING

    « Analyse des endettements par niveau de

    développement des pays »

    Réalisé par : BELEM MAHAMADOU

    Sous la direction de : M. EDWIN DIDAY

    DEA 127 : INFORMATIQUE

    SYSTEMES INTELLIGENTS

  • Projet Data Minin-2004/2005-DEA127 2

    TABLE DES MATIERES

    INTRODUCTION ............................................................................................................................... 3 II ETAT DE L’ART DU DATA MINING ............................................................................... 4

    II.1 LES ENJEUX DE DATA MINING .................................................................................... 4 II.2 DOMAINES D’APPLICATION ........................................................................................... 4 II.3 LES LOGICIELS DE DATA MINING .............................................................................. 5 II.4 LE LOGICIEL SODAS ........................................................................................................... 5

    II ETUDE CONCEPTUELLE ................................................................................................... 6 III.1 LES INDIVIDUS ET LES CONCEPTS.............................................................................. 6 III.2 LES VARIABLES .................................................................................................................... 6 III.3 LA STRUCTURE DE LA BASE DE DONNEES ............................................................ 7 III.4 LES REQUETES ...................................................................................................................... 9 II.5 IMPORTATION DES DONNEES .................................................................................... 11

    IV APPLICATION DES METHODES DE SODAS ................................................. 14 IV.1 LA METHODE SOE ............................................................................................................. 14 IV.2 LA METHODE PCM ........................................................................................................... 19 IV.3 LA METHODE PYR ............................................................................................................ 21 IV.4 LA METHODE DIV ............................................................................................................. 23 IV.5 LA METHODE TREE .......................................................................................................... 25 IV.6 LA METHODE STAT ........................................................................................................... 27 IV.7 LA METHODE SCLUST ...................................................................................................... 29

    CONCLUSION……………………………………………………………………………….30

  • Projet Data Minin-2004/2005-DEA127 3

    INTRODUCTION

    De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue.

    Cette intensification de la concurrence oblige les entreprises à renforcer leur marketing à travers

    une analyse détaillée des besoins des clients pour aboutir à de nouvelles connaissances. Ce qui

    dénote quelque part la conservation des masses de données importantes sur les profils et les

    achats des clients.

    Ainsi, des systèmes opérationnels qui ont permis l’automatisation des traitements de masse, les

    entreprises se tournent de plus en plus vers des systèmes décisionnels qui ont une valeur ajoutée

    concurrentielle réelle. C’est face à ce besoin croissant que le data mining fit son apparition.

    Ce présent projet a pour objectif de nous faire mieux connaître le data mining et son utilité à

    travers une application sur le logiciel SODAS.

    Dans notre document, nous parlerons premièrement de l’état de l’art du data mining, en seconde

    partie nous présenterons notre sujet d’étude et en troisième partie, nous présenterons les

    différentes méthodes de SODAS appliquées sur notre base, les résultats obtenus et leurs

    interprétations.

  • Projet Data Minin-2004/2005-DEA127 4

    II ETAT DE L’ART DU DATA MINING

    II.1 LES ENJEUX DE DATA MINING

    De nos jours, le monde des entreprises drainent des quantités énormes d’informations pouvant

    atteindre des milliards d’informations par jour. Plus la quantité d’informations collectées devient

    importante, leur exploitation devient très complexe. Si l’esprit humain est disposé à analyser des

    donner de petites quantités et d’en tirer des connaissances, il lui par contre impossible d’analyser

    simultanément des plusieurs millions de données produites par des systèmes opérationnels qui ne

    permettent aucune décision stratégique. Pourtant les entreprises ont besoin d’exploiter ces

    données pour mener à bien leurs activités.

    Avec la concurrence grandissante, les entreprises savent que la maîtrise de l’information est un

    élément incontournable pour face à cette nouvelle donne. Ce qui nécessite des outils performants

    ayant une valeur ajoutée concurrentielle et permettant une exploitation stratégique des données.

    C’est face à ses différentes exigences du monde de l’entreprise que les outils comme le data

    mining ont fait apparition. Et furent rapidement adoptés car répondant au mieux aux attentes des

    décideurs. Il s’agît à partir des données détaillées, d’effectuer un résumé, à l’aide des concepts

    sous-jacents afin de mieux les appréhender.

    II.2 DOMAINES D’APPLICATION

    Les domaines d’application de Data Mining sont très variés. Parmi ces domaines d’application,

    nous avons :

    1. Le laboratoires pharmaceutiques 2. Les banques 3. L’assurance 4. L’aéronautique, automobile et industries 5. transport 6. Télécommunication 7. Gestion d’eau 8. Energie 9. etc

  • Projet Data Minin-2004/2005-DEA127 5

    II.3 LES LOGICIELS DE DATA MINING

    Il existe de nous jours plusieurs logiciels de data mining dont :

    1. Intelligent Miner d’IBM permettant de faire la segmentation, la discrimination, la prédiction, les associations et les séries chronologiques.

    2. Clementine de SPSS 3. SAS entrepise Miner de SAS 4. TeraMiner de NCR pour la prédiction, la discrimination, la factorisation, la typologie. 5. KXEN components de KXEN 6. SPAD, du CISIA 7. Smart Miner, de Grimmer Soft, etc.

    II.4 LE LOGICIEL SODAS

    Le logiciel SODAS est un logiciel lire issu du projet EUROSTAT et destiné à l’analyse des

    données symboliques.

    Son idée générale est la suivante : à partir d’une base de données, construire un tableau de

    données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des

    concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des

    connaissances par des méthodes d’analyse de données symboliques.

    Une analyse de données dans SODAS se réalise selon les étapes suivantes :

    1. Partir d’une base de données relationnelle ;

    2. Définir un contexte par des unités statistiques de premier niveau liées à un concept et des

    variables décrivant ces unités. Ce contexte est ainsi défini par une requête à la base ;

    3. on construit un tableau de données symboliques dont les nouvelles unités sont des

    concepts décrits par généralisation des propriétés des unités statistiques de premier niveau

    qui leur sont associés.

    4. un fichier d’objets symboliques est créé sur lequel on peut appliquer les différentes

    méthodes d’analyse de données symboliques.

  • Projet Data Minin-2004/2005-DEA127 6

    II ETUDE CONCEPTUELLE

    Le but de notre étude est d’analyser les endettements des pays liés à leur niveau de

    développement. Ainsi cette analyse permettra de comparer le niveau d’endettement des pays

    ayant le même niveau de développement et d’observer les caractéristiques liées à chaque groupe.

    III.1 LES INDIVIDUS ET LES CONCEPTS

    La base de données de notre projet comporte des données sur 156 pays, extraites à partir des

    indicateurs de la Banque Mondiale et les rapports des Nations Unies, pour l’année 2001. Il faut

    noter que notre base de données a déjà fait l’objet d’une étude qui s’est intéressée aux niveaux de

    richesse des pays recensés. Contrairement à cette étude, notre analyse portera sur les

    endettements des pays liés à leur niveau de développement.

    Ainsi, à travers notre base de données nous avons dégagé 12 concepts qui sont les suivants :

    1. Pays développé endettement Elevé

    2. Pays développé endettement faible

    3. Pays développé endettement hors classement

    4. Pays développé endettement modéré

    5. Pays émergent endettement élevé

    6. Pays émergent endettement faible

    7. Pays émergent endettement hors classement

    8. Pays émergent endettement modéré

    9. Pays émergent endettement élevé

    10. Pays en voie de développement endettement faible

    11. Pays en voie de développement endettement hors classement

    12. Pays en voie de développement endettement modéré

    13. Pays en voie de développement endettement élevé

    Comme individus, nous avons les 156 pays de notre base de données.

    III.2 LES VARIABLES

    Elles sont de deux sortes :

    1. les variables qualitatives

    le niveau de richesse économique

  • Projet Data Minin-2004/2005-DEA127 7

    le niveau de développement associé au niveau d’endettement

    le continent

    le niveau d’alphabétisation

    2. les variables quantitatives

    le produit national brut par habitant (PNB /habitant, en USD)

    le taux d’inflation (en pourcentage)

    le taux de croissance de la population (en pourcentage)

    le montant des investissements directs étrangers (en pourcentage)

    le taux d’exportation par rapport par rapport au PNB (en pourcentage)

    le taux d’importation par rapport par rapport au PNB (en pourcentage)

    III.3 LA STRUCTURE DE LA BASE DE DONNEES

    La base de données est constituée des tables suivantes :

    1. Pays : La table décrit les différents pays de notre étude. Elle comporte des données aussi

    bien qualitatives que quantitatives concernant chacun de ses pays

    2. Richesse : décrit les différents niveaux de richesse

    3. Développement : décrit les différents niveaux de développement

    4. Endettement : décrit les différents niveaux d’endettement

    5. Continent : liste des différents continents

    6. Analphabétisme : liste des niveaux d’analphabétisme.

    Pour donner une meilleure présentation de notre base de données nous allons décrire les attributs

    des différentes tables.

    Table Pays

    Désignation Description Type

    Id_Pays Identifiant du pays Texte

    pays Le nom du pays Texte

    Id_richesse L’identifiant du niveau d’endettement Texte

    Id_developpement Le niveau de développement Texte

    Id_endettement Le niveau d’endettement Texte

    Id_continent Le continent Texte

    PNB/Habitant Le produit national brut par habitant Réel

  • Projet Data Minin-2004/2005-DEA127 8

    Exportation Les exportations Réel

    Importation Les importations réalisées par le pays Réel

    Investissements directs étrangers Les investissements directs étrangers Réel

    inflation Le taux d’inflation Réel

    Croissance population Le taux de croissance Réel

    Tableau 1 : description de la table Pays

    Table Richesse

    Désignation Description Type

    Id_Richesse Identifiant du niveau de richesse Texte

    Niveau de richesse économique Niveau de richesse économique Texte

    Tableau 2 : Description de la table richesse

    Table développement

    Désignation Description Type

    Id_Developpement L’identifiant du niveau de développement Texte

    Niveau de développement Le niveau de développement Texte

    Tableau 3 : description de la table développement

    Table Endettement

    Désignation Description Type

    Id_Endettement Identifiant du niveau d’endettement Texte

    Niveau d’endettement Description du niveau d’endettement Texte

    Tableau 4 : Description de la table Endettement

    Table continent

  • Projet Data Minin-2004/2005-DEA127 9

    Désignation Description Type

    Id_Continent L’identifiant du continent Texte

    Continent Le nom du continent Texte

    Tableau 5 : description de la table continent

    Table Analphabétisme

    Désignation Description Type

    Id_Analphabétisme Identifiant du niveau d’analphabétisme Texte

    Niveau d’analphabétisme Le niveau d’analphabétisme Texte

    Tableau 6 : Description de la table Analphabétisme

    Le schéma relationnel de notre base de données se présente ainsi :

    Figure 1 : Schéma de la base de données

    III.4 LES REQUETES

    DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un ensemble

    d’assertions à partir de données stockées dans une base de données relationnelle. Il est supposé

  • Projet Data Minin-2004/2005-DEA127 10

    qu’un ensemble d’individus est stocké dans une base de données et que ces individus sont

    distribués dans des groupes. Alors, DB2SO peut construire une assertion pour chaque groupe

    d’individus. Dans ce processus, les variables mère/fille et les taxonomies sur des domaines de

    variables peuvent aussi être associées à des assertions générées.

    Pour que SODAS puisse exploiter les données de notre base, il convient de préparer la structure

    des tables en fonctions de convention propres aux données symboliques. Pour ce faire, nous

    avons crée les requêtes suivantes :

    1. Requete_Pays_Endettement

    Cette première requête renvoie les individus du premier ordre et leur description. Elle permet

    ainsi de ressortir de la base les individus, les concepts puis les caractéristiques des individus.

    Figure 2 : Construction de la requête Requete_Pays_Endettement

    2. Requete_Taxo

    Cette requête permettra de déterminer la taxonomie de notre base. Cette taxonomie sera

    utilisée pour établir des lien entre les pays et leur continent.

  • Projet Data Minin-2004/2005-DEA127 11

    Figure 3 : construction de la requête_taxo

    3. Requête AddSingle Comme variables de classe, nous avons choisi le niveau d’endettement.

    II.5 IMPORTATION DES DONNEES

    Ces requêtes nous ont donc permis de disposer les données de manières exploitables pour

    DB2SO, et par de même SODAS.

    Le module DB2SO est accessible via le menu SODAS file > import... > importation (DB2SO) : Dans la fenêtre SodasDB, cliquer sur File > New puis sur Nouveau pour indiquer le type de driver :

  • Projet Data Minin-2004/2005-DEA127 12

    Après avoir sélectionné le driver Microsoft Access, il faut maintenant sélectionner la source de

    données ODBC de votre base de données.

    Une fois la source de données ODBC créée, il faut la lier à la base de données sur laquelle l’étude

    s’effectuera.

  • Projet Data Minin-2004/2005-DEA127 13

    Après avoir spécifié la base de données, on spécifie la requête d’extraction des individus.

    La figure suivante vient confirmer l’extraction des individus à travers la requête spécifiée.

    Ensuite, on crée la taxonomie sur la variable continent.

  • Projet Data Minin-2004/2005-DEA127 14

    Toutes les données nécessaires étant maintenant introduites, il ne reste plus qu’à les exporter vers

    SODAS pour pouvoir les exploiter.

    IV APPLICATION DES METHODES DE SODAS

    IV.1 LA METHODE SOE

    Notre analyse se fera en deux parties qui concerneront les pays en voie de développement et les

    pays émergents. Le troisième groupe c’est à dire les pays développés ne fournit pas assez

    d’informations.

    1. les pays en voie de développement

    On constate que les pays très endettés sont majoritairement africains (57%), américains

    (19%), asiatiques (17%) et très peu de pays européens (0.02%). Par contre le nombre de pays

    européens augmente considérablement parmi les pays en voie de développement faiblement

    endetté (20%) avec une majorité des pays africains (38%), américains et asiatiques (24%)

    On remarque que les importations sont plus élevées dans les pays en voie de développement très

    endetté par contre les exportations sont moins importantes que dans les autres pays en voie de

    développement.

  • Projet Data Minin-2004/2005-DEA127 15

    L’inflation se situe entre –5,2 et 408 dans les pays en voie de développement très endettés, entre

    5,1 et 185 dans les pays en voie de développement faiblement endettés et –5.0 et 59 dans les pays

    en voie de développement modérément endettés.

    Quant au PNB/habitant, il est entre [100, 7480] dans les pays très endettés, [20, 9250] dans les

    pays faiblement endettés et [220, 3830] dans les pays ayant un endettement modéré.

    Les figures suivantes appuient nos différents commentaires.

  • Projet Data Minin-2004/2005-DEA127 16

    2. Les pays émergents

    Les pays émergents très endettés sont des pays américains (100%) ayant un niveau de richesse

    économique moyennement élevé. Le niveau d’importation dans ces pays reste faible (entre 2,4%

    et 20,7%) par rapport aux pays émergents faiblement endettés (entre 16,3% et 75,2%). Aussi

    l’exportation reste faible dans ces pays que dans les pays faiblement (entre 25,9% et 71,5%) et

    modérément (entre 125,9 et 240,5%) endettés .

    Les pays émergents faiblement endettés sont en majorité américains (50%), européens (25%), et

    asiatiques (25%). Par contre, les pays européens (63%) sont majoritaires parmi les pays

  • Projet Data Minin-2004/2005-DEA127 17

    modérément endettés alors que les pays asiatiques et américains représentent respectivement 25%

    et 13% de ces pays.

    Les figures suivantes confirment les interprétations faites.

  • Projet Data Minin-2004/2005-DEA127 18

    A travers ces deux analyses, nous constatons que les pays européens se situent plutôt parmi les

    pays faiblement endettés. Ce qui s’explique par le fait que d’une part que ces pays ont une

    meilleure gestion de leur ressource et d’autre part, ils bénéficient du niveau de croissance

    économique du continent européen. La grande présence des pays africains parmi les pays en voie

    développement montre le retard du continent africain par rapport aux autres continents.

  • Projet Data Minin-2004/2005-DEA127 19

    IV.2 LA METHODE PCM La méthode PCM donne les résultats suivants : Correlations Matrix, initiales Variables/principals components PC1...PC4

    PNB/habitant_($) 0.781 -0.306 0.102 0.067

    Exportations_(%_PNB) 0.585 0.415 0.267 -0.224

    Importations_(%_PNB) 0.489 0.617 0.175 -0.064

    Investissements_Directs_Etrangers_($) 0.645 -0.382 -0.161 0.493

    Inflation -0.325 0.213 0.629 0.662

    Croissance_population_(%) -0.019 -0.531 0.721 -0.378

    Nous constatons que le PNB, les exportations et les investissements directs étrangers sont

    fortement corrélés avec l’axe PC1. L’axe PC2 explique mieux les importations et la croissance de

    la population. L’axe PC3 explique mieux les investissements directs étrangers. L’inflation est

    fortement corrélées à L’axe PC4.

    Ainsi, nous avons choisi l’axe PC1 et l’axe PC2 pour la représentation graphique de nos résultats.

    Pour faciliter la lecture des résultats, nous avons répartis les graphiques en trois parties :

    1. Les pays en voie de développement

    2. Les pays émergents

  • Projet Data Minin-2004/2005-DEA127 20

    3. Les pays développés

    A travers ces graphiques, nous remarquons d’une part que les groupes qui sont situés le plus à

    droite sont ceux dont le PNB, le taux d’exportation et le niveau des investissements directs

    étrangers sont les plus importants et d’autre part les groupes qui sont situés le plus en haut sont

    ceux dont le taux d’importation et le taux de croissance de la population sont les plus élevés.

    Ainsi, nous pouvons dire plus on avance vers la droite de l’axe PC1, le PNB, le taux d’exportation

    et les investissement directs étrangers augmentent et inversement. Mais lorsqu’on se déplace vers

  • Projet Data Minin-2004/2005-DEA127 21

    le haut de l’axe PC2, le taux d’importation et le taux de croissance de la population augmentent et

    inversement.

    IV.3 LA METHODE PYR

    Le modèle d’échantillonnage pyramidal généralise les hiérarchies en permettant les classes non-

    disjointes à un niveau donné au lieu d’une partition. De plus, les échantillons de la pyramide sont

    des intervalles. La méthode proposée permet d’échantillonner des données plus complexes que

    les modèles tabulaires peuvent traiter, en considérant la variation des valeurs prises par les

    variables.

    Les données en entrée pour PYR sont une matrice de données symboliques ou une matrice ou

    une matrice de distance. S’il s’agît de matrice de données symboliques, le résultat sera une

    pyramide symbolique, dans ce cas, le critère d’agrégation sera le « degré de généralité ». S’il s’agit

    de matrice de distance, le résultat sera une pyramide numérique (classique) et le critère

    d’agrégation, le « Maximum ».

    Dans notre cas, nous avons construit deux pyramides. La première pyramide est réalisée en

    fonction des variables taux d’importation et taux d’exportation et la seconde en tenant de toutes

    les variables.

    Ainsi, nous constatons au niveau de la première pyramide que les pays ayant un niveau

    d’endettement hors classement sont regroupés. Cela peut s’expliquer peut être par la similitude de

    leur politique d’importation et d’exportation.

    Nous constatons aussi que les pays ayant un endettement modéré, faible ou très élevés sont

    regroupés à partir de la pyramide P39. Dans ce second groupe les pays en voie de développement

    ayant un endettement faible ou modéré sont proches. De même, les pays ayant un endettement

    modéré ou faible ou tendance à se regrouper. Un autre constat important, est le regroupement

    des pays émergeants faiblement endettés et les pays développés moins endettés. Cela peut

    s’expliquer par le fait que les pays émergents ont une politique d’exportation et d’importation un

    peu similaire.

  • Projet Data Minin-2004/2005-DEA127 22

  • Projet Data Minin-2004/2005-DEA127 23

    IV.4 LA METHODE DIV

    La méthode d’échantillonnage DIV est une méthode d’échantillonnage hiérarchique qui regroupe

    tous les objets en seul échantillon et procède par division successive de chaque échantillon formé.

    A chaque étape, un échantillon est divisé en deux selon une question binaire. Cette question

    binaire induit la meilleure partition en deux selon l’extension du critère d’inertie : maximiser la

    variance interclasse et minimiser la variance interclasse.

    L’algorithme s’arrête après k-1 divisions où K est le nombre d’échantillons donné par l’utilisateur.

    Les données en entrée pour DIV sont une matrice de données classique ou une matrice de

    données symboliques.

    Nous avons appliqué cette méthode aux paramètres suivants : l PNB/Habitant, le niveau de

    richesse et le niveau d’endettement

    THE CLUSTERING TREE :

    ---------------------

    - the number noted at each node indicates

    the order of the divisions

    - Ng yes and Nd no

    +---- Classe 1 (Ng=2)

    !

    !----4- [PNB/habitant_($)

  • Projet Data Minin-2004/2005-DEA127 24

    Les deux nouvelles classes vont à leur tour se diviser en deux. Ainsi, l’échantillon ayant un

    PNB/habitant supérieur à 6977,500 se divise en deux selon que le PNB/Habitant est supérieur à

    11955 (classe 4 : les pays "Pays en voie de développement Endettement Hors classement" ) ou

    inférieur ou égal à 11955 (il s’agît de la classe 3 comportant les "Pays émergent Endettement

    Hors classement", les "Pays émergent Endettement Hors classement",

    les "Pays développés Endettement Faible" et les "Pays

    développés Endettement Hors classement" ).

    Quant au dernier échantillon, c’est à dire ceux qui ont un PNB/Habitant inférieur ou égal à

    6977,500 se divise en deux selon que le PNB/habitant est supérieur à 3417,500 (classe 5 ) ou

    inférieur ou égal à 3417,500 (classe 1 comportant les "Pays en voie de développement

    Endettement Modéré" "Pays émergent Endettement Faible" ).

    On constate que les pays développés ayant un niveau d’endettement hors classement, ont le

    PNB/Habitant le plus important

    THE CLUSTERING TREE :

    ---------------------

    - the number noted at each node indicates

    the order of the divisions

    - Ng yes and Nd no

    THE CLUSTERING TREE :

    ---------------------

    - the number noted at each node indicates

    the order of the divisions

    - Ng yes and Nd no

    +---- Classe 1 (Ng=3)

    !

    !----2- [Niveau_d'endettement

  • Projet Data Minin-2004/2005-DEA127 25

    IV.5 LA METHODE TREE

    Pour la réalisation de cette méthode, nous avons choisi comme variable de classe le niveau

    d’endettement et comme variables prédictives, le PN/Habitant, le taux d’inflation, le taux de

    croissance et l’importation.

    Le listing suivant représente le résultat de la méthode :

    ==================================

    | EDITION OF DECISION TREE |

    ==================================

    PARAMETERS :

    Learning Set : 10

    Number of variables : 4

    Max. number of nodes: 7

    Soft Assign : ( 1 ) FUZZY

    Criterion coding : ( 3 ) LOG-LIKELIHOOD

    Min. number of object by node : 5

    Min. size of no-majority classes : 2

    Min. size of descendant nodes : 1.00

    Frequency of test set : 0.00

    + --- IF ASSERTION IS TRUE (up)

    !

    --- x [ ASSERTION ]

    !

    + --- IF ASSERTION IS FALSE (down)

    +---- [ 8 ]Modéré ( 1.28 0.00 1.07

    2.00 )

    !

    !----4[ PNB/habitant_($)

  • Projet Data Minin-2004/2005-DEA127 26

    On constate aussi que les pays ayant un PNB/Habitant supérieur à 9120 ont un niveau

    d’endettement hors classement. Les pays ayant un PNB/Habitant inférieur ou égal à 9120, se

    divisent premièrement en deux groupes :

    1. Ceux dont le PNB/Habitant est supérieur à 7480, ont un niveau d’endettement faible ; 2. Ceux dont le PNB/Habitant est inférieur ou égal à 7480, on constate à ce niveau deux

    autres groupes : les pays ayant un PNB/Habitant supérieur à 4710, ont un endettement élevé et les autres ont un endettement modéré

  • Projet Data Minin-2004/2005-DEA127 27

    IV.6 LA METHODE STAT

    La méthode STAT de SODAS nous permet d’utiliser des statistiques classiques étendues aux

    variables symboliques. STAT est donc un ensemble de méthodes permettant de voir sous forme

    de document texte ou de graphe les statistiques élémentaires relatives à nos données symboliques.

    Nous avons appliqué la méthode STAT sur les variables exportation et importation.

    .

  • Projet Data Minin-2004/2005-DEA127 28

    Biplots pour les variables d’intervalles :

    On constate que les plus gros importateurs et exportateurs sont des pays développés à

    endettement hors classement. Les pays développés faiblement endettés viennent en seconde

    position sur le plan exportation mais importent moins que la plus part des pays en voie de

    développement et émergeants. Les plus petits exportateurs et importateurs sont des pays

    émergeants très endettés.

  • Projet Data Minin-2004/2005-DEA127 29

    On constate également que les pays en voie de développement en tendance à se regrouper ainsi

    que les pays émergeants.

    Les pays développés en endettement hors classement importent entre 8,44 et 161,145. les plus

    grands importateurs sont parmi ces pays. Par contre les pays émergeants ayant un endettement

    élevé importent entre 12,42 et 20,71 et constituent par conséquent des faibles importateurs

    IV.7 LA METHODE SCLUST

    On constate à partir de graphique que la classe Prototyp5 comporte uniquement les pays avec un

    niveau endettement hors classement et un niveau de richesse OCDE. Par contre la classe

    Prototype 1 comportement essentiellement les pays en voie de développement faiblement ou très

    endettés.

  • Projet Data Minin-2004/2005-DEA127 30

    CONCLUSION

    A travers ce projet, nous avons pu en effet consolider les connaissances acquises et d’enrichir

    notre expérience en matière d’analyse. A travers le sujet choisi « développement des pays », on

    constate que le date mining peut être appliqué dans tous les domaines et s’avère utile pour tous

    les décideurs.

    Néanmoins, cet projet ne s’est pas terminé sans difficulté. La base de donnée ayant fait l’objet

    d’autre projet, malgré notre volonté de faire une étude totalement différente de la première, la

    limitation des données nous faisait énormément dans le choix des variables lors de l’application

    des méthodes. Ce qui a entraîné un certain retard dans la réalisation de ce projet.


Recommended