+ All Categories
Home > Education > L' Analyse documentaire : indexation, classification, clusters

L' Analyse documentaire : indexation, classification, clusters

Date post: 15-Apr-2017
Category:
Upload: ecole-hoteliere-de-lausanne
View: 3,525 times
Download: 0 times
Share this document with a friend
25
Historisches Institut Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Jean-Philippe Accart, MAS ALIS 2014-2016 15 août 2015 Modul/Module 2c 1
Transcript

Historisches

Institut

Inhaltserschliessung (I-II):

Manuelle und automatische Indexierung

Analyse documentaire (I-II):

indexation manuelle et automatique

Jean-Philippe Accart, MAS ALIS 2014-2016

15 août 2015

Modul/Module 2c

1

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters 2

Historisches

Institut

Inhaltserschliessung (I-II): Manuelle und automatische Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Objectifs du cours

- Montrer les différences entre indexation manuelle et

automatique

- Expliquer leur utilité / à la recherche d’information

- Idem pour les classifications

- Introduire la notion de clusters

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters 3

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

Sommaire

Introduction : Retours sur la recherche d’information / à la notion d’info-obésité

• L’indexation manuelle

• L’indexation automatique

• Les classifications

• Les clusters

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters 4

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Les contenus (contents) et la technologie

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters 5

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

Les contenus (contents) et la technologie

Les contenus d’information sont multiples:

- Revues, presse, livres… papier et numériques

- Internet, Intranet, réseaux d’entreprise

- Emails, documents internes

- Réseaux sociaux, infographies

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

6

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

L

e

s

d

o

n

n

é

e

s

n

L

Les données non structurées

(source http://www.idc.com/)

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

7

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

Le modèle classique de la recherche d’information (1)

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

8

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

Le modèle classique de la recherche d’information (2)

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

9

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

Indexation/Classification/Clusters 10

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

11

Modèles de la recherche d’information sur les moteurs de recherche

3 paramètres sont à considérer:

-> Représentations de documents et de la recherche (traduction

informatique)

-> Stratégies élaborées de recherche pour des résultats pertinents

-> Méthodes de ranking

3 modèles de recherche:

- Booléenne

- Vectorielle

- En utilisant les probabilités

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

12

II – Indexation manuelle et automatique

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

13

II – Indexation manuelle

• Indexation par dérivation

– Les mots-clés servant à l‘indexation sont dérivés du document et „normalisés“

• Indexation par attribution

– Les mots-clés sont attribués à un document en utilisant une terminologie autorisée (thesaurus, ontologie, index…)

Elle détermine les sujets importants du document.

Elle pose la question : qu’est-ce qu’un sujet pertinent ?

Fondée sur la lecture humaine et la capacité de comprendre

un document.

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

14

II – Indexation automatique

Elle est fondée sur la fréquence des termes trouvés dans un

document.

Fréquence relative versus absolue

- Par document

- Relative par rapport à une collection de documents

- Elimination des stopswords (mots vides : « le », « la », « de », « du »,

« ce »…)

Fréquence des termes est reliée à la pertinence: sujets principaux sont

plus fréquents.

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

15

II – Indexation automatique

3 modèles:

- Booléen

- Vectoriel

- Probabiliste

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

Indexation/Classification/Clusters 16

II – Indexation automatique : Modèle booléen

Les vecteurs créés (les termes) sont libres.

Ils sont générés par hypothèse :

Soit B la base vectorielle des mots contenus dans le document.

Toute requête R est traitée de la même manière et ne contient que

les mots significatifs. Le vecteur (le terme) de la requête est l’union des vecteurs de ses termes significatifs dans B. Le résultat peut être nul.

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

Indexation/Classification/Clusters 17

II – Indexation automatique : Modèle vectoriel

• A partir d‘un ensemble de termes, normalisation des termes et

élimination des stopwords

• Création d‘une matrice avec les termes restant pour chaque

document

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

17

II – Indexation automatique : Modèle probabiliste

• Mesure la probabilité de pertinence d’un document par

rapport à une requête

• Utilise 2 probabilités pour chaque document :

- la probabilité de pertinence du document D, P(per/D),

- la probabilité de non pertinence du document D,P(nonper/D)

• La fonction de recherche g(D) donne un ordonnancement des

documents: g(D) = (P(per/D)/P(nonper/D))

• Probabilités calculées en fonction des termes d’indexation de la

base de données

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

18

III – Les classifications

• Classification manuelle : on attribue manuellement des

classes prédéfinies à des documents.

• Classification automatique :

– on attribue automatiquement des classes prédéfinies à des documents

– on regroupe des documents automatiquement dans des clusters

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

19

IV – Les clusters

• Il s‘agit de regrouper des documents similaires dans des

clusters (ensembles) de documents

• Les documents regroupés dans un cluster doivent être similaires

• Les documents de clusters différents doivent être dans des clusters différents

• Les clusters sont la forme la plus courante d‘un savoir non contrôlé

• Non contrôlé = les données ne sont pas annotées

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

20

IV – Les clusters

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

21

IV – Les clusters

• Ce qu‘il faut retenir de la notion de cluster ou de clustering :

– Si un terme trouvé dans un cluster est pertinent, alors les

autres termes du cluster le sont également (principe de

similarité)

– Contrairement à une liste de résultats fournis par un moteur de recherche, la RI avec clustering affiche les documents

par similarité donc + de chances de fiabilité de la recherche

– http://vivisimo.com (IBM) est un système fondé sur les clusters

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

22

IV – Les clusters

Applications pratiques:

- En biologie : pour les plantes, le regroupement de gènes

- En médecine: imagerie médicale

- En marketing et business: segments de marchés, clients

- Réseaux sociaux: reconnaissance de communautés

- Sciences sociales: analyse criminologique

- Climatologie : analyse des températures et des océans…

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

23

Bibliographie AMAR M., Les Fondements théoriques de l’indexation : une approche linguistique, Paris, ADBS, 2000. CHARTRON G., DALBIN S., MONTEIL M.-G., VÉRILLON M., « Indexation manuelle et indexation automatique : dépasser les oppositions », Documentaliste/sciences de l’information, vol. 26, no 4-5, 1989, p. 181-187. CHAUMIER J., DEJEAN M., « L’indexation documentaire : de l’analyse conceptuelle humaine à l’analyse automatique morphosyntaxique », Documentaliste/sciences de l’information, vol. 27, no 6, novembre-décembre 1990, p. 275-279. GARFIELD E., « “Science Citation Index” – A New Dimension in Indexing », Science, New Series, vol. 144, n° 3619, 1964, p. 649-654. JOLION J.-M. (dir.), L’Indexation, Paris, Hermès Science Publications, 2001. Numéro de : Document numérique, 2000, vol. 4, no 1-2. MENON B., « Quelle indexation pour l’information professionnelle ? », dans L’Information professionnelle, sous la dir. de Viviane Clavier et Céline Paganelli, Paris, Hermes-Lavoisier, 2013, p. 83-105. TIMIMI I., KOVACS S. (coord.), Indice, index, indexation, Paris, ADBS, 2006. Normes AFNOR, Norme NF Z 47-102 : principes généraux pour l’indexation des documents, Paris, AFNOR, 1996.

Inhaltserschliessung (I-II): Manuelle und automatische

Indexierung

Analyse documentaire (I-II): indexation manuelle et automatique

Historisches

Institut

© Jean-Philippe Accart, MAS ALIS 2014/2016 –

Indexation/Classification/Clusters

24

Guide d’indexation Rameau, Paris, BnF, 2010, en ligne : <http://guiderameau.bnf.fr/>.


Recommended