Historisches
Institut
Inhaltserschliessung (I-II):
Manuelle und automatische Indexierung
Analyse documentaire (I-II):
indexation manuelle et automatique
Jean-Philippe Accart, MAS ALIS 2014-2016
15 août 2015
Modul/Module 2c
1
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters 2
Historisches
Institut
Inhaltserschliessung (I-II): Manuelle und automatische Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Objectifs du cours
- Montrer les différences entre indexation manuelle et
automatique
- Expliquer leur utilité / à la recherche d’information
- Idem pour les classifications
- Introduire la notion de clusters
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters 3
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Sommaire
Introduction : Retours sur la recherche d’information / à la notion d’info-obésité
• L’indexation manuelle
• L’indexation automatique
• Les classifications
• Les clusters
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters 4
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Les contenus (contents) et la technologie
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters 5
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Les contenus (contents) et la technologie
Les contenus d’information sont multiples:
- Revues, presse, livres… papier et numériques
- Internet, Intranet, réseaux d’entreprise
- Emails, documents internes
- Réseaux sociaux, infographies
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
6
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
L
e
s
d
o
n
n
é
e
s
n
L
Les données non structurées
(source http://www.idc.com/)
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
7
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Le modèle classique de la recherche d’information (1)
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
8
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Le modèle classique de la recherche d’information (2)
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
9
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Indexation/Classification/Clusters 10
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
11
Modèles de la recherche d’information sur les moteurs de recherche
3 paramètres sont à considérer:
-> Représentations de documents et de la recherche (traduction
informatique)
-> Stratégies élaborées de recherche pour des résultats pertinents
-> Méthodes de ranking
3 modèles de recherche:
- Booléenne
- Vectorielle
- En utilisant les probabilités
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
12
II – Indexation manuelle et automatique
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
13
II – Indexation manuelle
• Indexation par dérivation
– Les mots-clés servant à l‘indexation sont dérivés du document et „normalisés“
• Indexation par attribution
– Les mots-clés sont attribués à un document en utilisant une terminologie autorisée (thesaurus, ontologie, index…)
Elle détermine les sujets importants du document.
Elle pose la question : qu’est-ce qu’un sujet pertinent ?
Fondée sur la lecture humaine et la capacité de comprendre
un document.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
14
II – Indexation automatique
Elle est fondée sur la fréquence des termes trouvés dans un
document.
Fréquence relative versus absolue
- Par document
- Relative par rapport à une collection de documents
- Elimination des stopswords (mots vides : « le », « la », « de », « du »,
« ce »…)
Fréquence des termes est reliée à la pertinence: sujets principaux sont
plus fréquents.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
15
II – Indexation automatique
3 modèles:
- Booléen
- Vectoriel
- Probabiliste
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Indexation/Classification/Clusters 16
II – Indexation automatique : Modèle booléen
Les vecteurs créés (les termes) sont libres.
Ils sont générés par hypothèse :
Soit B la base vectorielle des mots contenus dans le document.
Toute requête R est traitée de la même manière et ne contient que
les mots significatifs. Le vecteur (le terme) de la requête est l’union des vecteurs de ses termes significatifs dans B. Le résultat peut être nul.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Indexation/Classification/Clusters 17
II – Indexation automatique : Modèle vectoriel
• A partir d‘un ensemble de termes, normalisation des termes et
élimination des stopwords
• Création d‘une matrice avec les termes restant pour chaque
document
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
17
II – Indexation automatique : Modèle probabiliste
• Mesure la probabilité de pertinence d’un document par
rapport à une requête
• Utilise 2 probabilités pour chaque document :
- la probabilité de pertinence du document D, P(per/D),
- la probabilité de non pertinence du document D,P(nonper/D)
• La fonction de recherche g(D) donne un ordonnancement des
documents: g(D) = (P(per/D)/P(nonper/D))
• Probabilités calculées en fonction des termes d’indexation de la
base de données
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
18
III – Les classifications
• Classification manuelle : on attribue manuellement des
classes prédéfinies à des documents.
• Classification automatique :
– on attribue automatiquement des classes prédéfinies à des documents
– on regroupe des documents automatiquement dans des clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
19
IV – Les clusters
• Il s‘agit de regrouper des documents similaires dans des
clusters (ensembles) de documents
• Les documents regroupés dans un cluster doivent être similaires
• Les documents de clusters différents doivent être dans des clusters différents
• Les clusters sont la forme la plus courante d‘un savoir non contrôlé
• Non contrôlé = les données ne sont pas annotées
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
20
IV – Les clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
21
IV – Les clusters
• Ce qu‘il faut retenir de la notion de cluster ou de clustering :
– Si un terme trouvé dans un cluster est pertinent, alors les
autres termes du cluster le sont également (principe de
similarité)
– Contrairement à une liste de résultats fournis par un moteur de recherche, la RI avec clustering affiche les documents
par similarité donc + de chances de fiabilité de la recherche
– http://vivisimo.com (IBM) est un système fondé sur les clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
22
IV – Les clusters
Applications pratiques:
- En biologie : pour les plantes, le regroupement de gènes
- En médecine: imagerie médicale
- En marketing et business: segments de marchés, clients
- Réseaux sociaux: reconnaissance de communautés
- Sciences sociales: analyse criminologique
- Climatologie : analyse des températures et des océans…
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
23
Bibliographie AMAR M., Les Fondements théoriques de l’indexation : une approche linguistique, Paris, ADBS, 2000. CHARTRON G., DALBIN S., MONTEIL M.-G., VÉRILLON M., « Indexation manuelle et indexation automatique : dépasser les oppositions », Documentaliste/sciences de l’information, vol. 26, no 4-5, 1989, p. 181-187. CHAUMIER J., DEJEAN M., « L’indexation documentaire : de l’analyse conceptuelle humaine à l’analyse automatique morphosyntaxique », Documentaliste/sciences de l’information, vol. 27, no 6, novembre-décembre 1990, p. 275-279. GARFIELD E., « “Science Citation Index” – A New Dimension in Indexing », Science, New Series, vol. 144, n° 3619, 1964, p. 649-654. JOLION J.-M. (dir.), L’Indexation, Paris, Hermès Science Publications, 2001. Numéro de : Document numérique, 2000, vol. 4, no 1-2. MENON B., « Quelle indexation pour l’information professionnelle ? », dans L’Information professionnelle, sous la dir. de Viviane Clavier et Céline Paganelli, Paris, Hermes-Lavoisier, 2013, p. 83-105. TIMIMI I., KOVACS S. (coord.), Indice, index, indexation, Paris, ADBS, 2006. Normes AFNOR, Norme NF Z 47-102 : principes généraux pour l’indexation des documents, Paris, AFNOR, 1996.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
24
Guide d’indexation Rameau, Paris, BnF, 2010, en ligne : <http://guiderameau.bnf.fr/>.