+ All Categories
Home > Technology > Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Date post: 20-Jan-2015
Category:
Upload: chessmu
View: 1,137 times
Download: 1 times
Share this document with a friend
Description:
Fredoc 2009
Popular Tags:
42
Oct 2009 [email protected] 1 Tentative de conclusion Journées Fredoc 2009 OAI-PMH Muriel Foulonneau Centre de Recherche Public Henri Tudor Luxembourg
Transcript
Page 1: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Oct 2009 [email protected] 1

Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Muriel Foulonneau

Centre de Recherche Public Henri Tudor

Luxembourg

Page 2: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Nous avons parlé de …

Standards Open access et OAI

Archives institutionnelles, archives disciplinaires, objet polymorphe (HAL)

Google Scholar n’indexe plus OAI

Des métadonnées, formats multiples et mapping Des boîtes de conserve Dublin Core qui ne répond pas à tout Des collections

2Oct 2009 [email protected]

Page 3: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Et aussi de …

Partager OAI-PMH et SRU/Z39.50 OAI-ORE Accès à des ressources analogiques Des infrastructures Des données brutes de la recherche Première étape vers le Web de données

Web de données RDF et technologies sémantiques

Compétences Ne pas laisser les informaticiens faire le mapping de

métadonnées Faire évoluer le métier des documentalistes

3Oct 2009 [email protected]

Page 4: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Standards

4Oct 2009 [email protected]

Page 5: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Comparaison des protocoles pour l’interopérabilité des données documentaires

OAI-PMH le plus populaire simplicité d’implémentation, intégration à des packages,

adapté à la collecte de grandes quantités de métadonnées MAIS granularité de descriptions, pas de mécanisme de

recherche d’informations

5

Protocols Number of people at each level of expertise1 2 3 4 5 No

answerRSS 3 (13%) 6 (26.1%) 9

(39.1%)3 (13%) 1 (4.3%) 1 (4.3%)

ATOM 1 (4.3%) 4 (17.4%) 7 (30.4%)

9 (39.1%) 1 (4.3%) 1 (4.3%)

APP 0 (0%) 1 (4.3%) 1 (4.3%) 3 (13%) 17 (73.9%) 1 (4.3%)Z39.50 0 (0%) 0 (0%) 6

(26.1%)12 (52.2%) 4 (17.4%) 1 (4.3%)

0AI-PMH 7 (30.4%) 7 (30.4%) 5 (21.7%)

0 (0%) 3 (13%) 1 (4.3%)

OAI-ORE 1 (4.3%) 1 (4.3%) 5 (21.7%)

9 (39.1%) 6 (26.1%) 1 (4.3%)

SRU/W 0 (0%) 0 (0%) 7 (30.4%)

5 (21.7%) 10 (43.5%) 1 (4.3%)

SWORD 0 (0%) 0 (0%) 7 (30.4%)

5 (21.7%) 10 (43.5%) 1 (4.3%)

http://pubs.cs.uct.ac.za/archive/00000530/

Oct 2009 [email protected]

Page 6: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

OAI-PMH est un protocole complet

Certains trouvent l’OAI trop compliqué pour harvester Préfèrent l’indexation par crawl (ex. Google)

En fait il gère plusieurs layers d’interopérabilité Modèle Spécification de la partie technique Spécification de la syntaxe des réponses Spécification des métadonnées

Par opposition Sitemaps ne gèrent que le dialogue fournisseur de données

fournisseur de service par exemple OAI-ORE ne spécifie réellement que le modèle avec une sémantique

minimale et des exemples de représentations.

6Oct 2009 [email protected]

Page 7: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Couplé avec des technologies qui évoluent DC? Est permissif pour des applications un peu élaborées XML avec de plus en plus nécessité de pousser le RDF

(RDF/XML) Architecture repositories vs architecture orientées ressources

Linked data et OAI-ORE

Evolutions technologiques

7Oct 2009 [email protected]

Page 8: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Evolution des modèles d’utilisation

OAI et Open Archives, le nom du protocole a permis toutes les confusions Avec les archives Avec les archives ouvertes et le libre accès► C’est un protocole technique qui vise à assurer

l’interopérabilité de ressources distribuées.

Des archives ouvertes scientifiques à des données scientifiques, des données culturelles (musées, bibliothèques, archives …) et autres Chacune de ces communautés a des contraintes et des

historiques différents concernant le partage des ressources Pas seulement des métadonnées

8Oct 2009 [email protected]

Page 9: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Des infrastructures

9Oct 2009 [email protected]

Page 10: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Des rôles de fournisseurs de données et de services pas si clairs

Synchronisation des données IVOA, VIAF Gallica et le fonds Philidor

[email protected] 2009

Page 11: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Des outils personnels, personnalisés et collaboratifs

11

Page 12: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Open access etc

12Oct 2009 [email protected]

Page 13: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Archives institutionnelles et disciplinaires

Des logiques différentes Problématiques de Knowledge Management institutionnel vs

outil pour chercheurs Mélange archivage et diffusion Relations avec des CRIS

La vocation du partage de métadonnées est différente Des services trans-disciplinaires vs des services

documentaires pour les chercheurs

13Oct 2009 [email protected]

Page 14: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

HAL est une entité hybride

Logique de chercheurs mais au départ non disciplinaire Socle technique commun avec les archives institutionnelles et

les archives disciplinaires donc proposition de “vues” institutionnelles et/ou

disciplinaires Pas si unique que cela (projet Commission européenne, Depot

UK …) MAIS uniquement des articles doit devenir une archive plus large?

14Oct 2009 [email protected]

Page 15: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Le local et le global

Grâce à OAI-PMH, tout le monde doit pouvoir coexister (institutionnelles, disciplinaires etc) Mais cela a un coût en terme de ressources D’où approche Europeana d’agrégateurs disciplinaires et régionaux

Logique de gestion d’un corpus distribué Où a-t-on besoin de bâtir sur des initiatives locales?

Logique de réutilisation des données Toute réutilisation est par essence une dénaturation Cela a un coût en terme de qualité

Quand y a-t-il des opportunités et un intérêt à toucher de nouveaux publics

15Oct 2009 [email protected]

Page 16: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Et si les archives communiquaient entre elles?

HAL reverse dans arXiv par exemple Logique étendue avec SWORD Mais pose de nombreuses questions sur les droits

sur les plein textes (initiative Nature Open Text Mining Interface), sur la confiance entre les repositories etc

16Oct 2009 [email protected]

http://www.ariadne.ac.uk/issue54/allinson-et-al/

Page 17: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Métadonnées etc

17Oct 2009 [email protected]

Page 18: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Les métadonnées, c’est l’histoire de Mr Jourdain

18

Page 19: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Dublin Core

Format très générique et peu contraignant Quelques profils d’applications par communautés (eg.

OLAC, NSDL-DC etc)

Obligation du DC a fait peur à beaucoup d’implémenteurs

19Oct 2009 [email protected]

Page 20: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Problématiques de mapping

« Le MARC ne rentrera pas dans du Dublin Core » Ne pas tout mapper

Appauvrissement

Offrir des formats multiples!!!!!!

Documenter

Rendre ses métadonnées partageables

20Oct 2009 [email protected]

Page 21: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Et s’il n’y a pas de standard?

Il faut en créer un Sur la base d’un format existant

21Oct 2009 [email protected]

Page 22: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Et s’il y a des collections?

Mets, MPEG/DIDL, IMSPackaging etc EAD OAI-ORE POWDER Utilisation des ensembles OAI

22Oct 2009 [email protected]

Page 23: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Le partage basé sur les métadonnées

Beaucoup des analyses ont porté sur des métadonnées descriptives

Mais aussi: Utilisation de métadonnées pas seulement descriptives mais

aussi administratives Localisation des ressources Partager des tags et annotations etc

23Oct 2009 [email protected]

Page 24: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Et s’il n’y a que des métadonnées?

Et pas de ressource numérique accessible en ligne ou via un accès restreint

Il paraît que ça intéresse quand même les utilisateurs

24Oct 2009 [email protected]

Page 25: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Etude d’utilisabilité CIC metadata portal

Fonctionne pour des « directed searches » Pb de masse critique d’informations et coverage

Pb de référence à des sites externes: pas conforme aux attentes par rapport à un service de type DL

Google effect : la rééducation par Google sur la problématique de recherche d’informations

Plus de métadonnées plutôt utiles Organisation des résultats par collection, options de

filtrage des résultats / vignettes OK Thumbshots plus neutres

Manque catégorisation efficace

25Oct 2009 [email protected]

Page 26: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Problème de services (trop?) généralistes

La masse critique manque Les interfaces sont parfois médiocres La problématique de recherche d’informations trouve

des utilisateurs « ré-éduqués » par Google & co.

26Oct 2009 [email protected]

Useful K-12 Educational

Content

The Entire Web

25% des résultats de NSDL absents des résultats de GoogleMcCrown, Bollen, Nelson

Page 27: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Partager

27Oct 2009 [email protected]

Page 28: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Naissance d’agrégations de métadonnées hétérogènes

Travaux nouveaux sur les métadonnées Analyse des pratiques, des retraitements etc

Ecueils du partage Limitations liées aux financements, aux priorités stratégiques

des établissements, aux compétences Limitations plus profondes liées au fait que des métadonnées

sont conçues pour un objectif Par essence une réutilisation est une

dénaturation Tout retraitement représente un risque

d’appauvrissement (risque sur accuracy)

28Oct 2009 [email protected]

Page 29: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Des implémentations pauvres

De nombreux mécanismes sont sous-utilisés Description des ensembles OAI About section avec OAI rights Possibilité de labelliser ses données Etc

Il est tout à fait possible de contrôler l’accès à un serveur OAI

Mais pas de stratégie de partage des métadonnées

29Oct 2009 [email protected]

Page 30: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Absence de stratégie sur le partage des données

Pas d’utilisation des mécanismes de description Des bases OAI Des ensembles OAI Des enregistrements de

métadonnées

Pas assez (?) de réutilisation par les agrégateurs tout automatisé vs curation

30Oct 2009 [email protected]

Page 31: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Mais pourquoi mettre ses ressources en commun?

Problématique du sens d’un corpus agrégé Pré-suppose qu’il est pertinent d’agréger des données

de communautés ou d’établissements différents et de les réutiliser

Pré-suppose que ces communautés sont volontaires pour partager leurs données

Pré-suppose que les données sont “partageables”

31Oct 2009 [email protected]

Page 32: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Perdre la maîtrise sur la représentation de ses données

National Gallery of Australia aux côtés d’images de Flickr

32Oct 2009 [email protected]

Page 33: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Droits sur les métadonnées

Droit de modification des métadonnées Problématique dans le projet 24HourMuseum

Problème: les fournisseurs de données n’utilisent pas ou peu OAI Rights

33Oct 2009 [email protected]

Page 34: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Partager comment?

OAI-PMH vs Z39.50/SRU vs Atom/RSS vs … La masse de données Le nombre de bases Les contraintes de compétences etc

Tout doit pouvoir coexister Mais la démocratie a un coût Il faut une stratégie

34Oct 2009 [email protected]

Page 35: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

PictureAustralia

OAI-PMH pour les contributeurs importants Web crawling pour les petits Flickr pour les particuliers

35

Using OAI has the advantage that only new and changed records need to be harvested, while for web crawl harvesting all records have to be re-harvested each time a harvest is run.

http://www.pictureaustralia.org/schemas/pa/index.html

Oct 2009 [email protected]

Page 36: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Web de données, Web sémantique, RDF etc

36Oct 2009 [email protected]

Page 37: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Web de données vs Web éditorial

Mais les données doivent quand même être « éditorialisées »

OAI-PMH est une première étape? Dans le sens où incitation au partage

les questions techniques, diplomatiques, d’image et de reconnaissance qui vont avec le transfert des ressources

RDFisation Pour rendre ces données exploitables, interprétables

Pose les problèmes de partageabilité, de traçabilité, de confiance etc

Mais pas ou peu exploité

37Oct 2009 [email protected]

Page 38: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Traçabilité et confiance

Pb de traçabilité des données et de leurs transformations

Open provenance model Construire une chaîne de reprocessing

Data mining Toute modification est le risque d’un appauvrissement Pb de droits et de ce que les content providers reconnaissent

leurs petits sur un service Besoin d’extractions et de validation

Intérêt des technologies sémantiques

38Oct 2009 [email protected]

Page 39: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

La dream team pour OAI-PMH, métadonnées, bibliothèques

numériques, archives etc

39Oct 2009 [email protected]

Page 40: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

L’équipe ou le “trio gagnant”

Informaticien, documentaliste

Chef de projet Et parfois le chercheur, le

conservateur, le directeur pour définir une stratégie

40Oct 2009 [email protected]

www.clps.be/images/ dessinsKroll/2.jpg

Page 41: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

le métier de documentaliste évolue

“il ne faut pas laisser les informaticiens faire du mapping de métadonnées” L’intérêt pour les contenus La création de collections

Avec une perspective et une stratégie

Pas seulement par rapport à un public interne et des cas d’utilisation connus

41Oct 2009 [email protected]

Page 42: Tentative de conclusion Journées Fredoc 2009 OAI-PMH

Conclusion: est-ce que l’OAI-PMH est mieux que les autres?

Il marche Mieux quand il y a beaucoup de données, des modes

d’organisation indépendants, un intérêt commun à réaliser un ou plusieurs services

Surtout, il bâtit l’interopérabilité sur le travail des documentalistes Les métadonnées (éventuellement) Le mapping de données: la réutilisation des données La constitution de collections avec un traitement (ou curation)

similaire Une stratégie de partage et de diffusion vers un ou plusieurs

public

42


Recommended