Date post: | 20-Jan-2015 |
Category: |
Technology |
Upload: | chessmu |
View: | 1,137 times |
Download: | 1 times |
Oct 2009 [email protected] 1
Tentative de conclusion Journées Fredoc 2009 OAI-PMH
Muriel Foulonneau
Centre de Recherche Public Henri Tudor
Luxembourg
Nous avons parlé de …
Standards Open access et OAI
Archives institutionnelles, archives disciplinaires, objet polymorphe (HAL)
Google Scholar n’indexe plus OAI
Des métadonnées, formats multiples et mapping Des boîtes de conserve Dublin Core qui ne répond pas à tout Des collections
2Oct 2009 [email protected]
Et aussi de …
Partager OAI-PMH et SRU/Z39.50 OAI-ORE Accès à des ressources analogiques Des infrastructures Des données brutes de la recherche Première étape vers le Web de données
Web de données RDF et technologies sémantiques
Compétences Ne pas laisser les informaticiens faire le mapping de
métadonnées Faire évoluer le métier des documentalistes
3Oct 2009 [email protected]
Comparaison des protocoles pour l’interopérabilité des données documentaires
OAI-PMH le plus populaire simplicité d’implémentation, intégration à des packages,
adapté à la collecte de grandes quantités de métadonnées MAIS granularité de descriptions, pas de mécanisme de
recherche d’informations
5
Protocols Number of people at each level of expertise1 2 3 4 5 No
answerRSS 3 (13%) 6 (26.1%) 9
(39.1%)3 (13%) 1 (4.3%) 1 (4.3%)
ATOM 1 (4.3%) 4 (17.4%) 7 (30.4%)
9 (39.1%) 1 (4.3%) 1 (4.3%)
APP 0 (0%) 1 (4.3%) 1 (4.3%) 3 (13%) 17 (73.9%) 1 (4.3%)Z39.50 0 (0%) 0 (0%) 6
(26.1%)12 (52.2%) 4 (17.4%) 1 (4.3%)
0AI-PMH 7 (30.4%) 7 (30.4%) 5 (21.7%)
0 (0%) 3 (13%) 1 (4.3%)
OAI-ORE 1 (4.3%) 1 (4.3%) 5 (21.7%)
9 (39.1%) 6 (26.1%) 1 (4.3%)
SRU/W 0 (0%) 0 (0%) 7 (30.4%)
5 (21.7%) 10 (43.5%) 1 (4.3%)
SWORD 0 (0%) 0 (0%) 7 (30.4%)
5 (21.7%) 10 (43.5%) 1 (4.3%)
http://pubs.cs.uct.ac.za/archive/00000530/
Oct 2009 [email protected]
OAI-PMH est un protocole complet
Certains trouvent l’OAI trop compliqué pour harvester Préfèrent l’indexation par crawl (ex. Google)
En fait il gère plusieurs layers d’interopérabilité Modèle Spécification de la partie technique Spécification de la syntaxe des réponses Spécification des métadonnées
Par opposition Sitemaps ne gèrent que le dialogue fournisseur de données
fournisseur de service par exemple OAI-ORE ne spécifie réellement que le modèle avec une sémantique
minimale et des exemples de représentations.
6Oct 2009 [email protected]
Couplé avec des technologies qui évoluent DC? Est permissif pour des applications un peu élaborées XML avec de plus en plus nécessité de pousser le RDF
(RDF/XML) Architecture repositories vs architecture orientées ressources
Linked data et OAI-ORE
Evolutions technologiques
7Oct 2009 [email protected]
Evolution des modèles d’utilisation
OAI et Open Archives, le nom du protocole a permis toutes les confusions Avec les archives Avec les archives ouvertes et le libre accès► C’est un protocole technique qui vise à assurer
l’interopérabilité de ressources distribuées.
Des archives ouvertes scientifiques à des données scientifiques, des données culturelles (musées, bibliothèques, archives …) et autres Chacune de ces communautés a des contraintes et des
historiques différents concernant le partage des ressources Pas seulement des métadonnées
8Oct 2009 [email protected]
Des rôles de fournisseurs de données et de services pas si clairs
Synchronisation des données IVOA, VIAF Gallica et le fonds Philidor
[email protected] 2009
Des outils personnels, personnalisés et collaboratifs
11
Archives institutionnelles et disciplinaires
Des logiques différentes Problématiques de Knowledge Management institutionnel vs
outil pour chercheurs Mélange archivage et diffusion Relations avec des CRIS
La vocation du partage de métadonnées est différente Des services trans-disciplinaires vs des services
documentaires pour les chercheurs
13Oct 2009 [email protected]
HAL est une entité hybride
Logique de chercheurs mais au départ non disciplinaire Socle technique commun avec les archives institutionnelles et
les archives disciplinaires donc proposition de “vues” institutionnelles et/ou
disciplinaires Pas si unique que cela (projet Commission européenne, Depot
UK …) MAIS uniquement des articles doit devenir une archive plus large?
14Oct 2009 [email protected]
Le local et le global
Grâce à OAI-PMH, tout le monde doit pouvoir coexister (institutionnelles, disciplinaires etc) Mais cela a un coût en terme de ressources D’où approche Europeana d’agrégateurs disciplinaires et régionaux
Logique de gestion d’un corpus distribué Où a-t-on besoin de bâtir sur des initiatives locales?
Logique de réutilisation des données Toute réutilisation est par essence une dénaturation Cela a un coût en terme de qualité
Quand y a-t-il des opportunités et un intérêt à toucher de nouveaux publics
15Oct 2009 [email protected]
Et si les archives communiquaient entre elles?
HAL reverse dans arXiv par exemple Logique étendue avec SWORD Mais pose de nombreuses questions sur les droits
sur les plein textes (initiative Nature Open Text Mining Interface), sur la confiance entre les repositories etc
16Oct 2009 [email protected]
http://www.ariadne.ac.uk/issue54/allinson-et-al/
Les métadonnées, c’est l’histoire de Mr Jourdain
18
Dublin Core
Format très générique et peu contraignant Quelques profils d’applications par communautés (eg.
OLAC, NSDL-DC etc)
Obligation du DC a fait peur à beaucoup d’implémenteurs
19Oct 2009 [email protected]
Problématiques de mapping
« Le MARC ne rentrera pas dans du Dublin Core » Ne pas tout mapper
Appauvrissement
Offrir des formats multiples!!!!!!
Documenter
Rendre ses métadonnées partageables
20Oct 2009 [email protected]
Et s’il n’y a pas de standard?
Il faut en créer un Sur la base d’un format existant
21Oct 2009 [email protected]
Et s’il y a des collections?
Mets, MPEG/DIDL, IMSPackaging etc EAD OAI-ORE POWDER Utilisation des ensembles OAI
22Oct 2009 [email protected]
Le partage basé sur les métadonnées
Beaucoup des analyses ont porté sur des métadonnées descriptives
Mais aussi: Utilisation de métadonnées pas seulement descriptives mais
aussi administratives Localisation des ressources Partager des tags et annotations etc
23Oct 2009 [email protected]
Et s’il n’y a que des métadonnées?
Et pas de ressource numérique accessible en ligne ou via un accès restreint
Il paraît que ça intéresse quand même les utilisateurs
24Oct 2009 [email protected]
Etude d’utilisabilité CIC metadata portal
Fonctionne pour des « directed searches » Pb de masse critique d’informations et coverage
Pb de référence à des sites externes: pas conforme aux attentes par rapport à un service de type DL
Google effect : la rééducation par Google sur la problématique de recherche d’informations
Plus de métadonnées plutôt utiles Organisation des résultats par collection, options de
filtrage des résultats / vignettes OK Thumbshots plus neutres
Manque catégorisation efficace
25Oct 2009 [email protected]
Problème de services (trop?) généralistes
La masse critique manque Les interfaces sont parfois médiocres La problématique de recherche d’informations trouve
des utilisateurs « ré-éduqués » par Google & co.
26Oct 2009 [email protected]
Useful K-12 Educational
Content
The Entire Web
25% des résultats de NSDL absents des résultats de GoogleMcCrown, Bollen, Nelson
Naissance d’agrégations de métadonnées hétérogènes
Travaux nouveaux sur les métadonnées Analyse des pratiques, des retraitements etc
Ecueils du partage Limitations liées aux financements, aux priorités stratégiques
des établissements, aux compétences Limitations plus profondes liées au fait que des métadonnées
sont conçues pour un objectif Par essence une réutilisation est une
dénaturation Tout retraitement représente un risque
d’appauvrissement (risque sur accuracy)
28Oct 2009 [email protected]
Des implémentations pauvres
De nombreux mécanismes sont sous-utilisés Description des ensembles OAI About section avec OAI rights Possibilité de labelliser ses données Etc
Il est tout à fait possible de contrôler l’accès à un serveur OAI
Mais pas de stratégie de partage des métadonnées
29Oct 2009 [email protected]
Absence de stratégie sur le partage des données
Pas d’utilisation des mécanismes de description Des bases OAI Des ensembles OAI Des enregistrements de
métadonnées
Pas assez (?) de réutilisation par les agrégateurs tout automatisé vs curation
30Oct 2009 [email protected]
Mais pourquoi mettre ses ressources en commun?
Problématique du sens d’un corpus agrégé Pré-suppose qu’il est pertinent d’agréger des données
de communautés ou d’établissements différents et de les réutiliser
Pré-suppose que ces communautés sont volontaires pour partager leurs données
Pré-suppose que les données sont “partageables”
31Oct 2009 [email protected]
Perdre la maîtrise sur la représentation de ses données
National Gallery of Australia aux côtés d’images de Flickr
32Oct 2009 [email protected]
Droits sur les métadonnées
Droit de modification des métadonnées Problématique dans le projet 24HourMuseum
Problème: les fournisseurs de données n’utilisent pas ou peu OAI Rights
33Oct 2009 [email protected]
Partager comment?
OAI-PMH vs Z39.50/SRU vs Atom/RSS vs … La masse de données Le nombre de bases Les contraintes de compétences etc
Tout doit pouvoir coexister Mais la démocratie a un coût Il faut une stratégie
34Oct 2009 [email protected]
PictureAustralia
OAI-PMH pour les contributeurs importants Web crawling pour les petits Flickr pour les particuliers
35
Using OAI has the advantage that only new and changed records need to be harvested, while for web crawl harvesting all records have to be re-harvested each time a harvest is run.
http://www.pictureaustralia.org/schemas/pa/index.html
Oct 2009 [email protected]
Web de données vs Web éditorial
Mais les données doivent quand même être « éditorialisées »
OAI-PMH est une première étape? Dans le sens où incitation au partage
les questions techniques, diplomatiques, d’image et de reconnaissance qui vont avec le transfert des ressources
RDFisation Pour rendre ces données exploitables, interprétables
Pose les problèmes de partageabilité, de traçabilité, de confiance etc
Mais pas ou peu exploité
37Oct 2009 [email protected]
Traçabilité et confiance
Pb de traçabilité des données et de leurs transformations
Open provenance model Construire une chaîne de reprocessing
Data mining Toute modification est le risque d’un appauvrissement Pb de droits et de ce que les content providers reconnaissent
leurs petits sur un service Besoin d’extractions et de validation
Intérêt des technologies sémantiques
38Oct 2009 [email protected]
La dream team pour OAI-PMH, métadonnées, bibliothèques
numériques, archives etc
39Oct 2009 [email protected]
L’équipe ou le “trio gagnant”
Informaticien, documentaliste
Chef de projet Et parfois le chercheur, le
conservateur, le directeur pour définir une stratégie
40Oct 2009 [email protected]
www.clps.be/images/ dessinsKroll/2.jpg
le métier de documentaliste évolue
“il ne faut pas laisser les informaticiens faire du mapping de métadonnées” L’intérêt pour les contenus La création de collections
Avec une perspective et une stratégie
Pas seulement par rapport à un public interne et des cas d’utilisation connus
41Oct 2009 [email protected]
Conclusion: est-ce que l’OAI-PMH est mieux que les autres?
Il marche Mieux quand il y a beaucoup de données, des modes
d’organisation indépendants, un intérêt commun à réaliser un ou plusieurs services
Surtout, il bâtit l’interopérabilité sur le travail des documentalistes Les métadonnées (éventuellement) Le mapping de données: la réutilisation des données La constitution de collections avec un traitement (ou curation)
similaire Une stratégie de partage et de diffusion vers un ou plusieurs
public
42