+ All Categories
Home > Documents > Graphes d'annotation – une introduction

Graphes d'annotation – une introduction

Date post: 22-Jan-2016
Category:
Upload: scout
View: 39 times
Download: 0 times
Share this document with a friend
Description:
Graphes d'annotation – une introduction. Claude Barras, LIMSI-CNRS figures et exemples de Steven Bird et al ., Linguistic Data Consortium University of Pennsylvania http://www.ldc.upenn.edu/AG. Un exemple d'interface de transcription. Format des données associées. - PowerPoint PPT Presentation
Popular Tags:
15
Graphes d'annotation – une introduction Claude Barras, LIMSI-CNRS figures et exemples de Steven Bird et al., Linguistic Data Consortium University of Pennsylvania http://www.ldc.upenn.edu/AG
Transcript
Page 1: Graphes d'annotation – une introduction

Graphes d'annotation– une introduction

Claude Barras, LIMSI-CNRS

figures et exemples de Steven Bird et al.,Linguistic Data ConsortiumUniversity of Pennsylvania

http://www.ldc.upenn.edu/AG

Page 2: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 2

Un exemple d'interface de transcription

Page 3: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 3

<?xml version="1.0" encoding="ISO-8859-1"?><!DOCTYPE Trans SYSTEM "trans-13.dtd"><Trans scribe="cb" audio_filename="dormeur" version_date="050208"> <Topics><Topic id="to1" desc="Le Dormeur du val"/></Topics> <Speakers><Speaker id="spk1" name="Serge Reggiani"/></Speakers> <Episode> <Section type="report" topic="to1" startTime="0" endTime="74.0"> <Turn speaker="" startTime="0" endTime="7.41"> <Background type="music" level="high" time="0"/> </Turn> <Turn speaker="spk1" startTime="7.41" endTime="74.0"> <Sync time="7.41"/> C'est un trou de verdure où chante une rivière <Sync time="10.891"/> Accrochant follement aux herbes des haillons <Sync time="14.714"/> D'argent : où le soleil, de la montagne fière, <Sync time="19.138"/> Luit : c'est un petit val qui mousse de rayons. <Sync time="24.38"/> Un soldat jeune, bouche ouverte, tête nue, <Sync time="29.671"/>…

Format des données associées

Page 4: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 4

Nombreux autres environnements…

BAS Partitur www.phonetik.uni-muenchen.de/Bas/

CHILDES/CHAT childes.psy.cmu.edu

DAMSL www.cs.rochester.edu/research/cisd/resources/damsl/

GATE gate.ac.uk

LDC (TIMIT, Switchboard, SGML) www.ldc.upenn.edu

TEI, CES www.tei-c.org www.cs.vassar.edu/CES/

Page 5: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 5

Résultat, un bazar de formats et d'outils

SGMLbase dedonnées

textetabulé

Page 6: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 6

Cadre unificateurpour les annotations linguistiques

Problèmes interopérabilité adaptation des données à de nouveaux domaines de

recherche développement d'outils flexibles et génériques

Diagnostic les différents formats de données masquent des

similitudes structurelles dans toutes les annotations linguistiques

A formal framework for linguistic annotation,S. Bird & M. Liberman, ICSLP'98/SpeechCom'01

Page 7: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 7

Annotation linguistiqueappliquée à des signaux

Il faut préciser Le signal source annoté La région particulière du signal sur laquelle doit

porter l'information Le contenu de l'annotation appliquée à cette

portion du signal

Signal

Annotation

Region

Page 8: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 8

Le modèle des graphes d'annotation (AG)

Cas des signaux mono-dimensionnels région = intervalle entre deux nœuds annotation = arc étiqueté entre deux nœuds

l'arc porte des champs d'information (couples attributs/valeurs)

graphe d'annotation = une collection d'annotations

00.00

17.41

210.9

314.7

1574.0

speaker:Serge Regianni

background: music

transcription:C'est un trou de verdure…

transcription:Accrochant follement…

Page 9: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 9

Définition des graphes d'annotation

Les nœuds peuvent être ancrés dans le signal i.e. ils sont associés à un instant précis dans le signal pour d'autres cette information est inconnue ou inutile

Définition formelle graphe acyclique orienté, étiqueté,

et partiellement ou totalement ancré tout nœud est borné par le graphe entre des nœuds

ancrés

Cadre unificateur séparation du niveau physique et logique pas d'hypothèse a priori sur le sens des étiquettes

17.41

210.9

1-1 1-2 1-3W: C' W: est W: un W: trou

Page 10: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 10

Architecture à 3 couches

textetabulé

Graphesd'annotation

Page 11: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 11

Caractéristiques des AG

Pas de contrainte dans la structure des graphes chevauchements, discontinuités…

Evenements instantanés ? pas de boucle sur un nœud (graphe acyclique)

possibilité de créer 2 nœuds renvoyant au même instant

Annotations non temporelles utilisation e.g. des conventions Dublin Core

1 2 3oui je

/S

Page 12: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 12

Le cas d'un dialogue

Il existe des parties de parole superposée comment associer les transcriptions à un locuteur donnée?

Hiérarchie implicite structure du graphe

regroupe les arcs portés par les mêmes noeuds

Hiérarchie explicite classes d'équivalence

utilise un identifiant associé aux arcs

1 3 5

spk: Client; A

trans: Bonjour Monsieur; A trans: Je voudrais des informations sur …; A

2 4

trans: Bonjour Madame; B

spk: Agent; B

Page 13: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 13

AG Interchange Format

<AGSet id="dormeur" version="1.0"> <Metadata> <dc:title>Le dormeur du Val</dc:title> </Metadata> <Timeline id="T1"> <Signal id="S1" mimeClass="audio" mimeType="wav" xlink:href="dormeur.wav"/> </Timeline> <AG id="t1" type="transcription" timeline="T1"> <Anchor id="A0" offset="0.00"/> <Anchor id="A1" offset="7.41"/> <Anchor id="A2" offset="10.89"/> <Anchor id="A3" offset="14.71"/> … <Annotation id="Ann1" type="speaker" start="A1" end="A15"> <Feature name="label">Serge Reggiani</Feature> </Annotation> <Annotation id="Ann2" type="transcription" start="A1" end="A2"> <Feature name="label">C'est un trou de verdure où chante une rivière</Feature> </Annotation> <Annotation id="Ann3" type=" transcription" start="A2" end="A3"> <Feature name="label">Accrochant follement aux herbes des haillons</Feature> </Annotation> …

Page 14: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 14

code open source sur http://agtk.sourceforge.net/ code en C++, interface avec Tcl/Tk et Python plateformes Unix et Windows support de différents formats de données (xlabel, TIMIT,

Penn Treebank, Switchboard, BAS Partitur, CSV, LDC Callhome, AIF level 0)

Implémentation par le LDC

Page 15: Graphes d'annotation – une introduction

12/02/2005 C. Barras - Graphes d'annotation 15

Perspectives et bilan

Extensions généralisation à des sources non-linéaires (images,

annotations): ATLAS proposé avec le NIST traitement efficace de requêtes dans un graphe

d'annotation

Bilan sur les graphes d'annotation un cadre formel, simple et clair des librairies logicielles, pas nécessairement un format

de données spécifique permet de factoriser l'effort sur la structure de données la signification des annotations reste à la charge de

l'application


Recommended