+ All Categories
Home > Documents > Le projet ANACAL

Le projet ANACAL

Date post: 10-Jan-2016
Category:
Upload: dolph
View: 45 times
Download: 0 times
Share this document with a friend
Description:
Le projet ANACAL. ANalyse Automatique de Corpus d’Acquisition du Langage. Luiggi SANSONETTI – Maîtrise 2000-2001. SOMMAIRE. Présentation du Projet ANACAL Interdisciplinarité Intentions du projet Etat de l’art Structure générale En-tête Perspectives de recherche. - PowerPoint PPT Presentation
Popular Tags:
21
Le projet ANACAL ANalyse Automatique de Corpus d’Acquisition du Langage. Luiggi SANSONETTI – Maîtrise 2000-2001
Transcript
Page 1: Le projet ANACAL

Le projet ANACAL

ANalyse Automatique de Corpus d’Acquisition du Langage.

Luiggi SANSONETTI – Maîtrise 2000-2001

Page 2: Le projet ANACAL

SOMMAIRE

• Présentation du Projet ANACAL• Interdisciplinarité• Intentions du projet

• Etat de l’art• Structure générale• En-tête

• Perspectives de recherche

Page 3: Le projet ANACAL

Linguistique Informatique

Linguistique de l’acquisition

Interdisciplinarité

Linguistique informatique appliquée à la linguistique de l’acquisition

Programmes informatiques

Traitement automatique

Données linguistiques

Interactions langagières

Adulte/Enfant

Observables linguistiques

Page 4: Le projet ANACAL

Intentions du projet

Banque de données normalisées Données électroniques Corpus d’interaction langagière de langue française Entre adulte/enfant en cours d’acquisition Format adapté aux échanges par Internet

Programmes informatiques Traitements textuels Préparation de corpus Analyses automatiques

Page 5: Le projet ANACAL

Structure générale

Présentation Situation Transcription

Page 6: Le projet ANACAL

Présentation

<PRESENTATION> <ENREGISTREMENT>

<NOM>Luiggi Sansonetti</NOM><DATE>2 décembre 1998</DATE>

</ENREGISTREMENT><TRANSCRIPTION>

<NOM>Luiggi Sansonetti</NOM><DATE>10-30 décembre 1998</DATE>

</TRANSCRIPTION><APPRENANT>

<NOM>Corentin D</NOM><DATE>24 décembre 1998</DATE><AGE>03,11,09</AGE>

</APPRENANT>

Page 7: Le projet ANACAL

<LEGENDES><NoCORPUS>1</NoCORPUS><A>Adulte</A><E>Corentin</E><nA>67</nA><nE>65</nE>

</LEGENDES></PRESENTATION>

Page 8: Le projet ANACAL

Situation

<SITUATION><ENFANT> Corentin est le fils (…).</ENFANT><ENTRETIEN> Le 4 novembre (…).</ENTRETIEN><SUPPORT> Je n'ai pas (…).</SUPPORT><ENREGISTREMENT> Sur(…).</ENREGISTREMENT>

</SITUATION>

Page 9: Le projet ANACAL

Transcription<TRANSCRIP>

<ENF num="1">

<COMM> (il revient en courant) </COMM> i(l) faudra chanter celles-là aussi d'accord? <COMM> (il pose les livres sur le micro) </COMM> </ENF>

<ADULT num="1">Alors, Trois Fables de La Fontaine.</ADULT>

<ENF num="2">humm mais i(l) faut pas <COMM> (il bouge un livre sur le micro) </COMM> acore (=encore) la lire i(l) faut lire celle-là d'abord </ENF>

</ TRANSCRIP >

Page 10: Le projet ANACAL

En-tête

Description du fichier Description du codage Description du profil Description de la révision

Page 11: Le projet ANACAL

Description du fichier

<FILEDESC> <TITLESTMT> <H.TITLE>Etude longitudinale de Corentin</H.TITLE> <RESPSTMT> <RESPTYPE>Conversion et balisage XML</RESPTYPE>

<RESPNAME>Corpus recueilli et édité en XML par Luiggi Sansonetti </RESPNAME> </RESPSTMT> </TITLESTMT> <EXTENT> <WORDCOUNT>2407 mots et 387 lignes</WORDCOUNT> <BYTECOUNT>18.0 Ko</BYTECOUNT> </EXTENT>

Page 12: Le projet ANACAL

<PUBLICATIONSTMT>

<DISTRIBUTION>ILPGA TAL Université Paris III France </DISTRIBUTION>

<PUBADRESSE>ILPGA 19 rue des Bernardins 75005 Paris </PUBADRESSE>

<EADRESSE>[email protected]</EADRESSE>

<EADRESSE type="www">http://www.cavi.univ-paris3.fr/ilpga/ ilpga/tal/</EADRESSE> </PUBLICATIONSTMT></FILEDESC>

Page 13: Le projet ANACAL

Description du codage

<ENCODINGDESC>

<PROJETDESC>Le corpus de Corentin a été normalisé dans le but d'analyser automatiquement les corpus d'interaction Adulte/Enfant en cours d'acquisition du langage</PROJETDESC>

<SAMPLINGDESC>Ce corpus a été recueilli et normalisés par Luiggi Sansonetti</SAMPLINGDESC>

</ENCODINGDESC>

Page 14: Le projet ANACAL

Description du profil

<PROFILEDESC><CREATIONDATE>2001</CREATIONDATE><LANGUEUSAGE>

<LANGUAGE iso639="fr" type="corpus d'interaction Adulte/Enfant en cours d'acquisition du langage"/>

</LANGUEUSAGE></PROFILEDESC>

Page 15: Le projet ANACAL

Description de la révision

<REVISIONDESC><CHANGE>

<CHANGEDATE>26/05/2001</CHANGEDATE><RESPNAME>Luiggi Sansonetti</RESPNAME>

</CHANGE></REVISIONDESC>

Page 16: Le projet ANACAL

Représentation hiérarchique du document normalisé

corp u sg rou p h ead corp u sg rou p b od y

corp u sg rou p

Page 17: Le projet ANACAL

corpusgrouphead

filed esc en cod in g d esc p ro filed esc revis ion d esc

corp u sg rou p h ead

Page 18: Le projet ANACAL

corpusgroupbody

corp u s

p resen ta tion s itu a tion tran sc rip

corp u s corp u s

corp u sg rou p b od y

Page 19: Le projet ANACAL

Définition du Type de Document <!ELEMENT CORPUSGROUP (CORPUSGROUPSHEAD, CORPUSGROUPBODY)>

<!ELEMENT CORPUSGROUPHEAD (FILEDESC, ENCODINGDESC, PROFILEDESC, REVISIONDESC)>

<!ELEMENT CORPUSGROUPBODY (CORPUS+)>

<!ELEMENT CORPUS (PRESENTATION, SITUATION, TRANSCRIP)>

<!ELEMENT PRESENTATION (ENREGISTREMENT, TRANSCRIPTION, APPRENANT, LEGENDES)>

<!ELEMENT SITUATION (ENFANT, ENTRETIEN, SUPPORT, ENREGISTREMENT)>

<!ELEMENT TRANSCRIP (ADULT+ | ENF+ | COMM+)>

Page 20: Le projet ANACAL

Perspectives de recherche

Finition de l’en-tête Programmes de balisages automatiques Programmes d’analyse et de traitement

Page 21: Le projet ANACAL

A suivre …

Luiggi SansonettiLuiggi Sansonetti - 29 juin 2001


Recommended