+ All Categories
Home > Documents > Tendances actuelles en traitement des langues

Tendances actuelles en traitement des langues

Date post: 19-Nov-2023
Category:
Upload: univ-gustave-eiffel
View: 0 times
Download: 0 times
Share this document with a friend
57
Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France http://igm.univ-mlv.fr/~laporte/ Tendances actuelles du traitement des langues Les Arts du spectacle de la francophonie Université Sung-kyun-kwan, 13 juin 2009 Session : la Linguistique française et ses applications
Transcript

Éric Laporte Laboratoire d'Informatique Gaspard-Monge

Université Paris-Est Marne-la-Vallée France

http://igm.univ-mlv.fr/~laporte/

Tendances actuelles du traitement des langues

Les Arts du spectacle de la francophonie Université Sung-kyun-kwan, 13 juin 2009

Session : la Linguistique française et ses applications

Applications du traitement des langues aujourd'hui La linguistique et le traitement des langues La linguistique pour le traitement des langues L'évolution de la communauté scientifique Recherche fondamentale et appliquée La normalisation

Les débats actuels Le Web sémantique L'évaluation

Sommaire

Moteurs de recherche Fouille d'opinions Traduction automatique Apprentissage en ligne Classification de documents Correction orthographique Lecture vocale Reconnaissance vocale Agents conversationnels Résumé automatique

Applications du traitement des langues

Moteurs de recherche

Fouille d'opinions (1/3)

Les documents exprimant des opinions Plus complexe que les documents techniques Opinions rationnelles ou émotionnelles Le film dure 3 h 30 Un grand Almodovar

Opinions explicites ou implicites distribution brillante cinéma dans le cinéma

Fouille d'opinions (2/3)

Assumer ou rapporter une opinion On nous avait prévenu. Les derniers jours, à Cannes, sont généralement réservés aux films auxquels les sélectionneurs « ne croient pas vraiment ». En gros, aux plus mauvais films de la sélection. Sur quoi porte l'opinion ? L'émotion tient à la beauté du personnage de Lena

Fouille d'opinions (3/3)

Traduction automatique

Apprentissage en ligne

Classification de documents

Correction orthographique (1/2)

Correction orthographique (2/2)

Le TGV 847 à destination de Bordeaux partira voie L Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M

Lecture vocale

Le TGV 847 à destination de Bordeaux partira voie L Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M

Lecture vocale

En raison de la présence de manifestants sur le toit, le TGV 847 à destination de Bordeaux partira avec un retard d'au moins 15 minutes

Appeler Françoise Je voudrais faire un appel en PCV Écrire un nouveau message De quel aéroport part le vol AF 8238 à destination de Séoul ?

Reconnaissance vocale

Agents conversationnels

Un faux agent conversationnel

Résumé (74 mots) de l'article de Wikipédia en français sur l'écriture coréenne (237 mots) Le coréen utilise les « hanja » (mot coréen désignant les caractères chinois - « sinogrammes » - très proches de ceux utilisés en Chine et au Japon), bien qu'il tende aujourd’hui à ne plus s’écrire qu’avec le hangeul, l’alphabet coréen. L’alphabet hangeul comprend 40 lettres (19 consonnes et 21 voyelles). L'alphabet hangeul est utilisé en regroupant les lettres par syllabes occupant des blocs carrés, à raison de 2 à 4 lettres par syllabe.

Résumé automatique

Deux communautés scientifiques très différentes: les linguistes et les informaticiens Une difficulté à communiquer et interagir Rapidité, efficacité Profondeur Mathématiques Philosophie Analyse Synthèse Une familiarité avec la linguistique ou l'informatique nécessite au moins 4 années d'études Pour les institutions, la pluridisciplinarité est difficile à gérer Un respect mutuel Une blague des années 1980 qui ridiculisait les linguistes: les problèmes NP-complets, VP-complets...

La linguistique et le traitement des langues (1/4)

Les informaticiens méfiants vis-à-vis des linguistes 90 % du traitement des langues est sans dictionnaire « Un travail long, fastidieux et sujet à des erreurs » Les linguistes réticents à codifier les informations Marquage des séquences correctes et incorrectes Je pense à Luc *Je lui pense « Une pluie d'étoiles exterminatrices »

La linguistique et le traitement des langues (2/4)

La méthode du « sac de mots » On représente un document par son vocabulaire On néglige l'ordre des mots et la notion de phrase Un document est représenté par un tableau de chiffres Des résultats spectaculaires Peu d'efforts : aucune information linguistique, des algorithmes simples Une explosion du nombre d'utilisateurs Un effet de la popularisation d'Internet depuis 1995 Des échecs prévisibles sur certaines langues (arabe) et certains problèmes (traduction)

La linguistique et le traitement des langues (3/4)

Les méthodes fondées sur la linguistique Lexiques : propriétés des mots et des expressions Grammaires : propriétés des constructions « Ressources linguistiques » Une communauté minoritaire Une réserve de solutions à long terme pour les problèmes difficiles

La linguistique et le traitement des langues (4/4)

Des contraintes spécifiques Formalisation Seules des données codifiées sont exploitables

Confrontation avec la réalité de l'usage linguistique L'exploitation technique des résultats est une forme supplémentaire d'évaluation

La linguistique pour le traitement des langues (1/4)

Formalisation Seules des données codifiées sont exploitables Exemple de données non codifiées

La linguistique pour le traitement des langues (2/4)

Exemple de données codifiées

La linguistique pour le traitement des langues (3/4)

Confrontation avec la réalité de l'usage linguistique L'application au traitement des langues donne une évaluation supplémentaire de la qualité des résultats Précautions méthodologiques : - Définition des notions par des critères - Observation de corpus - Entraînement du jugement d'acceptabilité - Entraînement à la construction d'exemples

La linguistique pour le traitement des langues (4/4)

Constructions à verbe support (CVS) Luc prend du repos Les immigrés prennent racine dans leur nouveau pays Critère : l'emploi du nom sans le verbe Prendre du repos a fait du bien à Luc Ce repos a fait du bien à Luc : CVS Prendre racine dans un nouveau pays met du temps *Une racine dans un nouveau pays met du temps

Définition des notions par des critères

Observation de corpus

*Du repos m'a fait du bien Ce repos m'a fait du bien Du repos me ferait du bien ?Ce repos me ferait du bien Une forme qui n'apparaît dans aucun corpus peut être acceptable L'introspection est la seule source d'information disponible L'entraînement et le contrôle mutuel compensent la subjectivité de l'introspection

Entraînement du jugement d'acceptabilité

Ce repos m'a fait du bien Du repos me ferait du bien

Une série d'exemples construite d'une façon non systématique a moins de valeur probante

Entraînement à la construction d'exemples

Passé composé Conditionnel

du *Du repos m'a fait du bien Du repos me ferait du bien

ce Ce repos m'a fait du bien ?Ce repos me ferait du bien

Une responsabilité collective, internationale, des chercheurs L'évaluation par les pairs Progressivement adoptée par la communauté scientifique Cette pratique favorise les recherches appréciées par les autres chercheurs du même domaine Des pratiques moins désirables Favoriser les chercheurs qui ont des relations Favoriser les chercheurs qui peuvent financer leurs publications

L'évolution de la communauté scientifique (1/2)

L'évaluation par les pairs n'est pas parfaite Certains critères de qualité discutables favorisent les méthodes mathématico-informatiques La popularité auprès d'une population plus vaste Les informaticiens plus nombreux que les chercheurs pluridisciplinaires La facilité, la simplicité Un produit moins coûteux n'est pas forcément meilleur L'efficacité à court terme Construction d'un dictionnaire : 5 à 15 ans La « mode »

L'évolution de la communauté scientifique (2/2)

Les solutions exploitables à court terme Recherche privée Quelques petites entreprises spécialisées Des services de grandes entreprises : - sac de mots - mémoire de traductions - achat de résultats de petites entreprises Les universités L'essentiel de l'activité universitaire en traitement des langues

Recherche appliquée

Problèmes fondamentaux, applications à long terme Dictionnaires morpho-syntaxiques : 5 ans (Delaf) Dictionnaires syntaxico-sémantiques : 6 ans (Dicovalence) 9 ans (Framenet, Verbnet) 16 ans (Lexique-grammaire) 25 ans (DiCo) Une responsabilité de la recherche publique Une proportion minoritaire de l'activité universitaire en traitement des langues

Recherche fondamentale

La normalisation des formats de ressources linguistiques Faire fonctionner ensemble des systèmes indépendants Un effort collectif, international depuis 2001 ISO (Association internationale de normalisation)

La normalisation

Le Web sémantique Les ontologies L'intelligence artificielle L'évaluation

Les débats actuels

Le Web pour les internautes Le Web pour les programmes Un parallèle Les dictionnaires pour lecteurs humains et les dictionnaires pour le traitement des langues

Le Web sémantique

Le Web pour les internautes

Le Web pour les programmes (?)

Dictionnaires pour les lecteurs humains

Dictionnaires pour les programmes

Les ontologies (1/3)

Une ontologie représente une façon de conceptualiser un domaine : objets, classes, attributs, relations, évènements Une ontologie spécifie une représentation logico-sémantique suffisamment formelle pour permettre des raisonnements automatiques Une ontologie décrit une façon de communiquer sur le domaine dans une communauté Une ontologie inclut un réseau sémantique et la terminologie associée

Les ontologies (2/3)

Questions logiques : quel système formel ? Questions linguistiques : comment représenter les présuppositions ? les informations implicites ? Faible interaction entre linguistes et informaticiens Ces questions sont étudiées de manière indépendante Les objectifs sont-ils compatibles entre eux ?

Les ontologies (3/3)

Simuler sur ordinateur l'intelligence, y compris le langage Années 1960, 1970 et 1980 : enthousiasme et débats

L'intelligence artificielle

Des « cousins » de l'intelligence La mémoire : les programmes de jeu d'échecs battent le champion du monde (2006) La perception : reconnaissance des visages La statistique : classification de documents, finance Est-ce de l'intelligence ?

Les systèmes experts Systèmes capables de traiter un problème complexe propre à un domaine Ils utilisent un modèle du problème Programmation orientée objet Le génie logiciel moderne met l'accent sur la modélisation des données du problème à résoudre Démesure et réalisme Les recherches sur l'intelligence artificielle ont créé des techniques de modélisation efficaces

Intelligence artificielle et génie logiciel

Concours et défis Morpholympics (1994) : étiqueteurs lexicaux de l'allemand Grace (1997) : étiqueteurs lexicaux du français Technolangue/Easy (2004) : analyseurs syntaxiques Évaluer la qualité des résultats de la recherche Un effort collectif, international Parallèle avec l'évaluation par les pairs Une évaluation de plus en plus objective Évaluation, compétition, motivation

Traitement des langues et évaluation

La réflexion sur les indicateurs de qualité est pauvre en général Pas d'indicateurs de qualité Les recherches sans indicateurs de qualité sont dévalorisées Indicateurs trompeurs Indicateurs ludiques La compétition pour le plaisir

Imperfections de l'évaluation

Certaines recherches fondamentales ne produisent pas de résultats évaluables avant des années Elles sont dévalorisées Un progrès peut faire diminuer temporairement un indicateur de qualité Exemple : l'étiquetage lexical

Pas d'indicateurs de qualité

Diminution d'un indicateur de qualité (1/3)

Diminution d'un indicateur de qualité (2/3)

De plus en plus d'informations dans les étiquettes Le nombre d'analyses augmente Un des indicateurs de qualité, la précision de l'étiquetage, diminue Une entente implicite entre chercheurs dans les années 1990 : on n'augmente pas la quantité d'informations dans les étiquettes tant qu'on ne sait pas choisir parmi les analyses Énumérer des analyses et sélectionner des analyses : deux problèmes distincts L'entente équivalait à interrompre des programmes de recherches pour une raison d'évaluation

Diminution d'un indicateur de qualité (3/3)

( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen)))

Indicateurs trompeurs (1/2)

(S (NP *) to (VP visit (NP Mexico)))) , (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))) .)

Évaluation par comparaison avec une référence

Le Penn Treebank (1993) : corpus de l'anglais muni d'annotations syntaxiques, souvent utilisé comme référence pour des évaluations Le Penn Treebank néglige les expressions multi-mots, pourtant déjà étudiées depuis longtemps à l'époque Cela a ralenti les recherches dans ce domaine

Indicateurs trompeurs (2/2)

La compétition pour le plaisir

Indicateurs ludiques (1/2)

Chaque juge doit dialoguer avec un agent conversationnel et avec une personne, puis deviner lequel des deux est la personne L'agent conversationnel que les juges prennent pour une personne le plus souvent gagne 3000 euros

Indicateurs ludiques (2/2)

Des débats sur les ressources linguistiques et la représentation des connaissances : ontologies, normalisation, indicateurs de qualité... Les débats purement informatiques sont perçus comme moins pertinents : automates finis/grammaires algébriques La communauté s'habitue progressivement à la pluridisciplinarité du traitement des langues

Conclusion


Recommended