Date post: | 19-Nov-2023 |
Category: |
Documents |
Upload: | univ-gustave-eiffel |
View: | 0 times |
Download: | 0 times |
Éric Laporte Laboratoire d'Informatique Gaspard-Monge
Université Paris-Est Marne-la-Vallée France
http://igm.univ-mlv.fr/~laporte/
Tendances actuelles du traitement des langues
Les Arts du spectacle de la francophonie Université Sung-kyun-kwan, 13 juin 2009
Session : la Linguistique française et ses applications
Applications du traitement des langues aujourd'hui La linguistique et le traitement des langues La linguistique pour le traitement des langues L'évolution de la communauté scientifique Recherche fondamentale et appliquée La normalisation
Les débats actuels Le Web sémantique L'évaluation
Sommaire
Moteurs de recherche Fouille d'opinions Traduction automatique Apprentissage en ligne Classification de documents Correction orthographique Lecture vocale Reconnaissance vocale Agents conversationnels Résumé automatique
Applications du traitement des langues
Les documents exprimant des opinions Plus complexe que les documents techniques Opinions rationnelles ou émotionnelles Le film dure 3 h 30 Un grand Almodovar
Opinions explicites ou implicites distribution brillante cinéma dans le cinéma
Fouille d'opinions (2/3)
Assumer ou rapporter une opinion On nous avait prévenu. Les derniers jours, à Cannes, sont généralement réservés aux films auxquels les sélectionneurs « ne croient pas vraiment ». En gros, aux plus mauvais films de la sélection. Sur quoi porte l'opinion ? L'émotion tient à la beauté du personnage de Lena
Fouille d'opinions (3/3)
Le TGV 847 à destination de Bordeaux partira voie L Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M
Lecture vocale
Le TGV 847 à destination de Bordeaux partira voie L Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M
Lecture vocale
En raison de la présence de manifestants sur le toit, le TGV 847 à destination de Bordeaux partira avec un retard d'au moins 15 minutes
Appeler Françoise Je voudrais faire un appel en PCV Écrire un nouveau message De quel aéroport part le vol AF 8238 à destination de Séoul ?
Reconnaissance vocale
Résumé (74 mots) de l'article de Wikipédia en français sur l'écriture coréenne (237 mots) Le coréen utilise les « hanja » (mot coréen désignant les caractères chinois - « sinogrammes » - très proches de ceux utilisés en Chine et au Japon), bien qu'il tende aujourd’hui à ne plus s’écrire qu’avec le hangeul, l’alphabet coréen. L’alphabet hangeul comprend 40 lettres (19 consonnes et 21 voyelles). L'alphabet hangeul est utilisé en regroupant les lettres par syllabes occupant des blocs carrés, à raison de 2 à 4 lettres par syllabe.
Résumé automatique
Deux communautés scientifiques très différentes: les linguistes et les informaticiens Une difficulté à communiquer et interagir Rapidité, efficacité Profondeur Mathématiques Philosophie Analyse Synthèse Une familiarité avec la linguistique ou l'informatique nécessite au moins 4 années d'études Pour les institutions, la pluridisciplinarité est difficile à gérer Un respect mutuel Une blague des années 1980 qui ridiculisait les linguistes: les problèmes NP-complets, VP-complets...
La linguistique et le traitement des langues (1/4)
Les informaticiens méfiants vis-à-vis des linguistes 90 % du traitement des langues est sans dictionnaire « Un travail long, fastidieux et sujet à des erreurs » Les linguistes réticents à codifier les informations Marquage des séquences correctes et incorrectes Je pense à Luc *Je lui pense « Une pluie d'étoiles exterminatrices »
La linguistique et le traitement des langues (2/4)
La méthode du « sac de mots » On représente un document par son vocabulaire On néglige l'ordre des mots et la notion de phrase Un document est représenté par un tableau de chiffres Des résultats spectaculaires Peu d'efforts : aucune information linguistique, des algorithmes simples Une explosion du nombre d'utilisateurs Un effet de la popularisation d'Internet depuis 1995 Des échecs prévisibles sur certaines langues (arabe) et certains problèmes (traduction)
La linguistique et le traitement des langues (3/4)
Les méthodes fondées sur la linguistique Lexiques : propriétés des mots et des expressions Grammaires : propriétés des constructions « Ressources linguistiques » Une communauté minoritaire Une réserve de solutions à long terme pour les problèmes difficiles
La linguistique et le traitement des langues (4/4)
Des contraintes spécifiques Formalisation Seules des données codifiées sont exploitables
Confrontation avec la réalité de l'usage linguistique L'exploitation technique des résultats est une forme supplémentaire d'évaluation
La linguistique pour le traitement des langues (1/4)
Formalisation Seules des données codifiées sont exploitables Exemple de données non codifiées
La linguistique pour le traitement des langues (2/4)
Confrontation avec la réalité de l'usage linguistique L'application au traitement des langues donne une évaluation supplémentaire de la qualité des résultats Précautions méthodologiques : - Définition des notions par des critères - Observation de corpus - Entraînement du jugement d'acceptabilité - Entraînement à la construction d'exemples
La linguistique pour le traitement des langues (4/4)
Constructions à verbe support (CVS) Luc prend du repos Les immigrés prennent racine dans leur nouveau pays Critère : l'emploi du nom sans le verbe Prendre du repos a fait du bien à Luc Ce repos a fait du bien à Luc : CVS Prendre racine dans un nouveau pays met du temps *Une racine dans un nouveau pays met du temps
Définition des notions par des critères
*Du repos m'a fait du bien Ce repos m'a fait du bien Du repos me ferait du bien ?Ce repos me ferait du bien Une forme qui n'apparaît dans aucun corpus peut être acceptable L'introspection est la seule source d'information disponible L'entraînement et le contrôle mutuel compensent la subjectivité de l'introspection
Entraînement du jugement d'acceptabilité
Ce repos m'a fait du bien Du repos me ferait du bien
Une série d'exemples construite d'une façon non systématique a moins de valeur probante
Entraînement à la construction d'exemples
Passé composé Conditionnel
du *Du repos m'a fait du bien Du repos me ferait du bien
ce Ce repos m'a fait du bien ?Ce repos me ferait du bien
Une responsabilité collective, internationale, des chercheurs L'évaluation par les pairs Progressivement adoptée par la communauté scientifique Cette pratique favorise les recherches appréciées par les autres chercheurs du même domaine Des pratiques moins désirables Favoriser les chercheurs qui ont des relations Favoriser les chercheurs qui peuvent financer leurs publications
L'évolution de la communauté scientifique (1/2)
L'évaluation par les pairs n'est pas parfaite Certains critères de qualité discutables favorisent les méthodes mathématico-informatiques La popularité auprès d'une population plus vaste Les informaticiens plus nombreux que les chercheurs pluridisciplinaires La facilité, la simplicité Un produit moins coûteux n'est pas forcément meilleur L'efficacité à court terme Construction d'un dictionnaire : 5 à 15 ans La « mode »
L'évolution de la communauté scientifique (2/2)
Les solutions exploitables à court terme Recherche privée Quelques petites entreprises spécialisées Des services de grandes entreprises : - sac de mots - mémoire de traductions - achat de résultats de petites entreprises Les universités L'essentiel de l'activité universitaire en traitement des langues
Recherche appliquée
Problèmes fondamentaux, applications à long terme Dictionnaires morpho-syntaxiques : 5 ans (Delaf) Dictionnaires syntaxico-sémantiques : 6 ans (Dicovalence) 9 ans (Framenet, Verbnet) 16 ans (Lexique-grammaire) 25 ans (DiCo) Une responsabilité de la recherche publique Une proportion minoritaire de l'activité universitaire en traitement des langues
Recherche fondamentale
La normalisation des formats de ressources linguistiques Faire fonctionner ensemble des systèmes indépendants Un effort collectif, international depuis 2001 ISO (Association internationale de normalisation)
La normalisation
Le Web pour les internautes Le Web pour les programmes Un parallèle Les dictionnaires pour lecteurs humains et les dictionnaires pour le traitement des langues
Le Web sémantique
Une ontologie représente une façon de conceptualiser un domaine : objets, classes, attributs, relations, évènements Une ontologie spécifie une représentation logico-sémantique suffisamment formelle pour permettre des raisonnements automatiques Une ontologie décrit une façon de communiquer sur le domaine dans une communauté Une ontologie inclut un réseau sémantique et la terminologie associée
Les ontologies (2/3)
Questions logiques : quel système formel ? Questions linguistiques : comment représenter les présuppositions ? les informations implicites ? Faible interaction entre linguistes et informaticiens Ces questions sont étudiées de manière indépendante Les objectifs sont-ils compatibles entre eux ?
Les ontologies (3/3)
Simuler sur ordinateur l'intelligence, y compris le langage Années 1960, 1970 et 1980 : enthousiasme et débats
L'intelligence artificielle
Des « cousins » de l'intelligence La mémoire : les programmes de jeu d'échecs battent le champion du monde (2006) La perception : reconnaissance des visages La statistique : classification de documents, finance Est-ce de l'intelligence ?
Les systèmes experts Systèmes capables de traiter un problème complexe propre à un domaine Ils utilisent un modèle du problème Programmation orientée objet Le génie logiciel moderne met l'accent sur la modélisation des données du problème à résoudre Démesure et réalisme Les recherches sur l'intelligence artificielle ont créé des techniques de modélisation efficaces
Intelligence artificielle et génie logiciel
Concours et défis Morpholympics (1994) : étiqueteurs lexicaux de l'allemand Grace (1997) : étiqueteurs lexicaux du français Technolangue/Easy (2004) : analyseurs syntaxiques Évaluer la qualité des résultats de la recherche Un effort collectif, international Parallèle avec l'évaluation par les pairs Une évaluation de plus en plus objective Évaluation, compétition, motivation
Traitement des langues et évaluation
La réflexion sur les indicateurs de qualité est pauvre en général Pas d'indicateurs de qualité Les recherches sans indicateurs de qualité sont dévalorisées Indicateurs trompeurs Indicateurs ludiques La compétition pour le plaisir
Imperfections de l'évaluation
Certaines recherches fondamentales ne produisent pas de résultats évaluables avant des années Elles sont dévalorisées Un progrès peut faire diminuer temporairement un indicateur de qualité Exemple : l'étiquetage lexical
Pas d'indicateurs de qualité
De plus en plus d'informations dans les étiquettes Le nombre d'analyses augmente Un des indicateurs de qualité, la précision de l'étiquetage, diminue Une entente implicite entre chercheurs dans les années 1990 : on n'augmente pas la quantité d'informations dans les étiquettes tant qu'on ne sait pas choisir parmi les analyses Énumérer des analyses et sélectionner des analyses : deux problèmes distincts L'entente équivalait à interrompre des programmes de recherches pour une raison d'évaluation
Diminution d'un indicateur de qualité (3/3)
( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen)))
Indicateurs trompeurs (1/2)
(S (NP *) to (VP visit (NP Mexico)))) , (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))) .)
Évaluation par comparaison avec une référence
Le Penn Treebank (1993) : corpus de l'anglais muni d'annotations syntaxiques, souvent utilisé comme référence pour des évaluations Le Penn Treebank néglige les expressions multi-mots, pourtant déjà étudiées depuis longtemps à l'époque Cela a ralenti les recherches dans ce domaine
Indicateurs trompeurs (2/2)
Chaque juge doit dialoguer avec un agent conversationnel et avec une personne, puis deviner lequel des deux est la personne L'agent conversationnel que les juges prennent pour une personne le plus souvent gagne 3000 euros
Indicateurs ludiques (2/2)
Des débats sur les ressources linguistiques et la représentation des connaissances : ontologies, normalisation, indicateurs de qualité... Les débats purement informatiques sont perçus comme moins pertinents : automates finis/grammaires algébriques La communauté s'habitue progressivement à la pluridisciplinarité du traitement des langues
Conclusion