Post on 15-Jul-2020
transcript
Xavier TannierXavier.Tannier@limsi.fr
Traitement Automatiquedes Langues
Master 2 Recherche
Analyse de Textes et Extraction d'Information
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Plan général
• Introduction à l'extraction d'information
• Reconnaissance des entités nommées
• Résolution d'anaphores
• Analyse temporelle
Xavier TannierXavier.Tannier@limsi.fr
Traitement Automatiquedes Langues
Master 2 Recherche
Introduction à l'Extraction d'Information
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Besoin d'information
• "Disposer des bonnes informations par rapport à une question ou à un problème donnés"
• Importance accrue de la veille scientifique, technologique, commerciale, culturelle, etc.
• Un besoin très grand public• Au départ, un besoin d'accès aux informations internes, mais
l'accès aux informations externes est maintenant tout aussi important
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Diversité des besoins d'information (1/2)
(Meadow et al., 2000.)
1. La recherche d’un élément connu – L’utilisateur sait exactement quels éléments il recherche. Il sait
reconnaître les éléments désirés s’il les voit. – Ex : recherche d'une citation bibliographique précise.→ SQL, XQuery, etc. (bases de données)
2. La recherche d’une information spécifique – L’utilisateur recherche une information spécifique mais ignore sous
quelle forme elle se présente.– Réponse partielle impossible– Ex : À quelle date le président Kennedy atil été assassiné ?
→ Extraction d'information et Systèmes de QuestionsRéponses
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Diversité des besoins d'information (2/2)
(Meadow et al., 2000.)
3. La recherche d’une information générale – L’utilisateur recherche une information sur un sujet en général. Il
existe de nombreuses façons de décrire le sujet. – Il est possible que l’information pertinente ne soit pas reconnue– Cette information peut ne satisfaire l’utilisateur que de façon
partielle.→ Recherche d'information
4. L’exploration – Le but n’est pas de répondre à une question en particulier, mais de
parcourir l’ensemble des données pour découvrir quels types d’informations concernant un sujet ou un domaine sont présents.
→ Navigation
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Définition (1/2)
• Aux origines du TAL, une barre placée trop haut– Des modèles génériques de compréhension des textes– Des problèmes à la fois théoriques et pratiques
• Couverture insuffisante des grammaires• Ambiguïtés non levées trop nombreuses• Difficultés pour collecter, mais aussi pour manipuler les connaissances
sémantiques et pragmatiques suffisantes• L'approche générique de compréhension est pour l'instant une utopie
• L'extraction d'information :– ne cherche plus à comprendre les textes dans leur ensemble– vise à extraire d'un texte donné des éléments pertinents
• Le type d'information pertinente pour une application donnée est définie à l'avance par le modèle
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Définition (2/2)
• "L'activité qui consiste à remplir automatiquement une banque de données à partir de textes écrits en langue naturelle" (T. Poibeau)
• Une approche guidée par le but : – Identifier les occurrences d'événements particuliers– En extraire les arguments impliqués– En donner une représentation structurée
• L'analyse s'effectue au niveau local• Seule une partie du texte est considérée
(10 à 20 % de texte utile pour un tâche spécifique)
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 1 (1/3)
• Cadres :
MATCH
équipe1 :équipe2 :
vainqueur :score :
BUTEURS
équipe1 :équipe2 :
EVENEMENT
sport :lieu :
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 1 (2/3) avec patrons sémantiques
• Lexique :
• Patrons :
Finlande → EQUIPECanada → EQUIPEHockey sur glace → SPORT...
EQUIPE1 battre2 EQUIPE3 → match.équipe1 = 1, match.équipe2 = 3, match.vainqueur = 1
NOMBRE1 a2 NOMBRE3 → match.score = 13SPORT1 → événement.sport = 1...
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
.
.
Exemple 1 (3/3) avec patrons sémantiques
• Entrée :La Finlande a battu le Canada 2 à 0 lors d'un match du premier tour du tournoi masculin de hockey sur glace.
• Résultat :
MATCH
équipe1 :équipe2 :
vainqueur :score :
BUTEURS
équipe1 :équipe2 :
EVENEMENT
sport :lieu :
FinlandeCanadaFinlande20
Hockey/glace?
.
.
??
normalisation
normalisation
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 2
• Texte : San Salvador, 19 avril 1989 (ACANEFE) – Le président du San Salvador
Alfredo Cristani a condamné l'assassinat d'origine terroriste du ministre de la justice Roberto Garcia Alvarado et a accusé du meurtre le Front de Libération National Farabundo Marti.
• Cadre :
INCIDENT
date :lieu :
auteur :victime :
19 avril 1989El Salvador : San Salvador (CITY)Front de Libération National Farabundo MartiRoberto Garcia Alvarado
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 3 : information (semi)structurée
Titre Responsable artistique Web senior (H/F)
Expérience au moins 5 ans dans l'univers du web première expérience significative en management
Qualités qualités relationnelles sensibilité marketing
Technique Photoshop Flash Dreamweaver CSS
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 4 : information structurée
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 4 : information structurée
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 4 : information structurée
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 4 : information structurée
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 4 : comment résumer les informations
AGRÉGATION
NORMALISATION
CHOIX
(minimum)
CALCUL
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 4 : le résultat
Calcul
NormalisationChoix
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemple 4 : le résultat
Agrégation
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Les variantes
• Morphologiques– capitale de l'Europe / capitale européenne
• Lexicales– la reine de Hollande / des PaysBas
• Syntaxiques– Moscou compte 9 millions d'habitants /
Les 9 millions d'habitants de Moscou
• Sémantiques– M. Ayoub a acheté le Phocéa /
Bernard Tapie a vendu le Phocéa à Mouna Ayoub– Adolf Hitler est mort / s'est suicidé
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Niveaux d'analyse utilisés (ou pas) 1/2
achèteraacheterachètent
a acheté
achats → achat
acheterrachatacheté
achat
Morphologie
La Finlande a battu le CanadaDET NAM AUX V DET NAM_____NP ___VP _____NP
SUJET OBJET
Syntaxe
Entités nomméesGaël Montfils a remporté l'open de Metz en 2009
PERSON LIEU(ville) DATE(année)
SUJET(battre, X) & OBJET(battre, Y) → match(X, Y), vainqueur(X), vaincu(Y)
Sémantique
fonctionsverbes
prénomsproduits
pays
Lexiques
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Niveaux d'analyse utilisés (ou pas) 2/2
Liste des codes pays :<ul> <li><b>EE</b> – <i>Estonie</i></li> <li><b>ET</b> – <i>Éthiopie</i></li> <li><b>FK</b> – <i>Maldives</i></li> <li><b>FR</b> – <i>France</i></li></ul>
Indications de mise en forme
Mécanismes d'inférence
"Federer a réalisé un superbe coup droit gagnant lors d'une balle de match en sa faveur."
point(P) & coup_gagnant(P, J)→ vainqueur(J, P)
balle_de_match(B, P)→ point(P)
match(J1, J2) & balle_de_match(B, J1) & vainqueur(J1, B)→ vainqueur(J1), vaincu(J2)
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Acquisition symbolique vs. statistique
• Le développement de patrons par des experts est long et coûteux
• Le traitement statistique a besoin de nombreux exemples annotés à la main par des experts... ce qui est long et coûteux
• Les arguments habituels...• Le problème est d'autant plus important que les systèmes
sont dédiés à une application donnée
• Les voies hybrides ont vite été explorées
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Acquisition semiautomatique de patrons
• Exemple 1 : les attentats– Utilisation d'entités déjà annotées :
• "Alfredo Crastani" est une <victime>
• "Al Qaïda" est un <auteur>
• "Les nationalistes" est un <auteur>
– Analyse syntaxique : collection de patrons• <sujet> <verbe_passif> (Alfredo Crastani a été assassiné)
• <sujet> <verbe_actif> (Al Qaïda a attaqué...)
• <sujet> <verbe verbe_inf> (Les nationalistes ont tenté de tuer...)
– Déduction de patrons sémantiques :• <victime> a été assassiné
• <auteur> a attaqué
• <auteur> a tenté de tuer
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Acquisition semiautomatique de patrons
• Exemple 2 : les achats d'entreprises– Partir d'un patron déjà déterminé :
• <company1> acheter <company2>
– Trouver des exemples d'entités instanciant ce patron• <company>IBM</company> a acheté <company>Lotus</company>▸ achat(IBM, Lotus)
– Collection de nouveaux patrons grâce aux connaissances acquises• Lotus a été acquis par IBM▸ <company2> être acquis <company1>
• L'achat de Lotus par IBM▸ L'achat de <company2> par <company1>
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Expansion de patrons
• Étude sur corpus • IBM cherche à embaucher de nouveaux candidats.
↳ embaucher(IBM, candidats)
• Dans Wordnet :IBM Société Entreprise commerciale Organisation
• Nouvelle règle : ↳ embaucher (<organisation>, candidats)
• Générateur de bruit et de silence
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Exemples d'applications
• Veille technologique, économique, politique– Outils d'aide à la décision– Mise en évidence d'éléments pertinents dans les textes– Maintenance possible par l'utilisateur
• Analyse de bases textuelles en génomique– Remplissage de bases de gènes, d'interaction entre les gènes, de liens
entre gènes et maladies...
• Analyse de courrier pour le support en ligne– Permet d'orienter les demandes vers le bon service– Améliore la productivité des employés– Problème du style de rédaction des courriers électroniques
• Analyse d'un fil d'agence de presse
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Applications au LIMSI
• Systèmes de questionsréponses (teaser)– En domaine ouvert : impossibilité de définir des patrons trop précis– Sur le Web : problèmes de propreté des documents, de respect de la
langue, de spam, de confiance, etc. (voir le cours de RI)– Utilisation de l'analyse syntaxique (un tout petit peu de sémantique)
et des entités nommées– Plus de détails le 21 janvier !
• Extraction d'événements et d'informations temporelles• Extraction de relations
– Plus de détails... après la pause.
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Les conférences MUC
• MUC : Message Understanding Conference
• 7 campagnes d'évaluation de 1987 à 1998• Financées par le DARPA
• Comme souvent, des événements moteurs de la recherche dans le domaine
• L'évolution des campagnes marquent l'évolution de la tâche d'extraction d'information
• Par la suite, conférences MET, IREX, ESTER, ACE, SenseEval puis SemEval, ...
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Les conférences MUC
• 1987 : session pionnière ; corpus au style télégraphique de la Navy ; pas de tâche claire
• 1989 : apparition du formulaire et des mesures d'évaluation (précision et rappel)
• 1991, 1992, 1993 : corpus journalistique ; affinement des techniques jusqu'au plafond des 60 % ; la tâche devenue trop complexe doit être fragmentée
• 1995, 1998 : structuration en soustâches (entités nommées, coréférence, formulaire des entités, formulaires des scénarios, puis formulaire de relation) ; nécessité de systèmes portables et modulaires
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Références
• Extraction automatique d'information, du texte brut au web sémantique, Thierry Poibeau, 2003.
• Information Extraction : Techniques and Challenges. R. Grishman. In SCIE’97 : International Summer School on Information Extraction, 1997.
• Information extraction (a multidisciplinary approach to an emerging information technology), M.T. Pazienza, 1997.
• Les actes des conférences MUC4 (1992), MUC5 (1993), MUC6 (1994), MUC7 (1995).
Xavier TannierXavier.Tannier@limsi.fr
Traitement Automatiquedes Langues
Master 2 Recherche
Reconnaissance desEntités Nommées
avec l'aide de Maud Ehrmann...
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Définitions (1/3)
• Entités nommées :– Unités lexicales particulières– Ex : noms de personnes, noms d'organisation, noms de lieux... dates,
unités monétaires, pourcentages...
• Reconnaissance des entités nommées :– Identifier ces unités dans un texte– Les catégoriser– Éventuellement, les normaliser
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Définitions (2/3)
L’ancien premier ministre socialiste Lionel Jospin a confirmé, jeudi 28 septembre, sur RTL, qu’il ne sera pas candidat à
l’investiture socialiste pour la présidentielle de 2007.
• Identification : Lionel Jospin, jeudi 28 septembre, RTL, 2007.• Catégorisation :
L’ancien premier ministre socialiste <PERS>Lionel Jospin </PERS> a confirmé, <DATE>jeudi 28 septembre</DATE>, sur <ORG>RTL</ORG>, qu’il ne sera pas candidat à l’investiture socialiste pour la présidentielle de <DATE>2007</DATE>.
• Normalisation : L. Jospin Lionel Jospin
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Définitions (3/3)
• Plus de finesse ?<PERS><FONCTION>L’ancien premier ministre socialiste</FONCTION> Lionel Jospin</PERS> a confirmé, <DATE val="20060928">jeudi 28 septembre </DATE>, sur <ORG type="radio">RTL</ORG>, qu’il ne sera pas candidat à l’investiture socialiste pour la présidentielle de <DATE val="2007">2007</DATE>.
• Le niveau dépend des capacités du systèmes mais aussi de l'application
• La reconnaissance d'entités nommées est issue de la tâche plus générale de l'extraction d'information
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
. .
Applications "internes" (1/2)
• Analyse syntaxique– Aide à la segmentation et à la morphosyntaxe
• HyOx, Inc.• Seat and Porsche had fewer registration in July 1996.
– Aide à l'analyse syntaxique• He will be replaced by Eliahu BenAlissar, a former israeli envoy to <LOC>Egypt</LOC> and <LOC>Jordan</LOC>.
• He will be replaced by Eliahu BenAlissar, a former israeli envoy to <LOC>Egypt</LOC> and <ORG>Likud party</ORG> politician.
– Acquisition de dépendances "sémantiques"• They met in <LOC>Baghdad</LOC>.
LOCATION
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Applications "internes" (2/2)
• Coréférence– <PERS>John</PERS> bought a new computer. It was able to process
XML.
• Traduction– <PERS>Jack London</PERS> was an American writer.
▸ Jack London était un auteur américain.– <LOC>London</LOC> is where I lived my best years.
▸ C'est à Londres que j'ai vécu mes meilleures années.
• Désambiguïsation lexicale
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Applications "directes"
• L'extraction d'information et la veille– Remplir des bases de données sur une entité ou un type d'entités
donnés– Signaler de nouveaux documents concernant cette entité ou ce type
d'entités
• La tâche de questionsréponses– Permet d'identifier le type de réponse attendu– cf. cours questionsréponses
• L'anonymisation
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Le choix des classes
• Gouvernées au départ par les conférences MUC...• Les valeurs sûres ("ENAMEX") :
– ORGANISATION– LIEU– PERSONNE
• Celles qui reviennent souvent :– TIMEX (date, expressions temporelles)– NUMEX (valeur monétaire, pourcentage...)
• On peut ajouter des classes et les subdiviser à l'infini• Certaines applications nécessitent une granularité
hétérogène
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Un exemple de hiérarchie (QALC, LIMSI)
Entité nommée
Nom propre
Nombre
Entité numérique
Expression temporelle
Personne
Organisation
Lieu
AgeDurée
Jour
PériodeDate
Poids
Vitesse
Volume
Longueur
Physique
Température
Montant financierPourcentage
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Identification des EN : preuves internes
• Majuscule (à manipuler avec précaution)• Prénoms ou marqueurs générationnels (personnes) :
– Lionel Jospin– L. Jospin– Benoît XVI
• Mots ou affixes de type classifiant (lieux et organisations) :– la Banque Populaire– Microsoft Inc.– L'avenue des ChampsElysées– le Mont Valérien
• Sigles ou esperluettes (organisations) :– Crédit Agricole SA
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Identification des EN : preuves externes
• Contexte d'apparition des entités nommées• Informations supplémentaires ou propriétés spécifiques
(titre, grade, ...)– Monsieur Jospin– Mme Denise– Général Leclerc– l'entraîneur Aimé Jacquet– le groupe SanofiAventis– the CocaCola company
• Souvent précisées lors de la première occurrence de l'EN dans le texte, d'où l'importance d'une propagation de ces informations
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Identification des EN : utilisation de lexiques
• En général, de simples listes de mots :– liste de prénoms– liste de villes, pays, fleuves...– liste de métiers– liste de marques– ...
• Construits manuellement ou automatiquement• Très utiles pour les noms de lieux, d'intérêt discuté pour les
autres• Confrontés au problème classique des ressources :
pas assez de mots, c'est inutile ; trop de mots, c'est ambigu
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Annotation des EN (1/2)
• Méthodes symboliques :– À base de règles contextuelles– Patrons d'extraction écrits à la main– Exploitation des informations :
• morphosyntaxiques• lexicales (issues des lexiques)
– Exemples :• Prénom + Mot avec une majuscule = Personne• Mot inconnu + "Inc." = Organisation• Nom Propre + '&' + Nom Propre = Organisation• Lieu + verbe d'action = Organisation
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Annotation des EN (2/2)
• Méthodes à base d'apprentissage :– Résultat : des règles logiques, un arbre de décision, un modèle
numérique...– Nécessitent de larges corpus annotés– Il n'est pas toujours possible d'intervenir sur les résultats après coup
• Approches mixtes– Apprentissage de règles puis révision par un expert– Élaboration de règles par un expert puis extension automatique de la
couverture
• Performances comparables mais avantages et inconvénients de chacun à prendre en compte
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Un système symbolique : LaSIE
• Gaizauskas et al., 1995 (MUC 6).• Sortie : représentation sémantique du texte en termes
d'entités nommées, de coréférence, de scénario...
• 3 phases :1. Traitement lexical : segmentation en mots, en parties du discours,
lemmatisation, étiquetage d'EN sur la base de lexiques et de déclencheurs.
2. Analyse sémantique : règles de grammaire hors contexte en Prolog (200 règles pour les EN)
3. Analyse du discours : représentation en instance, résolution de coréférence, propagation du typage des EN.
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Un système statistique : MENE
• Borthwick et al., 1998 (MUC 7).• Utilisation du principe de l'entropie (théorie de
l'information)• Nécessité de déterminer des traits (features) sur lesquels le
système apprend. Ici :– Traits binaires : capitale, caractères numériques, ...– Traits lexicaux, issus du contexte lexical (déclencheurs)– Traits textuels, sur la structure du texte (présence de l'unité dans le
titre, le résumé...)– Traits issus de dictionnaires (noms de personne, d'organisations,
d'universités, de régions, ...)– Traits externes (issus d'autres systèmes de reconnaissance d'EN)
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Un système mixte : [Lin 1998]
• Lin, 1998 (MUC 7).• Utilisation de l'analyseur syntaxique Minipar• Constitution d'une base de collocations par relation
syntaxique :– [review, N:nn:N, admission = 2]– [review, V:comp1:N, acquisition = 3]
• Détection des régularités du corpus pour déduire des règles :– Exemple : sur 33 occurrences de noms propres apparaissant en tant
que prémodifieurs du syntagme “managing director”, 26 sont des organisations.
– 3600 règles sont ainsi mises en place
• Utilisation d'un classifieur bayésien pour les entités inconnues
Xavier TannierXavier.Tannier@limsi.fr
Traitement Automatiquedes Langues
Master 2 Recherche
Résolution d'Anaphores
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Les ambiguïtés sémantiques : l'anaphore
• L'anaphore pronominale– Nicolas
1 était furieux. Il
1 était secondé par des imbéciles.
– Ségolène1 rencontra Martine
2 à un congrès. Elles
1+2 se réconcilièrent.
– Nicolas1 rencontra Dominique
2 dans un couloir. Il
? lui
? en voulait
toujours.
– Pierre1 empoisonna Sam
2. Il
2 mourut.
– Pierre1 empoisonna Sam
2. Il
1 fut arrêté.
• Autres– La cage du gorille s’ouvrit. Sa serrure devait être mal fermée.– Le gorille accélèra le pas vers le juge. Le quadrumane avait une idée
derrière la tête.– Je ne peux donner la suite de l’histoire. Cela serait pourtant délectable.
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
..
..
..
Résolution d'anaphore pronominale
• Indice n° 1 : le pronom est après son antécédent– Marie m'a dit qu'elle voulait partir.
– Elle m'a dit que Marie voulait partir.
– Pourtant : Dans ses rêves, Julien vole de continents en continents.
• Indice n° 2 : il doit y avoir correspondance en genre et en nombre– Quand Roméo a vu Juliette, il est tombé amoureux d'elle.– Quand Roméo a vu Juliette, ils sont tombés amoureux.– Encore fautil connaître le genre...
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
.
Algorithme très naïf
• Construction d'une liste des référents potentiels :– Du plus récent (contexte local courant) au plus ancien– Pour les pronoms : noms propres et syntagmes nominaux
• Lorsqu'on rencontre un pronom :– On prend le référent le plus récent– On vérifie les contraintes (genre, nombre, réflexivité)– Exemple d'autres contraintes : un pronom non réfléchi ne peut
référer à un élément du même groupe nominal complexeEdmond Hillary gravit l'Everest avec l'aide de son sherpa
– Si les contraintes sont vérifiées, on choisit ce référent– Sinon, on passe au suivant
• Dans la moitié des cas, un seul candidat proche est présent
.
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
.. .
..
Algorithme naïf (Hobbs 78)
• On effectue une analyse syntaxique de surface• Lorsqu'on rencontre un pronom (non réfléchi), on choisit le
dernier NP de la phrase courante– Mr. Smith saw a driver in his truck.
• À défaut, on choisit le premier NP des phrases précédentes– Mr. Smith saw a driver. He was in his truck.
• On vérifie bien sûr toujours les contraintes "de base"• Presque 90 % des anaphores pronominales sont résolues par
cet algorithme
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Le focus (Sidner 81)
• Distinction entre :– le focus acteur, l'élément jouant un rôle actif à un moment donné du
discours. C'est généralement le dernier constituant ayant eu le rôle d'agent dans la phrase.
– le focus du discours, l'élément le plus important à un moment donné du discours. Il est choisi parmi les éléments non agents.
– Un pronom en position d'agent se référera plutôt au focus acteur– Un pronom dans une autre position sera lié au focus du discours
• Exemples :– Jack drank the wine on the table. It was brown and round.– Jack saw Sam at the party. He went back to the bar to get another
drink.– Nicolas trahit Jacques. Il lui fit ainsi beaucoup de peine.
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Audelà : apports sémantiques
• Du plus "simple"...– The castle of Camelot remained the residence of the king until 536
when he moved it to London.– the king = personne on y réfère par "he"– the castle, the residence personne on y réfère par "it"– 536 = date ne peut pas bouger– castle = gros bâtiment ne peut pas bouger
• ... au plus pragmatique :– Si le lait cru ne convient pas à votre bébé, faitesle bouillir. (Jespersen)
– Pierre empoisonna Sam. Il mourut / Il fut arrêté.– Nicolas Sarkozy et Hugo Chavez se sont rencontrés ce matin. Le
président français s'est déclaré satisfait de l'entrevue.
Xavier TannierXavier.Tannier@limsi.fr
Traitement Automatiquedes Langues
Master 2 Recherche
Analyse Temporelle
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Temps et extraction d'information
• Résumé automatique– Résumé d'un document– Synthèse multidocuments
• Extraction d'événements– Je vous propose un rendezvous demain à 10h pour parler de...
• Extraction de connaissances– Jacques Chirac est président de la république ▸ Quand ?– Le mur de Berlin est tombé le 9 novembre 1989
[...] Peu après la chûte du mur de Berlin, ...
• Questionsréponses• Google timeline
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Ambiguïtés
• Les temps sont ambigus– Présent de narration vs. présent de généralité vs. Présent futur
proche– Imparfait "activité" vs. imparfait d'événements itératifs
• Il roulait le long du canal quand il vit le corps flottant dans l'eau sombre.• Il roulait le long du canal quand le temps le permettait.
– etc.
• Les signaux temporels sont ambigus• Réunion de 2 heures à 4 heures.• Il court après le temps, Tu tournes après la rivière, Il arrivera après 14 h.
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Expressions relatives et floues
• Comme pour les phénomènes de la langue, les expressions temporelles utilisent l'anaphore :– Par rapport au moment de l'énonciation (Hier, il y a 2 jours, bientôt)– Par rapport à un moment de référence (plus tôt, 2 jours avant, le
lendemain)– Par une date relative (le 11 février), la référence étant à déterminer– Mais aussi : trois jours de plus, moins souvent, ...
• La plupart des expressions sont flouesComment interpréter :
• "il y a 2 ans" ? "Une amitié de 30 ans" ?• "tous les mois" ?• "bientôt", "un instant", "J'arrive dans une seconde"... ?• "J'arrive dans 20 minutes" vs. "J'arrive dans 19 minutes"... ?
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Connaissances mises en œuvre
• Connaissances linguistiques– Morphologiques (temps des verbes...)– Lexicales (nature du prédicat concerné)– Syntaxiques (attachement des expressions temporelles aux
prédicats)
• Connaissances extralinguistiques– Moment d'énonciation– Connaissances du monde :
• Il s'est levé et a pris son petitdéjeuner (ordre temporel)• Il a bien bu et bien mangé (pas d'ordre)
– Connaissances "encyclopédiques" :• L'URSS s'est effrondrée après la chûte du mur de Berlin
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Temps et langue
• L'analyse du temps s'inscrit dans la compréhension globale des textes, et en particulier des événements décrits dans les textes. Elle est sujette aux problèmes :– de modalité ; l'événement atil eu / auratil vraiment lieu ?
• L'équipe de France voulait gagner la coupe en 2006.• La recherche pourrait obtenir plus de moyens.
– d'anaphore • Ce sera pour plus tard.• Jean arriva à la maison de Marie. Sur le chemin, il s'était arrêté pour
acheter quelques fleurs...a) Malheureusement, elles n'ont pas remonté le moral de la jeune femme.b) Il en avait pris des rouges, des blanches et des roses.
– etc.
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Temps et événements
• Les événements décrits (et que l'on souhaite "fixer" temporellement) peuvent être :– duratifs ou ponctuels– accomplis ou en cours– factuels ou non (ou peutêtre)
• Tous ces points ont une influence sur l'ordre entre les événements.
• Un exemple : le paradoxe de l'imperfectif (Dowty)– Keats écrivait (implique "il a écrit")– Keats écrivait un sonnet (n'implique PAS "il a écrit un sonnet")– (La poule traversait la rue quand elle a rencontré le camion)
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Qu'estce qu'une expression temporelle ?
• Une date– Absolue 27 juin 1996– Relative
• Par rapport au moment de l'énonciation il y a 2 ans• Par rapport à un moment de référence deux ans plus tôt
• Une durée– Absolue pendant 3 ans
– Relative• Par rapport au moment de l'énonciation depuis un an• Par rapport à un moment de référence depuis
• Une expression de fréquence tous les ans, le mardi
• Une expression plus complexe après la chute du mur
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Qu'estce qu'un événement ? (dans la vie)
• Ce qui se produit, arrive ou apparaît
• Un fait important ou marquant pour un individu ou une communauté humaine
• Fait qui a lieu à un moment précis / pendant une période donnée
• Fait qui attire l'attention par son caractère exceptionnel ou son importance dans l'actualité
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Qu'estce qu'un événement ? (dans la langue)
• Un verbe– Il faut distinguer les états des événements– Question de l'aspect (voir plus loin)
• Une entité nommée de type événement
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Entité nommée événement (1/2)
• Noms déverbaux– Le débarquement ← débarquer
• Listes finies d'amorces, déclencheurs d'événements– festival → 48ème festival de Cannes– guerre → Guerre de 100 ans
• Noms communs non déclencheurs d'événements habituellement– les caricatures du prophète (l'affaire des caricatures)– le 11 septembre (les attentats du 11 septembre)– le tsunami (razdemarée survenu en Asie en 2004)
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Entité nommée événement (2/2)
• Des noms de périodes historiques– l'ancien Régime– la Seconde Guerre mondiale
• Noms propres non déclencheurs d'événements habituellement (ex : toponymes)– Outreau– Tchernobyl– Columbine
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Qu'estce qu'un événement ? (dans la pratique 1/2)
• Pour une application temporelle, il faut décider avec les moyens que l'on a
• Par défaut, on a tendance à donner des définitions linguistiques :– Un verbe ? (mais verbes d'état et autres ?)– Un verbe avec ses extensions ? (mais jusqu'où aller ?)– Certains noms ? (mais lesquels)– Des adjectifs, des nombres ???
• Exemple (Hagège et Tannier)
– Tous les verbes– Tous les noms déverbaux– Tous les noms "temporellement marqués" dans les corpus
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Qu'estce qu'un événement ? (dans la pratique 2/2)
• On doit également considérer l'événement dans son contexte ; ce qui le déclenche, la phase préparatoire, les conséquences...
• Exemple : (Ritchie, 1979)Quand ils ont construit le pont...
• ... un architecte local a dessiné les plans.• ... ils ont utilisé les meilleurs matériaux.• ... ils ont résolu les problèmes de trafic.
Et puis...• Les commémorations du 11 novembre auront lieu le mercredi 12 novembre.• Nous sommes nés le même jour, mais pas la même année.• Les 6 ans de guerre civile ont fait des milliers de victimes.
noyau
phase préparatoire conséquences
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Événements qui n'ont (peutêtre) pas eu lieu (1/2)
• La modalité– La négation
Je n'ai jamais dit que je me retirais définitivement de la vie politique.
– Introduite par des verbes modaux ou d'autres indices lexicaux– Deux types de modalités :
• nécessité, prédiction, possibilité... ("épistémique")– Il est possible, probable, certain que...– Il a dû partir– Il peut être fatigué par le voyage
• permission, capacité, obligation... ("déontique")– Vous devez vous asseoir– Vous pouvez fumer
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Événements qui n'ont (peutêtre) pas eu lieu (2/2)
• Les événements introduits par des constructions conditionnelles "contrefactuelles"– Si le cours avait été annulé, je me serais levé plus tard.– Un peu plus, je manquais le train.
• Les événements à l'imperfectif– La poule traversait la route (quand elle a été heurtée par un camion)
• Question : comment représenter et ordonner temporellement des événements qui n'ont (peutêtre) pas lieu ?
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Sur les expressions temporelles et les événements:
Segmentation Caractérisation Normalisation
Niveau du syntagme
Niveau des phrases
Niveau des documents
Íngrid Betancourt Pulecio est née à Bogotá en Colombie, le 25 décembre 1961. Fille de Gabriel Betancourt, ancien Ministre de l’Éducation et Ambassadeur de Colombie auprès de l'UNESCO à Paris, et de Yolanda Pulecio, une ancienne reine de beauté du département colombien de Cundinamarca, devenue sénateur, elle a vécu la majeure partie de son enfance à l’étranger et surtout en France. Elle y étudie notamment à l’Institut d'Études Politiques de Paris, où enseigne alors Dominique de Villepin avec qui elle se lie d’amitié. Française par son premier mariage, elle milite pour les Droits de l'Homme et contre l’injustice, la corruption et les narcotrafiquants. Elle est otage des FARC depuis le 23 février 2002. Elle bénéficie depuis de l’appui de nombreux comités de soutien et d’une importante médiatisation. Une autre francocolombienne, Aïda Duvaltier, enlevée un an avant Ingrid Betancourt, a été retrouvée morte en 2006.
DATE19611225T-------W521
Étapes principales (1/4)
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Traitement raffiné des expressions temporelles et des événements Relations entre prédicats et
expressions temporelles Relations entre prédicats
Niveau de la phrase
Étapes principales (2/4)
Niveau du syntagme
Niveau des documents
Íngrid Betancourt Pulecio est née à Bogotá en Colombie, le 25 décembre 1961. Fille de Gabriel Betancourt, ancien Ministre de l’Éducation et Ambassadeur de Colombie auprès de l'UNESCO à Paris, et de Yolanda Pulecio, une ancienne reine de beauté du département colombien de Cundinamarca, devenue sénateur, elle a vécu la majeure partie de son enfance à l’étranger et surtout en France. Elle y étudie notamment à l’Institut d'Études Politiques de Paris, où enseigne alors Dominique de Villepin avec qui elle se lie d’amitié. Française par son premier mariage, elle milite pour les Droits de l'Homme et contre l’injustice, la corruption et les narcotrafiquants. Elle est otage des FARC depuis le 23 février 2002. Elle bénéficie depuis de l’appui de nombreux comités de soutien et d’une importante médiatisation. Une autre francocolombienne, Aïda Duvaltier, enlevée un an avant Ingrid Betancourt, a été retrouvée morte en 2006.
during
starts_with
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Traitement très raffiné Relations entre les prédicats des
différentes phrases Insertion de connaissances
diverses
Étapes principales (3/4)
Niveau des documents
Niveau des phrases
Niveau du syntagmeÍngrid Betancourt Pulecio est née à Bogotá en Colombie, le 25 décembre 1961. Fille de Gabriel Betancourt, ancien Ministre de l’Éducation et Ambassadeur de Colombie auprès de l'UNESCO à Paris, et de Yolanda Pulecio, une ancienne reine de beauté du département colombien de Cundinamarca, devenue sénateur, elle a vécu la majeure partie de son enfance à l’étranger et surtout en France. Elle y étudie notamment à l’Institut d'Études Politiques de Paris, où enseigne alors Dominique de Villepin avec qui elle se lie d’amitié. Française par son premier mariage, elle milite pour les Droits de l'Homme et contre l’injustice, la corruption et les narcotrafiquants. Elle est otage des FARC depuis le 23 février 2002. Elle bénéficie depuis de l’appui de nombreux comités de soutien et d’une importante médiatisation. Une autre francocolombienne, Aïda Duvaltier, enlevée un an avant Ingrid Betancourt, a été retrouvée morte en 2006.
before
before
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Étapes principales (4/4)
Niveau du syntagme
Niveau des phrases
Niveau des documents
Analyse multidocuments ?
Analyse "Intelligente" (inférence...) ?
"Backtracking" ?
Traitement Automatique des Langues → Analyse de Textes et Extraction d'Information Master 2 Recherche
Références
• Inderjeet Mani, James Pustejovsky and Robert Gaizauskas, The Language of Time: A Reader. 2005.
• Actes de TempEval 2007, Marc Verhagen et al.• Mark Steedman, Temporality. Chapitre de Handbook of Logic
and Language, Van Benthem & Ter Meulen, 1994.• Marc Moens et Mark Steedman, Temporal Ontology and
Temporal Reference, Computational Linguistics, 142, 1988