Introduction Definition Approches Extraction Terminologique Bilan
Terminologie computationnelleExtraction de termes
Master Linguistique informatique – Universite Paris Diderothttps://perso.limsi.fr/hamon/Teaching/P7/Termino-2018-2019/
Thierry [email protected]
LIMSI-CNRS &Institut Galilee - Universite Paris 13
Septembre – octobre 2018
1/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Plan
1 Introduction
2 Exemples de terminologies (domaine medical)3 Constitution de terminologie a partir de corpus
1 Extraction de termes2 Extraction de relations
2/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Plan
Approches pour l’extraction de termes
Outils pour l’extraction
3/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Introduction
Textes de specialite : Acces aux informations du domaine (medecine,aviation, electricite, etc.)
Exemple d’application : Extraction d’information a partir de de textes despecialite (articles scientifiques biomedicaux, dossiers patients, textes deloi, etc.) [Cohen et DF 2013, Meystre et al. 2008]
Points d’appui :
Utilisation d’exemple annotes
Augmentation de la couverture des textes grace a des ressourcesterminologiques
Thesaurus, nomenclature, glossaire, classificationExemples : MeSH, MedDRA, EPA, IUPAC, EngineeringInformation thesaurus
4/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
IntroductionExemple
22 yo male, h/o primitive neuroectodermal tumor with mets tobrainC0006104 and spineC0037949, transferred from Hospital1, initiallyin Dept1 and then transferred to the floor.He was initially diagnosed with a thoracicC0817096 gangliogliom/resected in 2012. He had backC0004600 pain in 2/04, seen at Dept2,and was found to have mets to brainC0006104 and spineC0037949.
en gras: termes issus de l’UMLS/ANAT
Mais ces ressources sont insuffisantes[Bodenreider et al. 2002, Mccray et al. 2002]
Il est souvent necessaire :
d’adapter les ressources terminologiques aux textes a traiter(probleme de couverture, d’adequation, etc.)
de creation de ressources specifiques(pas de ressources adaptees et decrivent les informations visees, etc.)
5/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
IntroductionExemple
22 yo male, h/o primitive neuroectodermal tumor with mets tobrainC0006104 and spineC0037949, transferred from Hospital1, initiallyin Dept1 and then transferred to the floor.He was initially diagnosed with a thoracicC0817096 gangliogliom/resected in 2012. He had backC0004600 pain in 2/04, seen at Dept2,and was found to have mets to brainC0006104 and spineC0037949.
en gras: termes issus de l’UMLS/ANAT
Mais ces ressources sont insuffisantes[Bodenreider et al. 2002, Mccray et al. 2002]
Il est souvent necessaire :
d’adapter les ressources terminologiques aux textes a traiter(probleme de couverture, d’adequation, etc.)
de creation de ressources specifiques(pas de ressources adaptees et decrivent les informations visees, etc.)
5/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
IntroductionExemple
22 yo male, h/o primitive neuroectodermal tumor with mets tobrainC0006104 and spineC0037949, transferred from Hospital1, initiallyin Dept1 and then transferred to the floor.He was initially diagnosed with a thoracicC0817096 gangliogliom/resected in 2012. He had backC0004600 pain in 2/04, seen at Dept2,and was found to have mets to brainC0006104 and spineC0037949.
en gras: termes issus de l’UMLS/ANAT
Mais ces ressources sont insuffisantes[Bodenreider et al. 2002, Mccray et al. 2002]
Il est souvent necessaire :
d’adapter les ressources terminologiques aux textes a traiter(probleme de couverture, d’adequation, etc.)
de creation de ressources specifiques(pas de ressources adaptees et decrivent les informations visees, etc.)
5/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
IntroductionExemple
22 yo male, h/o primitive neuroectodermal tumor with mets tobrainC0006104 and spineC0037949, transferred from Hospital1, initiallyin Dept1 and then transferred to the floor.He was initially diagnosed with a thoracicC0817096 gangliogliom/resected in 2012. He had backC0004600 pain in 2/04, seen at Dept2,and was found to have mets to brainC0006104 and spineC0037949.
en gras: termes issus de l’UMLS/ANAT
Mais ces ressources sont insuffisantes[Bodenreider et al. 2002, Mccray et al. 2002]
Il est souvent necessaire :
d’adapter les ressources terminologiques aux textes a traiter(probleme de couverture, d’adequation, etc.)
de creation de ressources specifiques(pas de ressources adaptees et decrivent les informations visees, etc.)
5/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Disposer de ressources terminologiquesadaptees a la tache
Identifier des variantes des termes[Jacquemin 1997, Nenadic et al. 2004, Spasic et al. 2013]
mets to brain and spine → spine metastasesC0684550
Inapplicable lorsqu’on ne dispose pas de terminologie ou que lestypes semantiques des entites recherchees ne sont pas presents dansles terminologies disponibles
Extraire les termes potentiels [Cabre et al. 2001, Pazienza et al. 2005]
et regrouper ces termes grace a des methodes d’acquisition derelations semantiques [Grabar et Hamon 2004]
6/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Disposer de ressources terminologiquesadaptees a la tache
Identifier des variantes des termes[Jacquemin 1997, Nenadic et al. 2004, Spasic et al. 2013]
mets to brain and spine → spine metastasesC0684550
Inapplicable lorsqu’on ne dispose pas de terminologie ou que lestypes semantiques des entites recherchees ne sont pas presents dansles terminologies disponibles
Extraire les termes potentiels [Cabre et al. 2001, Pazienza et al. 2005]
et regrouper ces termes grace a des methodes d’acquisition derelations semantiques [Grabar et Hamon 2004]
6/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Exemple
22 yo male , h/o primitive neuroectodermal tumor with mets to
brainC0006104 and spineC0037949 , transferred from Hospital1,
initially in Dept1 and then transferred to the floor. He was initially
diagnosed with a thoracicC0817096 gangliogliom /resected in 2012.
He had backC0004600 painC0004604 in 2/04, seen at Dept2, and was
found to have mets to brainC0006104 and spineC0037949 .
en gras: termes issus de l’UMLS/ANAT – box : termes candidats
7/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Un terme ou non ?
Qu’est-ce qui n’est pas un terme ?
Qu’est-ce qu’un terme ?
8/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Un terme ou non ?
Dermatose acantholytique
Crampes de l’abdomen
Predisposition accident
Dettes a recouvrer
Acupuncture, traitement
Acides acetiques
Acetiques, acides
Syndrome Adams Strokes
Adams Strokes, syndrome
9/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Un terme ou non ?
Onzieme paire cranienne
Huitieme paire cranienne, maladie
Troubles de l’adaptation avec perturbation mixte des emotionset des conduites
Malformations induites par les composes chimiques
Syndrome de secretion inappropriee d’hormone de croissance
Nucleoside-2’,3’-cyclic-phosphate 3’-nucleotido-hydrolase
Desoxyribonuclease (ATP-andD-adenosyl-L-methionine-dependante)
10/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Un terme ou non ?A. Rey. La terminologie. Noms et notions. Que sais-je ?
La terminologie exclue :
marques d’enonciation :
pronoms personnelsadjectifs possessifsadverbes de temps et de lieu
mots “ grammaticaux ”
verbes (sauf si assimilables a un nom)
11/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Ou sont les termes ?
Combined action of two transcription factors regulates genesencoding spore coat proteins of Bacillus subtilis.During sporulation of Bacillus subtilis, spore coat proteinsencoded by cot genes are expressed in the mother cell anddeposited on the forespore. Transcription of the cotB, cotC,and cotX genes by final sigma(K) RNA polymerase is activatedby a small, DNA-binding protein called GerE. The promoterregion of each of these genes has two GerE binding sites. 5’deletions that eliminated the more upstream GerE site decreasedexpression of lacZ fused to cotB and cotX by ...
12/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Ou sont les termes ?
Combined action of two transcription factors regulates genesencoding spore coat proteins of Bacillus subtilis.During sporulation of Bacillus subtilis, spore coat proteinsencoded by cot genes are expressed in the mother cell anddeposited on the forespore. Transcription of the cotB, cotC,and cotX genes by final sigma(K) RNA polymerase is activatedby a small, DNA-binding protein called GerE. The promoterregion of each of these genes has two GerE binding sites. 5’deletions that eliminated the more upstream GerE site decreasedexpression of lacZ fused to cotB and cotX by ...
12/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Ou sont les termes ?
En cas d’intolerance aux inhibiteurs de l’enzyme deconversion, dans le cadre de l’insuffisance cardiaquechronique congestive, l’essai des Veterans (V-HeFT II) amontre la possibilite d’utiliser comme traitementsubstitutif l’association hydralazine (37,5 mg/j) -dinitrate d’isosorbide (20 mg/j). Les antagonistes desrecepteurs de l’angiotensine II (losartan) mis sur lemarche avec l’indication hypertension arterielle sontactuellement en cours d’etude pour evaluer leur effettherapeutique en termes de morbidite ou mortalite dansl’insuffisance cardiaque.
13/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Ou sont les termes ?
En cas d’intolerance aux inhibiteurs de l’enzyme deconversion, dans le cadre de l’insuffisance cardiaquechronique congestive, l’essai des Veterans (V-HeFTII) a montre la possibilite d’utiliser comme traitementsubstitutif l’association hydralazine (37,5 mg/j) -dinitrate d’isosorbide (20 mg/j). Les antagonistes desrecepteurs de l’angiotensine II (losartan) mis sur lemarche avec l’indication hypertension arterielle sontactuellement en cours d’etude pour evaluer leur effettherapeutique en termes de morbidite ou mortalitedans l’insuffisance cardiaque.
14/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Vers une acquisition automatiqueTerminologie descriptive
Traditionnellement : Methodes semi-automatiques d’acquisitionterminologique destinees a aider les terminologues a construire desterminologies
1 Constitution d’une liste de termes candidats
2 Mise en relation des termes candidats
3 Validation par un terminologue des informations extraites→ Definition de fiches terminologiques
15/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Corpus
Etiquetagemorpho-syntaxique
Lemmatisation
Extraction de termesListe determes
candidats
Terminologueou
utilisateur
Mise enrelation
des termescandidats
Reseauterminologique
Terminologueou
utilisateur
16/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Corpus
Etiquetagemorpho-syntaxique
Lemmatisation
Extraction de termesListe determes
candidats
Terminologueou
utilisateur
Mise enrelation
des termescandidats
Reseauterminologique
Terminologueou
utilisateur
16/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Corpus
Etiquetagemorpho-syntaxique
Lemmatisation
Extraction de termesListe determes
candidats
Terminologueou
utilisateur
Mise enrelation
des termescandidats
Reseauterminologique
Terminologueou
utilisateur
16/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Corpus
Etiquetagemorpho-syntaxique
Lemmatisation
Extraction de termesListe determes
candidats
Terminologueou
utilisateur
Mise enrelation
des termescandidats
Reseauterminologique
Terminologueou
utilisateur
16/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Corpus
Etiquetagemorpho-syntaxique
Lemmatisation
Extraction de termesListe determes
candidats
Terminologueou
utilisateur
Mise enrelation
des termescandidats
Reseauterminologique
Terminologueou
utilisateur
16/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Corpus
Etiquetagemorpho-syntaxique
Lemmatisation
Extraction de termesListe determes
candidats
Terminologueou
utilisateur
Mise enrelation
des termescandidats
Reseauterminologique
Terminologueou
utilisateur
16/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Corpus
Etiquetagemorpho-syntaxique
Lemmatisation
Extraction de termes
Ressources terminologiquesRegles d’extraction
Expressions regulieresCooccurrences
Liste determes
candidats
Terminologueou
utilisateur
Mise enrelation
des termescandidats
Patrons lexico-syntaxiquesInduction lexicale
Regles de substitutionApproche distributionnelleRessources terminologiques
Reseauterminologique
Terminologueou
utilisateur
17/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Vers une acquisition automatique
Principalement des approches linguistique a base de regles (prise encompte des contraintes theoriques de constitution de terminologies)
Utilisation de ces methodes
de maniere completement automatique
pour l’adaptation de ces ressources
dans le cadre d’applications reelles
18/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Extraction terminologique
Corpus
Etiquetagemorpho-syntaxique
Lemmatisation
Extraction de termesListe determes
candidats
Terminologueou
utilisateur
Mise enrelation
des termescandidats
Reseauterminologique
Terminologueou
utilisateur
19/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Extraction terminologique
Corpus
Etiquetagemorpho-syntaxique
Lemmatisation
Extraction de termesListe determes
candidats
Terminologueou
utilisateur
Mise enrelation
des termescandidats
Reseauterminologique
Terminologueou
utilisateur
19/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Reconnaissance vs. extraction de termes
Reconnaissance : Projection des termes issus d’uneterminologie sur un texte
Utilisation de methodes plus ou moins complexes (projection directe,
calcul de variantes terminologiques, distance semantique, etc.)
Extraction : Decouverte des termes directement dans le corpus
Identification des syntagmes (nominaux) pouvant etre des termesCalcul de
la cohesion de leurs composants (unithood)leur caractere terminologique (termhood)
[Kageura et Umino 1996]
20/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Textes
lemmatisation+ POS tagging
Extraction de termes
approches a base de regles
Termescandidats
Tri des termes
frequence
longueur des termes
C-Value
Termes
candidats
ordonnees
Validationpar un
terminologue
22 yo male , h / o primitive neuroectodermal tumor with mets tobrain and spine , transferred from Hospital1 , initially in Dept1 andthen transferred to the floor .He was initially diagnosed with a thoracic gangliogliom / resected in2012 .He had back pain in 2 / 04 , seen at Dept2 , and was found to havemets to brain and spine .
21/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Textes
lemmatisation+ POS tagging
Extraction de termes
approches a base de regles
Termescandidats
Tri des termes
frequence
longueur des termes
C-Value
Termes
candidats
ordonnees
Validationpar un
terminologue
22CD yoJJ maleNN ,, hNN /SYM oNN primitiveJJ neuroectodermalJJtumorNN withIN metNNS toTO brainNN andCC spineNN ,, transferVBNfromIN Hospital1NNP ,, initiallyRB inIN Dep1NNP andCC thenRB
transferVBN toTO theDT floorNN ..HePRP beVBD initiallyRB diagnoseVBN withIN aDT thoracicJJgangliogliomNN /SYM resecteVBN inIN 2012CD ..HePRP haveVBD backJJ painNN inIN 2CD /SYM 04CD ,, seeVBN atINDept2NNP ,, andCC beVBD findVBN toTO haveVB metNNS toTO
brainNN andCC spineNN ..
21/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Textes
lemmatisation+ POS tagging
Extraction de termes
approches a base de regles
Termescandidats
Tri des termes
frequence
longueur des termes
C-Value
Termes
candidats
ordonnees
Validationpar un
terminologue
yo male thoracic gangliogliomh back paino metsprimitive neuroectodermal tumor brainmets spinebrain floorspine...
21/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Textes
lemmatisation+ POS tagging
Extraction de termes
approches a base de regles
Termescandidats
Tri des termes
frequence
longueur des termes
C-Value
Termes
candidats
ordonnees
Validationpar un
terminologue
f l Cv1 f l Cv1
yo male 1 1 1.58 spine 2 1 2h 1 1 1 floor 1 1 1o 1 1 0 thoracic gangliogliom 1 2 1.58mets 2 1 2 back pain 1 2 1.58brain 2 1 2primitive neuroectodermal tumor 1 3 2.32...
21/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Processus de construction d’une terminologie
Textes
lemmatisation+ POS tagging
Extraction de termes
approches a base de regles
Termescandidats
Tri des termes
frequence
longueur des termes
C-Value
Termes
candidats
ordonnees
Validationpar un
terminologue
f l Cv1 f l Cv1
yo male 1 1 1.58 spine 2 1 2h 1 1 1 floor 1 1 1o 1 1 0 thoracic gangliogliom 1 2 1.58mets 2 1 2 back pain 1 2 1.58brain 2 1 2primitive neuroectodermal tumor 1 3 2.32...
21/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Approches pour l’extraction de termesAmorcer
decoupage de la phrase surles frontieres syntaxiques des syntagmes terminologiques
pronoms, verbes conjuguesprepositionscoordinationponctuation
reperage de connecteurs grammaticauxde, de l’, du, etc.
reperage d’ancres lexicalesmots “ centraux ” deja connus
22/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Approches pour l’extraction de termesExtraire
recherche de segments repetes dans une fenetre de n mots
recherche de patrons syntaxiques de groupes nominaux
recherche de patrons syntaxiques de groupes nominaux etadjectivaux
application de patrons syntaxiques de bitermes
reperage de syntagmes repetes autour de connecteursgrammaticaux
reperage de syntagmes repetes autour d’ancres lexicales
23/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Approches pour l’extraction de termesAffiner
decomposition en syntagmes minimaux
filtres statistiques
filtres lexicaux
application de regles de variation
fusion de variantes
24/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Approches pour l’extraction de termes
Expressions regulieres et filtrage statistiqueATR & C-Value [Frantzi et al. 2000]
Termes et variantes
Bitermes et variantes & mesures statistiques (ACABIT)[Daille 1995]
Grammaire de termes et meta-regles pour l’appariement desvariantes terminologiques (Faster) [Jacquemin 1997]
Approche contrastiveExtraction des termes autour de pivots lexicaux specialises(TermoStat) [Drouin 2002]
Analyse syntaxique et desambiguısation endogene
Analyse superficielle a base de regles, en cascade (Lexter, Syntex)[Bourigault et al. 2005]
Analyse superficielle a base de patrons minimaux (YATEA )[Aubin et Hamon 2006]
25/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Acabit
Beatrice Daille (1995), Reperage et extraction de terminologie parune approche mixte statistique et linguistique. TAL 36(1-2), p.101-118.
Approche mixte linguistique et statistique
Bitermes et leurs variantes
Extraction de candidats termes a partir d’un corpusprealablement etiquete et desambiguıse
26/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Acabit
L’acquisition terminologique dans Acabit se deroule en deuxetapes :
1 Analyse linguistique et regroupement de variantes :
Corpus etiqueteTransducteurs pour la recherche de sequences nominalesExtraction de candidats termes :
N Adj : station terrienneN1 prep N2 : liaison par satelliteN1 N2 : diode tunnel
Decomposition en candidats termes binaires :
reseau de transit a satellite→ reseau de transit→ reseau a satellite
27/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Acabit
L’acquisition terminologique dans Acabit se deroule en deuxetapes :
2. Filtrage statistique :
Mesures statistiques pour le tri de candidats termes binairesCalcul de scores et de distances sur les composants descandidats termes bases sur les frequenceslog-likehood ratio (Dunning, 1993)le mieux pour retenir les termes candidats sans etre sensibleaux frequences
28/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Lexter
Didier Bourigault (1993), Analyse syntaxique locale pour lereperage de termes complexes dans un texte. TAL, p. 105-117Analyse endogene (pas de connaissance du domaine)
Extraction de candidats termes a partir d’un corpus etiqueteet desambiguıse
Analyse syntaxique de surface
Reperage et analyse des syntagmes nominaux
Organisation de l’ensemble des candidats termes en un reseau
29/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Lexter
L’acquisition des termes est effectuee en trois etapes :
1 Extraction de syntagmes nominaux maximaux
2 Decomposition de syntagmes maximaux
3 Module de structuration
30/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Lexter1. Extraction de syntagmes nominaux maximaux
Reperage de frontieres syntaxiquesverbes conjugues, pronoms, conjonctions de subordination, ...
Extraction de syntagmes nominaux maximaux
Apprentissage endogene sur corpus
Informations de sous-categorisation des noms et des adjectifs,propres aux corpus
Resolution de cas d’ambiguıte de rattachement prepositionnel
Dans un corpus, le nom pression sous-categorise la prepositiona :
pression a l’aspirationpression au refoulement
31/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Lexter2. Decomposition de syntagmes maximaux
Decomposition recursive de syntagmes nominaux maximaux
Tete et expansion syntaxiques
stenose severe du tronc commun de l’artere coronaire gauche
artère coronairesténose sévère
Tête Expansion
Expansion
Expansion
Tête
gauche
Expansion
Expansion
Tête
tronc commun
Tête
ExpansionTête Tête
32/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Lexter2. Decomposition de syntagmes maximaux
Apprentissage endogene sur corpus
Ambiguıte de rattachement au sein de ces groupes nominaux
Candidats termes :
syntagmes maximauxleurs constituants
33/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Lexter3. Module de structuration
Construction d’un reseau de candidats termes
Relation de chaque candidat a ceux dont il est tete ouexpansionstenose / stenose severe...
Calcul d’un coefficient de productivitedensite du reseau autour d’un candidat terme
34/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
LexterExemple de sortie Lexter
En entree :<Prep>En <NomFS>presence <Prep>de <NomFS>stenose
<Adj?S>severe <Prep>de <DetMS>le <NomMS>tronc <Adj?S>commun
<Prep>de <Det?S>l’ <NomFS>artere <Adj?S>coronaire
<Adj?S>gauche <Typo>, <Det?S>on <Pro>se <VCONJ>contente
<Prep>d’ <Det>un <Nom?S>minimum <Prep>d’ <NomFP>injections
<Typo>,
Extraction de candidats termes :−→ (stenose severe) du (tronc commun de l’((arterecoronaire) gauche))−→ minimum d’injections
35/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStat(Drouin 2002)
Recours a des tests statistiques :
Comparaison du lexique du corpus (de specialite) avec uncorpus de reference (general)Calcul d’un indice de specificite (Lebart et Salem 1994) associea chaque mot
Identification de pivots lexicaux specialises (PLS)
Identifier les termes simples les plus representatifs du corpus despecialite par contraste avec un corpus general
36/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStatExemple (identification de PLS)
For/IN Dual/JJ MSA/NNP sites/NNS (/( line/NN sites/NNSwith/IN high/JJ OADM/NNP counts/NNS )/SYM shown/VBNin/IN Figure/NN 4/CD -/: 12/CD ,/, the/DT signal/NN flow/NNis/VBZ the/DT same/JJ except/IN that/DT a/DT second/JJMSA/NNP (/( DSCM/NNP or/CC OADM/NNP filter/NN )/SYMis/VBZ placed/VBN between/IN the/DT Booster18/NNP and/CCBooster21/NNP circuit/NN packs/NNS ./.
(exemple issu de Drouin 2002)
37/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStatExemple (identification de PLS)
For/IN Dual/JJ MSA/NNP sites/NNS (/( line/NN sites/NNSwith/IN high/JJ OADM/NNP counts/NNS )/SYM shown/VBNin/IN Figure/NN 4/CD -/: 12/CD ,/, the/DT signal/NN flow/NNis/VBZ the/DT same/JJ except/IN that/DT a/DT second/JJMSA/NNP (/( DSCM/NNP or/CC OADM/NNP filter/NN)/SYM is/VBZ placed/VBN between/IN the/DT Booster18/NNPand/CC Booster21/NNP circuit/NN packs/NNS ./.
(exemple issu de Drouin 2002)
37/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStat
PLS : amorce pour l’extraction de termesUtilisation des frontieres de termes (Bourigault 1994) pourextraire les termes candidats :
Frontiere a droite : le PLS (tete du terme)Frontiere a gauche : un element du texte ne pouvantapparaıtre dans un terme
Elimination des termes candidats construits a partir de tetemoins pertinente pour le domaine
38/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStatExemple (extraction des termes)
For/IN Dual/JJ MSA/NNP sites/NNS (/( line/NN sites/NNSwith/IN high/JJ OADM/NNP counts/NNS )/SYM shown/VBNin/IN Figure/NN 4/CD -/: 12/CD ,/, the/DT signal/NN flow/NNis/VBZ the/DT same/JJ except/IN that/DT a/DT second/JJMSA/NNP (/( DSCM/NNP or/CC OADM/NNP filter/NN)/SYM is/VBZ placed/VBN between/IN the/DT Booster18/NNPand/CC Booster21/NNP circuit/NN packs/NNS ./.
(exemple issu de Drouin 2002)
39/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStatExemple (extraction des termes)
For/IN Dual/JJ MSA/NNP sites/NNS (/( line/NNsites/NNS with/IN high/JJ OADM/NNP counts/NNS)/SYM shown/VBN in/IN Figure/NN 4/CD -/: 12/CD ,/, the/DTsignal/NN flow/NN is/VBZ the/DT same/JJ except/IN that/DTa/DT second/JJ MSA/NNP (/( DSCM/NNP or/CCOADM/NNP filter/NN )/SYM is/VBZ placed/VBN between/INthe/DT Booster18/NNP and/CC Booster21/NNPcircuit/NN packs/NNS ./.
(exemple issu de Drouin 2002)
39/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStatExemple (extraction des termes)
For/IN Dual/JJ MSA/NNP sites/NNS (/( line/NNsites/NNS with/IN high/JJ OADM/NNP counts/NNS)/SYM shown/VBN in/IN Figure/NN 4/CD -/: 12/CD ,/, the/DTsignal/NN flow/NN is/VBZ the/DT same/JJ except/IN that/DTa/DT second/JJ MSA/NNP (/( DSCM/NNP or/CCOADM/NNP filter/NN )/SYM is/VBZ placed/VBN between/INthe/DT Booster18/NNP and/CC Booster21/NNPcircuit/NN packs/NNS ./.
(exemple issu de Drouin 2002)
39/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStatExemple (extraction des termes)
For/IN [ Dual/JJ MSA/NNP ] sites/NNS (/( [ line/NN ]sites/NNS with/IN [ high/JJ OADM/NNP ] counts/NNS)/SYM shown/VBN in/IN Figure/NN 4/CD -/: 12/CD ,/, the/DTsignal/NN [ flow/NN ] is/VBZ the/DT same/JJ except/INthat/DT a/DT second/JJ [ MSA/NNP ] (/( [ DSCM/NNP ]or/CC [ OADM/NNP ] filter/NN )/SYM is/VBZ placed/VBNbetween/IN the/DT [ Booster18/NNP ] and/CC[ Booster21/NNP ] circuit/NN packs/NNS ./.
(exemple issu de Drouin 2002)
39/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStatExemple (extraction des termes)
For/IN [ [ Dual/JJ MSA/NNP ] sites/NNS ] (/( [ [ line/NN ]sites/NNS ] with/IN [ [ high/JJ OADM/NNP ] counts/NNS ])/SYM shown/VBN in/IN Figure/NN 4/CD -/: 12/CD ,/, the/DTsignal/NN [ flow/NN ] is/VBZ the/DT same/JJ except/INthat/DT a/DT second/JJ [ MSA/NNP ] (/( [ DSCM/NNP ]or/CC [ [ OADM/NNP ] filter/NN ] )/SYM is/VBZ placed/VBNbetween/IN the/DT [ Booster18/NNP ] and/CC [[ Booster21/NNP ] circuit/NN ] packs/NNS ./.
(exemple issu de Drouin 2002)
39/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStatExemple (extraction des termes)
For/IN [ [ Dual/JJ MSA/NNP ] sites/NNS ] (/( [ [ line/NN ]sites/NNS ] with/IN [ [ high/JJ OADM/NNP ] counts/NNS ])/SYM shown/VBN in/IN Figure/NN 4/CD -/: 12/CD ,/, the/DTsignal/NN [ flow/NN ] is/VBZ the/DT same/JJ except/INthat/DT a/DT second/JJ [ MSA/NNP ] (/( [ DSCM/NNP ]or/CC [ [ OADM/NNP ] filter/NN ] )/SYM is/VBZ placed/VBNbetween/IN the/DT [ Booster18/NNP ] and/CC [ [[ Booster21/NNP ] circuit/NN ] packs/NNS ] ./.
(exemple issu de Drouin 2002)
39/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
TermoStat
Tri des termes candidats suivant un indice terminologique(iTer)Prise en compte de
la frequencela longueur du termela frequence de la tete potentielle d’un terme candidat
40/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
ATR(Frantzi et al 2000)
Combinaison d’informations linguistiques et statistiques
Filtrage linguistique : sequences de mots caracteristiques destermes, composees a partir de categories morpho-syntaxiques
Noun+Noun
(Adj|Noun)+Noun
((Adj|Noun)+|((Adj|Noun)*(NounPrep)?)(Adj|Noun)*)Noun
Anti-dictionnaire : great, numerous, several, year, just, good,etc.
Filtrage statistique : C-value
Prend en compte des informations statistiques associees auxtermesMesure l’independance des termesPrivilegie les termes longs et qui ne sont pas des composantd’autres termes
41/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
ATR(Frantzi et al 2000)
C−value(t) =
{log2(|t|)× f (t) si t n′est pas inclus dans un termelog2(|t|)× (f (t)− 1
P(Tt)
∑t′∈Tt
f (t ′)) sinon
frequence du terme (f (t))
nombre de mot du terme (|t|)frequence du terme comme composant d’un terme plus grand(f (t ′))
Tt ensemble des termes incluant t
nombre de termes plus grand incluant le terme (P(Tt))
Variante : NC-value (Maynard et Ananiadou 2001) – prise encompte des termes d’un thesaurus par calcul d’une distancesemantique
42/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
YATEAYet Another Term ExtrActor
(Aubin et Hamon, 2006)
Extration de termes sur des textes francais et anglais
Analyse syntaxique superficielle (Tete / Modifeur) a l’aide
de patrons minimaux appliques recursivementde l’apprentissage endogene
Rejet des groupes nominaux non analysables
Association de mesures statistiques (Frequences, C-Value1,C-Value*, etc.) [Hamon et al. 2014]
Module CPAN http://search.cpan.org/~thhamon/Lingua-YaTeA/
Developpement dans le cadre du projet ALVIS
Description de l’analyse a partir de fichiers de configuration
Possibilite d’adaptation a un domaine : BioYATEA [Golik et al. 2013]
43/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
YATEA (2)
Identification de groupes nominaux a partir de frontieresmorpho-syntaxiques
22CD yoJJ maleNN ,, hNN/SYMoNN primitiveJJneuroectodermalJJ tumorNN withIN metsNNS toTO brainNN
andCC spineNN ,, transferredVBN fromIN Hospital1NNP ,,initiallyRB inIN Dept1NNP andCC thenRB transferredVBN toTO
theDT floorNN .. HePRP wasVBD initiallyRB diagnosedVBN withIN
aDT thoracicJJ gangliogliomNN //resectedVBN inIN 2012CD ..HePRP hadVBD backJJ painNN inin 2CD/SYM04CD ,, seenVBN atINDept2NNP ,, andCC wasbe foundVBN toTO haveVB metsNNS toTO
brainNN andCC spineNN ..
44/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
YATEA (2)
Identification de groupes nominaux a partir de frontieresmorpho-syntaxiques
22CD yoJJ maleNN ,, hNN/SYMoNN primitiveJJneuroectodermalJJ tumorNN withIN metsNNS toTO brainNN
andCC spineNN ,, transferredVBN fromIN Hospital1NNP ,,initiallyRB inIN Dept1NNP andCC thenRB transferredVBN toTO
theDT floorNN .. HePRP wasVBD initiallyRB diagnosedVBN withIN
aDT thoracicJJ gangliogliomNN //resectedVBN inIN 2012CD ..HePRP hadVBD backJJ painNN inin 2CD/SYM04CD ,, seenVBN atINDept2NNP ,, andCC wasbe foundVBN toTO haveVB metsNNS toTO
brainNN andCC spineNN ..
44/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
YATEA (3)
Analyse syntaxique des groupes nominaux pour en deduire destermes candidats
1. Identification des termes candidats decrits par des patronsd’analyse syntaxique minimaux
NNJJ
M T
(< T > : tete du syntagme, < M > : modifeur de la tete)
neuroectodermal tumor → (neuroectodermal< M >tumor< T >)
tumorneuroectodermal
M T
shortness of breath → shortness< T > of breath< M >
(of) breathshortness
T M
45/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement
Exemple : primitive neuroectodermal tumor
Exploitation du terme neuroectodermal tumordeja analyse
primitive
tumorneuroectodermal
M T
Simplification temporaire : primitiveJJ tumorNN
Application du patron :NNJJ
M T
→tumorprimitive
M T
Redeploiement :
tumorneuroectodermal
M Tprimitive
MT
46/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement
Exemple : primitive neuroectodermal tumor
Exploitation du terme neuroectodermal tumordeja analyse
primitive
tumorneuroectodermal
M T
Simplification temporaire : primitiveJJ tumorNN
Application du patron :NNJJ
M T
→tumorprimitive
M T
Redeploiement :
tumorneuroectodermal
M Tprimitive
MT
46/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement
Exemple : primitive neuroectodermal tumor
Exploitation du terme neuroectodermal tumordeja analyse
primitive tumorneuroectodermal
M T
Simplification temporaire : primitiveJJ tumorNN
Application du patron :NNJJ
M T
→tumorprimitive
M T
Redeploiement :
tumorneuroectodermal
M Tprimitive
MT
46/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement
Exemple : primitive neuroectodermal tumor
Exploitation du terme neuroectodermal tumordeja analyse
primitive tumorneuroectodermal
M T
Simplification temporaire : primitiveJJ tumorNN
Application du patron :NNJJ
M T
→tumorprimitive
M T
Redeploiement :
tumorneuroectodermal
M Tprimitive
MT
46/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement
Exemple : primitive neuroectodermal tumor
Exploitation du terme neuroectodermal tumordeja analyse
primitive tumorneuroectodermal
M T
Simplification temporaire : primitiveJJ tumorNN
Application du patron :NNJJ
M T
→tumorprimitive
M T
Redeploiement :
tumorneuroectodermal
M Tprimitive
MT
46/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement
Exemple : primitive neuroectodermal tumor
Exploitation du terme neuroectodermal tumordeja analyse
primitive tumorneuroectodermal
M T
Simplification temporaire : primitiveJJ tumorNN
Application du patron :NNJJ
M T
→tumorprimitive
M T
Redeploiement :
tumorneuroectodermal
M Tprimitive
MT
46/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Ordonnancement/Filtrage des termes
Textes
lemmatisation+ POS tagging
Extraction de termes
approches a base de regles
Termescandidats
Tri des termes
frequence
longueur des termes
C-Value
Termes
candidats
ordonnees
Validationpar un
terminologue
Difficultes:
identifier la caractere terminologique des syntagmes extraitsordonner les termes candidats pour identifier les termes dudomaine
→ Definition de metriques pour le tri des termes candidats
47/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Ordonnancement/Filtrage des termes
Textes
lemmatisation+ POS tagging
Extraction de termes
approches a base de regles
Termescandidats
Tri des termes
frequence
longueur des termes
C-Value
Termes
candidats
ordonnees
Validationpar un
terminologue
Difficultes:
identifier la caractere terminologique des syntagmes extraitsordonner les termes candidats pour identifier les termes dudomaine
→ Definition de metriques pour le tri des termes candidats
47/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Metriques pour le tri des termes extraits
Frequence : metrique la plus communement considereeimpact variable: degradation du rappel (beaucoup de termes avec une
occurrence) ou la precision
[Justeson et Katz 1995, Frantzi et al. 2000, Dowdall et al. 2002]
Longueur des termes : les termes longs sont moins importantAugmentation legere de la precision quand combinee a la frequence: les
termes simples ou les termes complexes courts sont preferes [Drouin 2002]
C-Value: Termes complexes longs qui ne sont pas inclus dansd’autres termes sont preferes [Frantzi et al. 1997, Frantzi et al. 2000]
C−Value1(t) =
{log2(|t|+ 1) · f (t) si t n’est pas inclus dans un termelog2(|t|+ 1) · (f (t)− 1
P(Tt )
∑t′∈Tt
f (t′)) sinon
Amelioration mitigee : precision augmente de 31% pour les termes inclus
dans d’autres termes, mais seulement 1% pour tous les termes
Variante : NC-value, prise en compte des termes en contexte[Maynard et Ananiadou 2000]
48/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Metriques pour le tri des termes extraits
Frequence : metrique la plus communement considereeimpact variable: degradation du rappel (beaucoup de termes avec une
occurrence) ou la precision
[Justeson et Katz 1995, Frantzi et al. 2000, Dowdall et al. 2002]
Longueur des termes : les termes longs sont moins importantAugmentation legere de la precision quand combinee a la frequence: les
termes simples ou les termes complexes courts sont preferes [Drouin 2002]
C-Value: Termes complexes longs qui ne sont pas inclus dansd’autres termes sont preferes [Frantzi et al. 1997, Frantzi et al. 2000]
C−Value1(t) =
{log2(|t|+ 1) · f (t) si t n’est pas inclus dans un termelog2(|t|+ 1) · (f (t)− 1
P(Tt )
∑t′∈Tt
f (t′)) sinon
Amelioration mitigee : precision augmente de 31% pour les termes inclus
dans d’autres termes, mais seulement 1% pour tous les termes
Variante : NC-value, prise en compte des termes en contexte[Maynard et Ananiadou 2000]
48/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Metriques pour le tri des termes extraits
Frequence : metrique la plus communement considereeimpact variable: degradation du rappel (beaucoup de termes avec une
occurrence) ou la precision
[Justeson et Katz 1995, Frantzi et al. 2000, Dowdall et al. 2002]
Longueur des termes : les termes longs sont moins importantAugmentation legere de la precision quand combinee a la frequence: les
termes simples ou les termes complexes courts sont preferes [Drouin 2002]
C-Value: Termes complexes longs qui ne sont pas inclus dansd’autres termes sont preferes [Frantzi et al. 1997, Frantzi et al. 2000]
C−Value1(t) =
{log2(|t|+ 1) · f (t) si t n’est pas inclus dans un termelog2(|t|+ 1) · (f (t)− 1
P(Tt )
∑t′∈Tt
f (t′)) sinon
Amelioration mitigee : precision augmente de 31% pour les termes inclus
dans d’autres termes, mais seulement 1% pour tous les termes
Variante : NC-value, prise en compte des termes en contexte[Maynard et Ananiadou 2000]
48/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Metriques pour le tri des termes extraits
Frequence : metrique la plus communement considereeimpact variable: degradation du rappel (beaucoup de termes avec une
occurrence) ou la precision
[Justeson et Katz 1995, Frantzi et al. 2000, Dowdall et al. 2002]
Longueur des termes : les termes longs sont moins importantAugmentation legere de la precision quand combinee a la frequence: les
termes simples ou les termes complexes courts sont preferes [Drouin 2002]
C-Value: Termes complexes longs qui ne sont pas inclus dansd’autres termes sont preferes [Frantzi et al. 1997, Frantzi et al. 2000]
C−Value1(t) =
{log2(|t|+ 1) · f (t) si t n’est pas inclus dans un termelog2(|t|+ 1) · (f (t)− 1
P(Tt )
∑t′∈Tt
f (t′)) sinon
Amelioration mitigee : precision augmente de 31% pour les termes inclus
dans d’autres termes, mais seulement 1% pour tous les termes
Variante : NC-value, prise en compte des termes en contexte[Maynard et Ananiadou 2000]
48/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Experiences
Corpus Genia : [Kim et al. 2003]
1 999 resumes Medline (facteurs de transcription dans lescellules humaines)436 967 mots, 36 607 termes annotes49 249 termes candidats extraits
Comparaison avec les termes annotes dans les corpus
49/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Exemples d’evaluationComparaison avec les annotations du corpus Genia
Corpus Genia : [Kim et al. 2003]
1 999 resumes Medline (facteurs de transcription dans lescellules humaines)436 967 mots, 36 607 termes annotes49 249 termes candidats extraits
Comparaison avec les termes annotes dans les corpus
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 10000 20000 30000 40000 50000
Pre
cisi
on
Terms
FrequencyCValue
CValue1
50/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Proposition d’amelioration de la C-Value[Hamon et al. 2014]
C-Value parametree (C-Value* ), ajout de parametres :
Prise en compte des pratiques terminologiques du domaine :
l’influence de la longueur des termes (|t|) peut dependre du
domaine: log2( |t|+1|t|α )
Prise en compte du role syntaxique des termes et de leurinclusion dans le poids associe a la longueur du terme :
Termes non inclus dans d’autres termes : αR
Termes en position tete : αH
Termes en position modifieur : αM
Optimisation des parametres avec un algorithme genetique
51/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
C-Value parametree : C-Value*
Prise en compte de la distribution de la frequence des termesinclus (βH , βM) :Utilisation d’une norme Lβ pour penaliser un terme inclus dans
plusieurs termes, et avec une distribution des frequences
desequilibrees
Influence des termes inclus (cH , cM) :Attribution d’une penalite c si le terme est inclus dans d’autres
termes
C−Value∗ =
log2
(|t|+1|t|αR
)· f (t), si t n’est pas inclus dans un autre terme
log2
(|t|+1|t|αH
)·(f (t)− cH
(∑t′∈Tt
f (t′)βH)1/βH
),
si t est en position tete
log2
(|t|+1|t|αM
)·(f (t)− cM
(∑t′∈Tt
f (t′)βM)1/βM
),
si t est en position modifieur
52/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Evolution de la precision moyenne et de la F-mesure
Frequence et C-Value: meilleure precision moyenne pour les tous premierstermes
Puis, tous les modeles C-Value* sont meilleurs que la frequence et laC-Value
F-mesure: apres une centaine de termes et jusqu’a 70% des termescandidats : meilleur tri avec les modeles C-Value*
Tri similaire pour tous les modeles C-Value*
53/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Resultats : Decomposition aleatoire 60%/40%Modele R-prectrain R-prectest avg Prectrain avg Prectestfrequence 0,4590 0,4671 0,4338 0,4441C-Value 0,3344 0,3594 0,3935 0,4147M1 0,5091 0,5090 0,5088 0,5124Mβc 0,4974 0,5084 0,4910 0,5002Mα3c 0,5259 0,5285 0,5416 0,5407Mα3β 0,5293 0,5272 0,5387 0,5363Mαβc 0,5144 0,5139 0,5266 0,5269Mα3βc 0,5197 0,5207 0,5386 0,5360Mα3β2c2 0,5222 0,5233 0,5330 0,5262
Utilite de M1 si aucun terme annote n’est disponible pour l’entrainement
Forte influence α
effet negatif si initialise a 1 ou a des valeurs egalesαM proche de 0 et significativement plus petit que les autres α:termes candidats modifieurs les plus courts sont penalisesαR et αH > 1: termes candidats racines ou les plus courts enposition tete sont preferes
Impact faible : β et c
Recyclage possible des parametres sur d’autres corpus (meme domaine ?)
54/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Bilan
Une multitude d’approches utilisant des informationslinguistiquesou statistiquesou (plus souvent) les deux
Des ameliorations possibles :
Tri des termes candidats pour faciliter le travail du terminologue(les mesures statistiques utilisees ne sont pas toujoursconvaincantes)→ combinaison de mesures (graphes, regroupement parapprentissage)Association (automatique) de categories semantiques aux termes→ vers l’extraction d’evenements (beaucoup de travaux sur lareconnaissance d’evenements)
55/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Aubin (Sophie) et Hamon (Thierry). –
Improving Term Extraction with Terminological Resources. In : Advances in Natural Language Processing(5th International Conference on NLP, FinTAL 2006), ed. par Salakoski (Tapio), Ginter (Filip),Pyysalo (Sampo) et Pahikkala (Tapio). pp. 380–387. –Springer.
Bodenreider (Olivier), Rindflesch (Thomas C.) et Burgun (Anita). –
Unsupervised, corpus-based method for extending a biomedical terminology. In : W orkshop on NaturalLanguage Processing in the Biomedical Domain (ACL2002), pp. 53–60.
Bourigault (Didier), Fabre (Cecile), Frerot (Cecile), Jacques (Marie-Paule) et Ozdowska (Sylwia).–Syntex, analyseur syntaxique de corpus. In : Actes de la conference TALN 2005, pp. 17–20. –Dourdan, France, juin 2005.
Cabre (M. Teresa), Estopa (R.) et Vivaldi (J.). –
Automatic term detection: a review of current systems. In : Recent Advances in ComputationalTerminology. –Amsterdam, Philadelphia, John Benjamins, 2001.
Cohen (Kevin Bretonnel) et Demner-Fushman (Dina). –
B iomedical Natural Language Processing. –John Benjamins publishing company, 2013.
Daille (Beatrice). –
Reperage et extraction de terminologie par une approche mixte statistique et linguistique. T.A.L., vol. 36(1-2), 1995, pp. 101–118.
Dowdall (James), MichaelHess , Kahusk (Neeme), Kaljurand (Kaarel), Koit (Mare), Rinaldi
(Fabio) et KadriVider . –Technical Terminology as a Critical Resource. In : Proceedings of LREC’2002.
Drouin (Patrick). –
Acquisition automatique des termes : l’utilisation des pivots lexicaux specialises. –
55/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
These, Universite de Montreal, 2002.
Frantzi (Katerina T.), Ananiadou (Sophia) et Tsujii (Junichi). –
Automatic Term Recognition using Contextual Clues. In : Proceedings of the Second Workshop onMultilingality in software Industry: The AI Contribution (MULSAIC’97), , 15th International JointConference on Artificial Intelligence, IJCAI’97, pp. 73–79. –Nagoya, Japan, August 1997.
Frantzi (Katerina T.), Ananiadou (Sophia) et Mima (Hideki). –
Automatic recognition of multi-word terms: the C-Value/NC-Value method. International Journal onDigital Libraries, vol. 3 (2), 2000, pp. 115–130.
Golik (Wiktoria), Bossy (Robert), Ratkovic (Zorana) et Nedellec (Claire). –
Improving term extraction with linguistic analysis in the biomedical domain. In : Proceedings of the 14thInternational Conference on Intelligent Text Processing and Computational Linguistics (CICLing’13). –Samos, Greece, March 2013.
Grabar (Natalia) et Hamon (Thierry). –
Les relations dans les terminologies structurees : de la theorie a la pratique. Revue d’Intelligence Artificielle,vol. 18 (1), 2004, pp. 57–85.
Hamon (Thierry), Engstrom (Christopher) et Silvestrov (Sergei). –
Term ranking adaptation to the domain: genetic algorithm based optimisation of the C-Value. In :Proceedings of PolTAL 2014 – Advances in Natural Language Processing, ed. par Springer , pp. 71–83.
Jacquemin (Christian). –
V ariation terminologique: Reconnaissance et acquisition automatiques de termes et de leurs variantes encorpus. –Memoire d’habilitation a diriger des recherches en informatique fondamentale, Universite de Nantes, 1997.
Justeson (John S.) et Katz (Slava M.). –
Principled Disambiguation : Discriminating Adjective Sense with Modified Nouns. ComputationalLinguistics, vol. 21 (1), 1995, pp. 1–27.
55/55 Terminologie T Hamon
Introduction Definition Approches Extraction Terminologique Bilan
Kageura (Kyo) et Umino (Bin). –
Methods of Automatic Term Recognition - A Review. Terminology, vol. 3 (2), 1996, pp. 259–89.
Kim (Jin-Dong), Ohta (Tomoko), Teteisi (Yuka) et Tsujii (Jun’ichi). –
GENIA corpus - a semantically annotated corpus for bio-textmining. B ioinformatics, vol. 19 (1), 2003, pp.180–182. –Oxford University Press.
Maynard (Diana) et Ananiadou (Sophia). –
Identifying Terms by their Family and Friends. In : Proceedings of COLING 2000, pp. 530–536. –Saarbrucken, Germany, 2000.
McCray (Alexa T.), Browne (Allen C.) et Bodenreider (Olivier). –
The Lexical Properties of the Gene Ontology (GO). In : Proceedings of the AMIA 2002 AnnualSymposium, pp. 504–508.
Meystre (S. M.), Savova (G. K.), Kipper-Schuler (K. C.) et Hurdle (J. F.). –
Extracting information from textual documents in the electronic health record: a review of recent research.IMIA Yearbook of Medical Informatics, vol. 42 (5), 2008, p. 923–936.
Nenadic (Goran), Ananiadou (Sophia) et McNaught (John). –
Enhancing automatic term recognition through recognition of variation. In : Proceedings of Coling 2004.pp. 604–610. –Geneva, Switzerland, Aug 23–Aug 27 2004.
Pazienza (Maria Teresa), Pennacchiotti (Marco) et Zanzotto (FabioMassimo). –
Terminology Extraction: An Analysis of Linguistic and Statistical Approaches. In : Knowledge Mining, ed.par Sirmakessis (Spiros), pp. 255–279. –Springer Berlin Heidelberg, 2005.
Spasic (Irena), Greenwood (Mark), Preece (Alun), Francis (Nick) et Elwyn (Glyn). –
FlexiTerm: a flexible term recognition method. Journal of Biomedical Semantics, vol. 4, 2013, p. 27.
55/55 Terminologie T Hamon