+ All Categories
Home > Documents > Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation...

Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation...

Date post: 11-Apr-2015
Category:
Upload: perlita-roble
View: 106 times
Download: 0 times
Share this document with a friend
37
Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning of rules Learning of statistical models Multistrategy learning Wrapper induction
Transcript
Page 1: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

SummarySummary

• Information Extraction Systems

• Evaluation

• Multilinguality

• Adaptability• Introduction

• Learning of rules

• Learning of statistical models

• Multistrategy learning

• Wrapper induction

• Information Extraction Systems

• Evaluation

• Multilinguality

• Adaptability• Introduction

• Learning of rules

• Learning of statistical models

• Multistrategy learning

• Wrapper induction

Page 2: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Introducción

• Un sistema de EI requiere conocimiento específico sobre el dominio de aplicación...

• Adaptación: es una cualidad fundamental dada la gran dependencia del dominio de la tarea de EI.

• La elaboración manualmente de un sistema específico es impracticable.

Adaptability

Page 3: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Introducción

• Normalmente, se deben afinar o crear de nuevo los recursos:– Lexicones – Ontologías– Base de patrones– Estructura de salida (templetas)

Adaptability

Page 4: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

• Forma de llevar a cabo el afinado– manualmente– automáticamente– semiautomáticamente

• El Aprendizaje Automático se impone como alternativa para conseguir la adaptabilidad de los sistemas de EI.

Introducción

Adaptability

Page 5: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

• Afinado (tuning) de lexicones y ontologías:– elementos a modificar

• palabras• acepciones• preferencias verbales (posibles alternancias de diátesis, régimen proposicional, restricciones selectivas, ...)

– dos aproximaciones (Wilks[97])• Lexicón antiguo + corpus del (nuevo) dominio => lexicón nuevo

• corpus del (nuevo) dominio => lexicón nuevo

• Proceso:– manual (el más corriente) con editores especializados

– automático: Riloff and Jones[99]

Introducción

Adaptability

Page 6: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

• Creación o afinado de la base de patrones:– Uso de herramientas interactivas para la adquisición manual• NYU Interactive tool (PET inteface)

– R.Yangarber, R.Grishman[97]

• Usuario y sistema interaccionan para extender y/o generalizar sintácticamente (metarreglas) y semánticamente (jerarquía conceptual) el o los patrones implicados– El usuario proporciona un ejemplo (o lo extrae del corpus)

– El usuario codifica la información a extraer a partir del ejemplo

– El sistema utiliza la base actual de patrones para crear una descomposición estructural del ejemplo

– Uso de técnicas de ML

IntroducciónAdaptability

Page 7: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Introducción

• Variedad de innovaciones en el área de la EI que incluyen:

– HMMs y otras técnicas estadísticas para obtener modelos de textos

– active learning y bootstrapping para trabajar con un conjunto de entrenamiento reducido

– boosting para mejorar el rendimiento del aprendizaje

Adaptability

Page 8: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Introducción

• Variedad de innovaciones en el área de la EI que incluyen:– Tendencia a crear algoritmos que puedan tratar distintos tipos de documentos.

– Estudio de cómo las técnicas de data mining pueden mejorar la EI y viceversa.

Adaptability

Page 9: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Introducción

• Uso de técnicas de ML en la EI para...– tareas de bajo nivel:

• POS tagging• segmentación• chunking• dependencias sintácticas entre unidades• NERC • etiquetaje de roles semánticos• correferencias

– aprendizaje automático de patrones de EI

• Basadas en la explotación de corpus (Cardie[97], Mooney and Cardie[99], Turmo et al.[06])

Adaptability

Page 10: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

• Clasificaciones de métodos de aprendizaje de patrones de EI:– tipo de conocimiento aprendido (reglas, árboles de decisión, HMM, hiperplanos

separadores, ...)

– tipo de documentos de entrenamiento (texto no restringido, texto estructurado o texto

semi-estructurado)

– grado de supervisión (instance-based learning, observation-based

learning, active-learning, bootstrapping, ...)

– paradigma de aprendizaje (propositional learning, relational learning,

statistical learning, ...)

– ...

Introducción

Adaptability

Page 11: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

• Clasificaciones de métodos de aprendizaje de patrones de EI:– tipo de conocimiento aprendido (reglas, árboles de decisión, HMM, hiperplanos

separadores, ...)

– tipo de documentos de entrenamiento (texto no restringido, texto estructurado o texto

semi-estructurado)

– grado de supervisión (instance-based learning, observation-based

learning, active-learning, bootstrapping, ...)

– paradigma de aprendizaje (propositional learning, relational learning,

statistical learning, ...)

– ...

Introducción

Adaptability

Page 12: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Introducción• Anotación de ejemplos para aprendizaje supervisado:

• generalmente preproceso de corpus, (POS, semántica léxica y/o roles sintácticos)

• identificar palabras activadoras, y• asociar un slot de la estructura de salida a cada elemento a extraer del ejemplo

Witnesses confirm that the twister occurredwithout warning at approximtely 7:15 p.mand destroyed two mobile homes

Attack-event cause time damage

subject

direct-objectmod

Adaptability

Page 13: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Introducción• Anotación de ejemplos para aprendizaje supervisado:

• generalmente preproceso de corpus, (POS, semántica léxica y/o roles sintácticos)

• identificar palabras activadoras, y• asociar un slot de la estructura de salida a cada elemento a extraer del ejemplo

A new offer since the last one (15th August).Now you can get our PC for a low price. Just 900€,1100€ before! Get it now until 25th December

offer object start end price

Adaptability

Page 14: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

SummarySummary

• Information Extraction Systems

• Evaluation

• Multilinguality

• Adaptability• Introduction

• Learning of rules

• Learning of statistical models

• Multistrategy learning

• Wrapper induction

• Information Extraction Systems

• Evaluation

• Multilinguality

• Adaptability• Introduction

• Learning of rules

• Learning of statistical models

• Multistrategy learning

• Wrapper induction

Page 15: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Aprendizaje de reglas

• Supervisados proposicionales: representan los ejemplos en términos de la lógica proposicional.– Especialización heurística: AutoSlog[Riloff93] – Generalización de ejemplos: PALKA[Kim,Moldovan95], CRYSTAL [Soderland et al.95],WAVE [Aseltine99], Chai and Biermann [97], TIMES [Chai et al.99]

Adaptability

Page 16: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Aprendizaje de reglas

• Especialización de meta-patrones predefinidos, independientes del dominio, que actúan sobre las palabras activadoras y su contexto inmediato.

• Adquisición de reglas single-slot (Concept Nodes )

AutoSlog (Riloff[96])

Adaptability

Page 17: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Aprendizaje de reglas

AutoSlog (Riloff[96])

Adaptability

Concept trigger Position constraints enabling Conditions

verb <direct-object>

Witnesses confirm that the twister occurredwithout warning at approximtely 7:15 p.mand destroyed two mobile homes

damage

= damage= “destroyed”= direct-object= ((physical-object))= ((active-voice))

Page 18: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Aprendizaje de reglas

AutoSlog (Riloff[96])

Adaptability

• Problemas: • reglas muy específicas. • baja compresión• baja cobertura• sólo se obtienen reglas single-slot• mayor numero de plantillas parcialmente extraidas con respecto a otros métodos

Page 19: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

• Basado en formación de conceptos (Concept Induction Learning, Michalski).

• Adquisición de reglas multi-slot (Concept Nodes)

• Algoritmo de cobertura bottom-up. • Ejemplo = regla específica (máxima especificidad) • Se relajan iterativamente las restricciones de las reglas actuales integrando una nueva regla específica.

CRYSTAL (Soderland et al.[95])

Aprendizaje de reglas

Adaptability

Page 20: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

• Preproceso: • análisis sintáctico parcial para obtener constituyentes principales (S, V, O ,OI, PP)• análisis léxico-semántico (adhoc para el dominio)

CRYSTAL (Soderland et al.[95])

Aprendizaje de reglas

Adaptability

Page 21: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

CRYSTAL (Soderland et al.[95])

Aprendizaje de reglasAdaptability

concept type = succession-eventconstraints:

SUBJ: class include <Person> extract Person_InVERB: terms include NAMED mode passiveOBJ: terms include OF class include <Organization> extract Organization

• Concept node:

Page 22: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

RULES = nullDerive an initial definition from each positive exampleFor each initial definition D not covered by RULES

loopD’=the most similar initial

definition to Dif D’= null, exitU=the unification of D and D’Test U on the training setif the error rate of U >

error_tolerance exitD=U

add D to RULESReturn RULES

CRYSTAL (Soderland et al.[95])

Aprendizaje de reglasAdaptability

Page 23: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

•¿Cómo se computa la unificación?• relajando restricciones de los constituyentes

• términos, clases semanticas, modificadores, preposiciones, modo (activa/pasiva, positiva/negativa)

• ¿Cómo se calcula la similaridad?• s(D,D’)= #relajaciones mínima para obtener la unificación entre D y D’

CRYSTAL (Soderland et al.[95])

Aprendizaje de reglas

Adaptability

Page 24: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

CRYSTAL (Soderland et al.[95])

Aprendizaje de reglasAdaptability

• Ventajas respecto a AutoSlog• mayor compresión• mayor cobertura • mayor expresividad

• reglas multi-slot y single-slot

• Problemas:• jerarquía semántica ad-hoc• generalización semántica muy controlada (ej.: no se generaliza semanticamente el verbo)

Page 25: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

• Algoritmo de fuerza bruta. A partir de cada ejemplo proporcionado por el usuario, el sistema propone de forma automática una serie de posibles generalizaciones. Cuando una regla propuesta supera una cota de cobertura en el conjunto de entrenamiento, el sistema la incorpora a su base de reglas.

generalización sintácticageneralización semántica

WordNetcombinación

permutación

TIMES (Chai et al.[99])

Aprendizaje de reglasAdaptability

Page 26: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Aprendizaje de reglas

• Supervisados relacionales: representan los ejemplos en términos de la lógica de primer orden.– Generalizacion de ejemplos:

•LIEP[Huffman95] •basados en sistemas de ILP: SRV[Freitag98], RAPIER[Califf98]•WHISK[Soderland99]

Adaptability

Page 27: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Problema=clasificar secuencias de palabras

Aprendizaje de reglas single-slot expresadas en logica de orden 1.

slot-filler(sequence) si p1, p2, …, pn

Aprendizaje relacional. Modelo abierto. Usa las relaciones de sucesión y puede incorporar relaciones sintácticas (Link Grammar). No limita el contexto del fillerAlgoritmo de cobertura top-down (basado en FOIL).

• requiere ejemplos positivos y negativos• empezando por la regla mas general, se le añade iterativamente el mejor predicado mientra que la regla cumpla MDL.

Aprendizaje de reglas

SRV (Freitag[98ab])

Adaptability

Page 28: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Uso de predicados:• lenght(Comp N): la secuencia tiene longitud mayor/menor/igual (Comp) de N tokens• position(Var From Comp N): Existe un token (Var) que está a una distancia menor/mayor/igual (Comp) de N tokens del inici/ofinal de la secuencia (From)• relpos(Var1 Var2 Relop N) • some(Var Path Feat Va): Existe un token (Var) en la secuencia que cumple Feat=Val. O existe un token (Var) relacionado con otro via atributos relacionales (Path) que cumple Feat=Val• every(Feat Value): Todo token cumple Feat=Val

Uso de atributos como word, capitalizedp, doubletonp, …Puede utilizar WordNet.

Aprendizaje de reglas

SRV (Freitag[98ab])

Adaptability

Page 29: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Aprendizaje de reglas

SRV (Freitag[98ab])

Adaptability

Speaker:-some(?A, [], word,*unknown*)every(capitalizedp, true)length(=, 2)some(?B, [], word, *unknown*)some(?B, [prev_token], word, “:”)some(?A, [prev_token prev_token],

doubletonp, false)every(quadrupletonp, false)some(?B, [prev_token prev_token], word,

“who”)

Page 30: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Aprendizaje de reglas single-slot expresadas como expresiones regulares:

<pre-filler pattern filler pattern post-filler pattern>

Aprendizaje relacional. Usa la relación de sucesión entre palabras.Limita el contexto del fillerAlgoritmo de compresión bottom-up (basado en GOLEM,…). Expresiones regulares más generales son inducidas incrementalmente a partir de los ejemplos y las expresiones regulares hasta ahora inducidas.

Uso de lemas y etiquetado morfosintáctico desambiguadoPuede usar WordNet.

RAPIER (Califf and Mooney[97], Califf[98])

Aprendizaje de reglasAdaptability

Page 31: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

REGLAPre-filler Filler Post-filler1) POS: {nn,nnp} 1) “undisclosed ” 1) Sem: price2) List: maxlength 2 POS: jj

“... sold to the bank for an undisclosed amount...”

“... paid Honeywell an undisclosed price...”

Aprendizaje de reglas

Adaptability

RAPIER (Califf and Mooney[97], Califf[98])

generalización

Page 32: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

• Generalización de 2 reglas:• maximizar precisión• disyunción o eliminación de una restricción

Para cada slotRULES = reglas mas especificas para los ejemplosmientras compresión falle ≤ K veces

seleccionar 2 reglas, R1 y R2, aleatoriamenteencontrar generalizaciones, L, de fillers

respectivoscrear reglas a partir de L, evaluar → RULES’especializar reglas de RULES’: n tokens de

pre/post-fillersañadir nuevas reglas a RULES’

si precision(mejor_regla(RULES’)) > x añadirla a RULES y eliminar subsumidas

empiricamente

RAPIER (Califf and Mooney[97], Califf[98])

Aprendizaje de reglasAdaptability

Page 33: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Aprendizaje de reglas multi-slot expresadas como expresiones regulares mas complejas y flexibles que RAPIER:

pattern: regular expression involving {VARi}

output: object-class {slot VARi}+

Aprendizaje relacional. Uso de la relación sucesor entre tokens.

Algoritmo de cobertura top-down. Se añaden iterativamente restricciones a la expresión regular más general, de forma que cubra el mayor número de ejemplos. Se procede slot por slot.

Uso de diferentes atributos dependiendo del tipo de problema

WHISK (Soderland[99])

Aprendizaje de reglasAdaptability

Page 34: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

Capitol Hill – 1 br twnhme. Fplc D/W W/D. Undrgrnd pkgincl $675. 3 BR, upper flr of turn of ctry HOME. incl gar,grt N. Hill loc $995. (206) 999-9999 <br><i> <font size=2>(This ad last ran on 08/03/97.)</font></i><hr>

WHISK (Soderland[99])

Aprendizaje de reglasAdaptability

REGLAPattern: * ( Digit ) ‘ BR’ * ‘$’ ( Number )Output: Rental {Bedrooms $1} {Price $2}

Page 35: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

WHISK (Soderland[99])

Aprendizaje de reglasAdaptability

@S[{SUBJ @PN[ C. Protho ]PN , @PS[ chairman and

chief executive officer ]PS of this maker of semiconductors . }

{VB @Passive was named @nam }{PP to the additional post of @PS[ president

]PS , }{REL_V succeding @succeed @PN[ John

Smith ]PN , who resigned @resign to pursue @pursu

other interests . }]S

REGLAPattern: * ( Person ) * ‘@Passive’ *F ‘named’ * {PP *F ( Position )

* ‘@succeed’ ( Person )Output: Succession {PersonIn $1} {Post $2} {PersonOut $3}

Page 36: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

WHISK (Soderland[99])

Aprendizaje de reglasAdaptability

RULES = nullTraining = nullrepetir por demanda del usuario

seleccionar un subconjunto de NewInst de la Reserva

(el usuario anota las NewInst)Training = Traning U NewInstdescaratar reglas con errores en NewInstpara cada Inst en Training

para cada Tag en Inst si Tag no esta cubierto por RULES

Rule = grow_rule(Inst,Tag,Training)Podar RuleSet

Page 37: Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Jordi Turmo, 2010 Adaptive Information Extraction

WHISK (Soderland[99])

Aprendizaje de reglasAdaptability

Grow_rule

• Regla mas general: * (*) * (*) * (*) * [para 3 slots]• Para cada slot, añadir un término a cada iteración. Posteriormente para cada contexto, añadir un término a cada iteración, teniendo en cuenta el menor error de Laplacian

Laplacian = (e+1)/(n+1)

e(R1) = e(R2) → Laplacian menor quan major cobertura


Recommended