transcript
- Diapositiva 1
- PLN Nivel superficial y lxico1 Procesamiento superficial y
lxico Nivel de procesamiento superficial El concepto de palabra
Nivel de procesamiento lxico Lexicones Adquisicin de la informacin
lxica
- Diapositiva 2
- PLN Nivel superficial y lxico2 Nivel de procesamiento
superficial 1 Preprocesado textual Obtencin del documento a
procesar acceso a BD acceso a la Web (wrappers) deteccin de
elementos textuales documentos multimedia, pginas Web,... filtrado
de meta-informacin tags HTML, XML,...
- Diapositiva 3
- PLN Nivel superficial y lxico3 Nivel de procesamiento
superficial 2 segmentacin del texto localizacin de unidades palabra
ortogrfica vs palabra gramatical trminos multipalabras fechas,
frmulas, siglas, jerga, nombres propios Named Entity Recognition
Named Entity Classification palabras desconocidas locuciones,
lexas,... identificacin de la lengua Beeferman et al, 1999
Ratnaparkhi, 1998 Bikel et al, 1999 Borthwick, 1999 Mikheev et al,
1999 Elworthy, 1999 Adams,Resnik, 1997
- Diapositiva 4
- PLN Nivel superficial y lxico4 Nivel de procesamiento
superficial 3 Tamao del vocabulario (V) Heap's Law V = KN K depende
del texto 10 K 100 N nmero total de palabras depende del, para el
ingls 0.4 0.6 El vocabulario crece sublinealmente pero no llega a
saturarse tiende a estabilizarse para 1Mb de texto (150.000w)
palabras palabras distintas
- Diapositiva 5
- PLN Nivel superficial y lxico5 Nivel de procesamiento
superficial 4 word tokens vs word types Distribucin estadstica de
las palabras en el texto Obviamente no uniforme Las palabras ms
comunes cubren el 50% de las occurrencias Un 50% de las palabras
slo aparecen 1 vez ~12% del texto est constitudo por palabras que
aparecen 3 veces o menos.
- Diapositiva 6
- PLN Nivel superficial y lxico6 Nivel de procesamiento
superficial 5 Ley de Zipf: Ordenamos las palabras de un texto por
su frecuencia. El producto de la frecuencia de una palabra (f) por
su posicin (r) es aproximadamente constante.
- Diapositiva 7
- PLN Nivel superficial y lxico7 Nivel de procesamiento
superficial 6 Frecuencia de una palabra vs capacidad discriminante
del documento. Stop Words. Palabras muy discriminativas pero poco
frecuentes. Las palabras ms interesantes tienen frecuencias
intermedias.
- Diapositiva 8
- PLN Nivel superficial y lxico8 Colocaciones 1 Expresiones
formadas por dos o ms palabras que tienen una probabilidad alta de
aparecer juntas (con frecuencia contiguas): "Estados Unidos"
phrasal verbs ("get up") locuciones, frases hechas, lexas, palabras
compuestas terminologa Se caracterizan por tener una compositividad
limitada (el significado del compuesto no se deduce exactamente del
de sus componentes).
- Diapositiva 9
- PLN Nivel superficial y lxico9 Colocaciones 2 Utilidad
Extraccin de terminologa Extraccin de relaciones de afinidad y
repulsin lxica Lexicografa Computacional Adquisicin de locuciones,
lexas, etc. Generacin del LN Parsing, induccin gramatical
- Diapositiva 10
- PLN Nivel superficial y lxico10 Colocaciones 3 Deteccin de
colocaciones McCallum propone 3 mtodos Mtodo 1 Frecuencia de la
colocacin complementada con un filtro morfolgico (slo algunas
tuplas son aceptables: AN, NN, AAN, ANN, NAN, NNN, NPN) Mtodo 2
Colocaciones no adyacentes Media y variancia de la distancia entre
los elementos de la colocacin
- Diapositiva 11
- PLN Nivel superficial y lxico11 Colocaciones 4 Mtodo 3
Likelihood ratio Decidir qu modelo entre dos posibilidades es ms
apropiado para describir los datos H 1 hiptesis del modelo 1 (por
ejemplo, w 1 y w 2 no forman una colocacin, p(w 1 |w 2 ) = p = p(w
1 |-w 2 ) ) H 2 hiptesis del modelo 2 (por ejemplo, w 1 y w 2 si
forman una colocacin, p(w 1 |w 2 ) = p 1 p 2 = p(w 1 |-w 2 ))
- Diapositiva 12
- PLN Nivel superficial y lxico12 Categorizacin de las palabras
Part of Speech (POS), categora morfosintctica. Propiedad formal de
un word-type que determina sus usos acceptables en sintaxis. Una
POS puede considerarse una clase de palabras Un word-type puede
poseer varias POS, un word-token slo una Categoras plenas abiertas,
muchos elementos, neologismos, clases semnticamente ricas e
independientes N, Adj, Adv, V Categoras funcionales
- Diapositiva 13
- PLN Nivel superficial y lxico13 Agrupacin (clustering) de
palabras 1 A veces es interesante crear clases o agrupaciones
(clusters) de palabras (ej. generalizacin, forma de abordar el data
sparseness, backoff,...) Factores (features) a tener en cuenta:
palabras adyacentes palabras relacionadas sintcticamente palabras
cercanas tema del documento...
- Diapositiva 14
- PLN Nivel superficial y lxico14 Agrupacin (clustering) de
palabras 2 VSM (Vector Space Model) representar cada word-type como
un punto en un espacio de k dimensiones (k = tamao del
vocabulario). definir una medida de proximidad (o distancia) entre
los puntos p.ej. la distancia eucldea, Dice, Jaccard,... Examinar
el espacio de k dimensiones en el que hemos colocado todos los
puntos (todos los word-types) para localizar ncleos de agrupacin
(clusters)
- Diapositiva 15
- PLN Nivel superficial y lxico15 Agrupacin (clustering) de
palabras 3 Plot in k dimensions (here k=3)
- Diapositiva 16
- PLN Nivel superficial y lxico16 Agrupacin (clustering) de
palabras 4 Clustering aglomerativo (bottom up) Comenzar con un
cluster por punto Iterativamente agrupar los clusters ms cercanos
Formas de decidir la proximidad entre clusters: single link
dist(A,B) = min(dist(a,b)| a A, b B) complete link dist(A,B) =
max(dist(a,b)| a A, b B) average link dist(A,B) = mean(dist(a,b)| a
A, b B) centroid link dist(A,B) = min(dist(mean(A),mean(B))
Clustering divisivo (top down)
- Diapositiva 17
- PLN Nivel superficial y lxico17 Qu es un lexicn Un lexicn es
simplemente un repositorio de informacin lxica que puede ser
utilizada por usuarios humanos o por algn tipo de procesador del
lenguaje natural Dos aspectos a considerar Representar la
informacin lxica Adquirir la informacin lxica
- Diapositiva 18
- PLN Nivel superficial y lxico18 Adquisicin del conocimiento
lxico qu hace falta codificar en los lxicos computacionales
(cuantitativamente y cualitativamente) cules son las fuentes de
conocimiento idneas para extraer dicho conocimiento qu mtodos de
extraccin son necesarios para ello.
- Diapositiva 19
- PLN Nivel superficial y lxico19 El contenido de los lexicones
computacionales 1 Transcripcin ortogrfica Transcripcin fontica
Modelo flexivo Alternancias de ditesis, marcos de subcategorizacin
AMAR VTR(OBJLIST: SN). AMAR CAT = VERBO SUBCAT =
- Diapositiva 20
- PLN Nivel superficial y lxico20 Categora gramatical (POS)
Estructura argumental Informacin semntica diccionarios =>
definicin lxicos computacionales => asignacin de tipos semnticos
predefinidos en una jerarqua. Relaciones lxicas derivacin
Equivalencias con otras lenguas El contenido de los lexicones
computacionales 2
- Diapositiva 21
- PLN Nivel superficial y lxico21 Representacin del conocimiento
lxico expresividad idoneidad representacional idoneidad inferencial
eficiencia
- Diapositiva 22
- PLN Nivel superficial y lxico22 Problemas que plantea la
representacin lxica Forma: pares atributo/valor, rels binarias o
n-arias, valores codificados, valores de dominio abierto
Asignaciones mltiples (relaciones uno a varios o varios a varios),
dependencias contextuales Facetas de los rasgos o atributos:
obligatoriedad u opcionalidad, cardinalidad, valores por omisin
Gradacin en las propiedades: valores exactos, preferencias,
asignaciones probabilsticas.
- Diapositiva 23
- PLN Nivel superficial y lxico23 Sistemas de Representacin Bases
de datos de propsito general Modelos textuales Bases de datos
lxicas Sistemas Orientados a Objetos (OO) Bases de datos orientadas
a objetos Sistemas basados en esquemas (frames) Sistemas basados en
unificacin
- Diapositiva 24
- PLN Nivel superficial y lxico24 Bases de datos de propsito
general Modelo de datos relacional. Aproximacin E/R ventajas rasgos
de tipo atributo/valor software convencional de gestin de base de
datos capacidad expresiva, mantenimiento, eficiencia y facilidad de
interrogacin. limitaciones: Fragmentacin de los datos Falta de
estructura jerrquica Excesiva uniformidad, poco apropiadas para los
rasgos de tipo textual.
- Diapositiva 25
- PLN Nivel superficial y lxico25 Modelos textuales Informacin
consistente en texto posiblemente marcado (tipogrfico, descriptivo)
SGML, TEI, Eagles Obtencin de las apariciones de una palabra en un
corpus, Coapariciones de varias palabras Uso de expresiones
regulares en la consulta Consulta de fragmentos de palabra Uso de
comodines, expresiones booleanas, etc...
- Diapositiva 26
- PLN Nivel superficial y lxico26 Las bases de datos lxicas
aproximacin de dos niveles fuente primaria de datos ndices integran
en un solo modelo las dos aproximaciones anteriores limitacin : a
menudo implementaciones ad-hoc Ejemplos de bases de datos lxicas
son IBM-LDB [Neff et al. 88] o Acquilex LDB [Briscoe et al.
90].
- Diapositiva 27
- PLN Nivel superficial y lxico27 Sistemas Orientados a Objetos
Capacidad deductiva herencia de propiedades transformacione l xicas
Capacidades procedimentales (asertivas) Tratamiento de
excepciones.
- Diapositiva 28
- PLN Nivel superficial y lxico28 Bases de Datos Orientadas a
Objetos Gesti n de la persistencia Dos tipos b sicos bases de datos
orientadas a objetos puras, que extienden algunos lenguajes
orientados al objeto como C++, Smalltalk, Eiffel, CLOS, etc bases
de datos orientadas al objeto que extienden sistemas convencionales
de gesti n de bases de datos => Sistemas basados en esquemas
(frames)
- Diapositiva 29
- PLN Nivel superficial y lxico29 Sistemas basados en unificacin
relaciones de reentrancia. disyunci n, negaci n, asignaci n
condicional... formas variadas de herencia (simple, m ltiple, mon
tona, por omisi n, etc...) operaciones: generalizaci n,
reescritura, formas varias de unificaci n, etc... Uso de macros,
alias, reglas l xicas, etc... compilaci n de las estructuras de
rasgos en estructuras m s eficientes (como t rminos Prolog)
- Diapositiva 30
- PLN Nivel superficial y lxico30 Sistemas basados en Estructuras
de rasgos Dos familias de sistemas basados en rasgos: estructuras
de rasgos libres: PATR-II estructuras de rasgos restringidas por
tipos: ALE, ALEP, CUF, TFS ER -> tipo que determina su
estructura. Taxonom a de tipos tipo -> restricciones sobre los
rasgos rasgo -> tipos apropiados
- Diapositiva 31
- PLN Nivel superficial y lxico31 Adquisicin de la informacin
lxica Los Diccionarios como fuente de informacin MRD Finalidad:
codificar informacin sobre el lxico Estructura interna
predeterminada Cierto grado de codificacin en determinados
contenidos Relaciones internas (sinonimia, hiponimia, etc.) de
manera implcita o explcita Vocabulario restringido Sistemtica en la
elaboracin de las definiciones
- Diapositiva 32
- PLN Nivel superficial y lxico32 El proceso de extraccin
Manualmente introspeccin auxiliado (p.ej. una estacin de trabajo
lexicogrfica). Automticamente, utilizando (y posiblemente
combinando) fuentes ya disponibles los diccionarios accesibles por
ordenador los corpus textuales. En forma semiautomtica
- Diapositiva 33
- PLN Nivel superficial y lxico33 Los diccionarios accesibles por
ordenador ejemplos: LDOCE, LINKS, OALD, Acquilex
- Diapositiva 34
- PLN Nivel superficial y lxico34 Acquilex
- Diapositiva 35
- PLN Nivel superficial y lxico35 diccionario en soporte
electrnico
- Diapositiva 36
- PLN Nivel superficial y lxico36 diccionario editado
- Diapositiva 37
- PLN Nivel superficial y lxico37 estructura parentizada
- Diapositiva 38
- PLN Nivel superficial y lxico38 Anlisis de las definiciones
((CLASS pedazo) (PROPERTIES (pequeo (PREP-MOD (DE (OBJECT alguna
cosa))))) => Traduccin al lenguaje de la BC
- Diapositiva 39
- PLN Nivel superficial y lxico39 Mtodos de extraccin de
relaciones 1 Sinonimia cabaret [fr.] **m.** Cabar. cabaret SIN
cabar sinonimia aproximada caza **f.** Accin de cazar. caza
CASI-SIN cazar
- Diapositiva 40
- PLN Nivel superficial y lxico40 Mtodos de extraccin de
relaciones 2 antonimia. patrones de las definiciones que indican
negacin abierto **adj** no murado o cerrado abierto ANT murado
abierto ANT cerrado descomposicin de los lemas antisocial **adj**
Contrario a la sociedad, a la convivencia social. antisocial ANT
social
- Diapositiva 41
- PLN Nivel superficial y lxico41 Mtodos de extraccin de
relaciones 3 meronimia/ holonimia: patrones. parte de miembro de
porcin/ trozo/ pedazo/ punta,... de X (entrada) es mernimo de Y
(elemento que sigue al patrn en la definicin) mano **f.** Parte del
cuerpo humano que mano MER cuerpo humano
- Diapositiva 42
- PLN Nivel superficial y lxico42 Mtodos de extraccin de
relaciones 4 Relaciones entre un nombre y la accin bsica en la que
est implicado. verbo con su agente, paciente, instrumento, etc.
Instrumento patrones que sirve para + V (SN) para + V (SN) que se
usa para + V (SN) fotmetro **m.** Instrumento para medir la
intensidad de la luz medir (la intensidad...) INVOLVED fotmetro
afliccin CAUSA aflictivo
- Diapositiva 43
- PLN Nivel superficial y lxico43 Los corpus como fuentes de
informacin 1 Ventajas: Gran volumen de informacin Facilidad de
clasificacin Capacidad de utilizacin como banco de pruebas para
refrendo de teoras o intuiciones. Capacidad de integracin de datos
experimentales. Posibilidad de utilizacin de mtodos estadsticos de
tratamiento.
- Diapositiva 44
- PLN Nivel superficial y lxico44 Los corpus como fuentes de
informacin 2 Dificultades: Casos poco o nada representados.
Combinacin de mtodos estadsticos con mtodos basados en conocimiento
gramaticales Garanta o control de la coherencia interna. Nivel de
completitud suficiente sin sobrerrepresentar Nivel de granularidad
deseado para una aplicacin concreta. Adaptacin a un dominio
concreto.
- Diapositiva 45
- PLN Nivel superficial y lxico45 Informacin contenida en los
Corpus Colocaciones Estructura argumental. Frecuencia de aparicin
de las unidades. Contexto de aparicin de las unidades. Induccin
gramatical. Anlisis probabilstico. Relaciones lxicas. Ejemplos de
uso. Restricciones selectivas. Compuestos nominales. Lexas, frases
hechas,...
- Diapositiva 46
- PLN Nivel superficial y lxico46 Tipos de corpus Segn la
informacin incorporada: Corpus bruto Corpus horizontales o
verticales Corpus etiquetados (tagged) Corpus parentizados Corpus
analizados treebanks
- Diapositiva 47
- PLN Nivel superficial y lxico47 Los mtodos de tratamiento
Manual: presentacin al lexicgrafo de las apariciones que
correspondan al patrn pedido Diversos niveles de preproceso y ayuda
Automtico tcnicas estadsticas Semiautomticos filtrado manual por
parte del lexicgrafo, de los casos propuestos por el sistema.
- Diapositiva 48
- PLN Nivel superficial y lxico48 Aplicaciones Lexicografa
Extraccin de informacin Etiquetadores Para el enriquecimiento de
corpus Coocurrencias Identificacin de unidades lxicas
complejas