ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Analisis de Artıculo:Get To The Point: Summarization with
Pointer-Generator Networks
Autores: 1Abigail See, 2Peter J. Liu y 1Christopher D. Manning
1Universidad de Stanford2 Grupo de Google
Analiza: Fernando Pech MayInstituto Tecnologico Superior de los Rıos
Noviembre 2018
Fernando Pech May Analisis de artıculo Noviembre 2018 1/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Informacion
Abigail See, Peter J. Liu, and Christopher D. Manning.Get to the point: Summarization with pointer-generatornetworks.In Proceedings of the 55th Annual Meeting of the Associationfor Computational Linguistics (Volume 1: Long Papers), pages1073–1083. Association for Computational Linguistics, 2017.
Enlace: https://arxiv.org/pdf/1704.04368.pdf
Fernando Pech May Analisis de artıculo Noviembre 2018 2/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Resumen
En este artıculo presentan una nueva arquitectura deaprendizaje profundo para la extraccion de resumenes,abstractivo, de texto en documentos no estructurados.
Fernando Pech May Analisis de artıculo Noviembre 2018 3/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Tipos de generacion de resumenes
Procesamiento de lenguaje natural (PLN)
El procesamiento de lenguaje natural proporciona tecnicaspara el analisis y representacion del lenguaje humano
Con el PLN se puenden realizar tareas como:1 Analisis morfologico (POS)2 Reconocimiento de entidades nombradas (NER)3 Generacion de resumenes4 Segmentacion de texto5 Traduccion automatica6 Analisis de sentimientos7 Sistemas de dialogos, etc.
Este artıculo trata sobre lageneracion de resumenes
Fernando Pech May Analisis de artıculo Noviembre 2018 4/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Tipos de generacion de resumenes
Resumen
Un resumen puede definirse como untexto producido de uno o mas textos,que contiene una porcion significati-va de la informacion respecto al textooriginal.
Fernando Pech May Analisis de artıculo Noviembre 2018 5/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Tipos de generacion de resumenes
Resumen
Dos enfoques para la extraccion de resumen:
Abstractivo. Genera oracionesnuevas a partir del documentooriginal.
Extractivo. Seleccionafragmentos del texto original yluego los organiza para formarun resumen.
Conjunto de documentos D
d1 d2 d3 dn...
S1: Clasificación de sentencias
...c1 c2 c3 cm
S2: Generación de sentencias para el resumen
...c1 c2 c3 cm
Extractivo Abstractivo
...c1 c2 c3 cm
Sentencias
Fernando Pech May Analisis de artıculo Noviembre 2018 6/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Tipos de generacion de resumenes
Resumen
La mayorıa de los enfoques sonextractivos. Implica seleccionary reorganizar oraciones deldocumento original.
El Abstractivo es muy complejopor el hecho de generar textodesde cero.
Este artıculo genera resumenabstractivo
Conjunto de documentos D
d1 d2 d3 dn...
S1: Clasificación de sentencias
...c1 c2 c3 cm
S2: Generación de sentencias para el resumen
...c1 c2 c3 cm
Extractivo Abstractivo
...c1 c2 c3 cm
Sentencias
Fernando Pech May Analisis de artıculo Noviembre 2018 7/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Trabajos relacionados
Extractive Summarization using Deep Learning (2017)
Abstractive text summarization using sequence-to-sequencernns and beyond (2016)
SummaRuNNer: A Recurrent Neural Network Based SequenceModel for Extractive Summarization of Documents (2017)
A Deep Reinforced Model for Abstractive Summarization(2016)
Fernando Pech May Analisis de artıculo Noviembre 2018 8/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Enfoques para la extraccion de resumenes
Metodos estadısticos
Basados en caracterısticas
Aprendizaje automatico
Logica difusa
Basado en grafos
Semantica Distribucional
LSA (Analisis de semantica latente)NMF (Factorizacion de matriz no-negativa)Word2Vec
Fernando Pech May Analisis de artıculo Noviembre 2018 9/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Red Neuronal Artificial
Paradigma de programacion que permite auna computadora aprender de los datosobservados.
Compuesto por un gran numero de elementosde procesamiento interconectados y quetrabajan conjuntamente para resolver unproblema.
Fernando Pech May Analisis de artıculo Noviembre 2018 10/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Red Neuronal Artificial
Conformado por 3capas
1 Capa deentrada
2 Capa oculta3 Capa de salida
...
x1
x2
x3
xn
X
Capa de entrada
...
Capa oculta Capa desalida
Y
Salidas
y1
y2
Red Neuronal
Fernando Pech May Analisis de artıculo Noviembre 2018 11/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Red Neuronal Artificial (RNA)
Conformado por 3capas
1 Capa deentrada
2 Capa oculta3 Capa de salida
...
x1
x2
x3
xn
X
Entradas
...
Capa oculta
...
Capa desalida
Y
Salidas
y1
y2
Red Neuronal
Fernando Pech May Analisis de artıculo Noviembre 2018 12/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Red neuronal artificial (RNA)
Inconvenientes:1 Numero
limitado decapas
2 Imposiblerepresentarproblemascomplejos
3 No es escalable
...
x1
x2
x3
xn
X
Entradas
...
Capa oculta
...
Capa desalida
Y
Salidas
y1
y2
Red Neuronal
Fernando Pech May Analisis de artıculo Noviembre 2018 13/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Aprendizaje profundo
Las RNAs que consisten de mas de capas se le denominanredes neuronales profundasEl entrenamiento de las RNA profundas se denominaaprendizaje profundo
Fernando Pech May Analisis de artıculo Noviembre 2018 14/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Aprendizaje profundo
El aprendizaje profundo son conjunto de tecnicas poderosaspara el aprendizaje en redes neuronales y con ella es posibleresolver problemas complejos de prediccion y clasificacion.Existen distintas metodos de aprendizaje profundo paraanalisis de imagenes, texto y sonido.
Fernando Pech May Analisis de artıculo Noviembre 2018 15/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Aprendizaje profundo
Redes Neuronales recurren-tes (RNN)
Excelentes para el PLN
Construyen unarepresentacion vectorialpara cada token
Son redes con bucles quepermiten que lainformacion persista y soncapaces de manejar datossecuenciales
Redes Neuronales convolu-cionales (CNN)
Principalmente alprocesamiento deimagenes
Utilizado en vision porcomputadora
Se ha usado en PLN conexito
Fernando Pech May Analisis de artıculo Noviembre 2018 16/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Red neuronal Recurrente -RNN
Este artıculo utiliza RNN.RNN tiene distintas versiones
1 La version simple
2 LSTM (Long Short Term Memory)
3 GRU (Gated Recurrent Units)
La diferencia entre ellas radica en la arquitectura de la unidad dememoria.
Fernando Pech May Analisis de artıculo Noviembre 2018 17/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Red neuronal Recurrente simple
Xt-1
Ht-1
tanh
Xt
Ht
tanh
Xt+1
Ht+1
tanhcelda
Xt
Ht
H
a)
=
...
...
b)
Output
Input
Fernando Pech May Analisis de artıculo Noviembre 2018 18/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
Red neuronal Recurrente simple
Problema:no guarda informacion de celdas anterioresSon incapaces de aprender a largo plazo
celda
X0
H0
celda
X2
H2
celda
X3
H3
celda
X1
H1
celda
X0
H0
celda
X1
H1
celda
X2
H2
celda
Xt
Ht
celda
Xt+1
Ht+1
...
a) b)
Francisco was born ... His mother tongue .... in child
Fernando Pech May Analisis de artıculo Noviembre 2018 19/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
RNN-LSTM
Son RNN con memoria a largo plazo
Capaces de aprender dependencias a largo plazo, recordarinformacion por periodos largos de tiempo
Consta de cuatro capas que interactuan entre sı; esto permiteque recuerde dependencias a largo plazo.
Fernando Pech May Analisis de artıculo Noviembre 2018 20/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
RNN-LSTM
X +
tanh
Xσσ
X
tanh σ
Concatenación X=Xt | Ht-1
Ht-1
Ct-1
Ht
Ct
Xt
Yt
σ tanh Capas
Operaciones puntualesX +tanh
Fernando Pech May Analisis de artıculo Noviembre 2018 21/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
RNN-LSTM
Es un estandar para distintas tareas de PLN... pero
Problema:no guarda informacion de celdas anterioresEs unidireccional, solo es capaz de conservar informacion delpasadoNo proporciona buenos resultados para NER, similitud ycontexto semantico
Fernando Pech May Analisis de artıculo Noviembre 2018 22/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
RNN-LSTM
Por ejemplo, si se desea extraer el contexto de una entidad,solamente puede detectar el contexto izquierdo.
X +
tanh
Xσσ
X
tanh σ
Concatenación X=Xt | Ht-1
Ht-1
Ct-1
Ht
Ct
Xt-1
Ht-1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
X1
H1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
Xt+1
Ht+1
...
Francisco was ... ...
Fernando Pech May Analisis de artıculo Noviembre 2018 23/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
RNN-LSTM bidireccional
Se constituye de dos capas1 Una capa que aprende representaciones previas2 Otra que retrocede en el el tiempo, para aprender
representaciones futuras
Capaces de analizar oraciones hacia adelante (forward) yhacia atras (backward)
La primera capa analiza el texto hacia adelante →La segunda capa analiza texto hacia atras ←
Fernando Pech May Analisis de artıculo Noviembre 2018 24/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Enfoques para la extraccion de resumenesAprendizaje profundo
RNN-LSTM bidireccional
CeldaLSTM
X0
H0
X0
H0
X0
H0
Francisco was born ...
X0
H0
Forward CeldaLSTM
CeldaLSTM
CeldaLSTM
CeldaLSTM
CeldaLSTM
CeldaLSTM
CeldaLSTMBackward
+ + + +
X +
tanh
Xσσ
X
tanh σ
Concatenación X=Xt | Ht-1
Ht-1
Ct-1
Ht
Ct
Xt-1
Ht-1
Celda LSTM
Fernando Pech May Analisis de artıculo Noviembre 2018 25/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Primera propuesta de la arquitectura
...
Atte
ntio
nDi
strib
utio
n
<START>
VocabularyDistribution
Context Vector
Germany
a zoo
Partial Summary
"beat"
Germany emerge victorious in 2-0 win against Argentina on Saturday ...
Enco
der
Hid
den
Stat
es
DecoderH
idden States
Source Text
Fernando Pech May Analisis de artıculo Noviembre 2018 26/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Primera propuesta de la arquitectura
1 Leen el texto origen palabra por palabra, produciendo unasecuencia de estados ocultos encoder. La lectura de laentrada es bidireccional
2 Despues de leer todo el texto, el decoder genera una secuenciade palabras que debe formar un resumen.
...
<START> Germany
Partial Summary
Germany emerge victorious in 2-0 win against Argentina on Saturday ...
Enco
der
Hid
den
Stat
es
DecoderH
idden States
Source Text
Fernando Pech May Analisis de artıculo Noviembre 2018 27/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Primera propuesta de la arquitectura
En cada paso, el decoder recibe como entrada la palabraanterior del resumen y lo usa para actualizar el estado ocultodel decodificador y tambien se utiliza para calcular ladistribucion de la atencion (una distribucion de probabilidadsobre las palabras).
...
Atte
ntio
nDi
strib
utio
n
<START>
VocabularyDistribution
Context Vector
Germany
a zoo
Partial Summary
"beat"
Germany emerge victorious in 2-0 win against Argentina on Saturday ...
Enco
der
Hid
den
Stat
es
DecoderH
idden States
Source Text
Fernando Pech May Analisis de artıculo Noviembre 2018 28/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Primera propuesta de la arquitectura
Distribucion de atencion
Le dice a la red donde buscar para producir la siguiente palabraSe usa para producir una suma ponderada de los estadosocultos del codificador, conocido como vector de contexto.
...
Atte
ntio
nDi
strib
utio
n
<START>
VocabularyDistribution
Context Vector
Germany
a zoo
Partial Summary
"beat"
Germany emerge victorious in 2-0 win against Argentina on Saturday ...
Enco
der
Hid
den
Stat
es
DecoderH
idden States
Source Text
Fernando Pech May Analisis de artıculo Noviembre 2018 29/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Primera propuesta de la arquitectura
El vector de contexto y el el estado oculta del decoder seutilizan para calcular la distribucion del vocabulario
La distribucion del vocabulario es una distribucion deprobabilidad sobre todas las palabras en un vocabulario fijogrande.
...
Atte
ntio
nDi
strib
utio
n
<START>
VocabularyDistribution
Context Vector
Germany
a zoo
Partial Summary
"beat"
Germany emerge victorious in 2-0 win against Argentina on Saturday ...
Enco
der
Hid
den
Stat
es
DecoderH
idden States
Source Text
Fernando Pech May Analisis de artıculo Noviembre 2018 30/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Primera propuesta de la arquitectura
Esta arquitectura es una buena solucion para resumenextractivo
Pero es solo temporal
Problemas que los autores obtuvieron1 El resumen generado es inexacto (e.g. Germany beat
Argentina 3-2)2 Los resumenes se repiten (e.g. Germany beat Germany beat
Germany beat. . . )
Fernando Pech May Analisis de artıculo Noviembre 2018 31/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Primera propuesta de la arquitectura
Motivos de la Inexactitud. Uso de seq2sec
X +
tanh
Xσσ
X
tanh σ
Concatenación X=Xt | Ht-1
Ht-1
Ct-1
Ht
Ct
Xt-1
Ht-1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
X1
H1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
Xt+1
Ht+1
...
Francisco was ... ...Encoder
END
Vector
X +
tanh
Xσσ
X
tanh σ
Concatenación X=Xt | Ht-1
Ht-1
Ct-1
Ht
Ct
Xt-1
Ht-1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
Xt
Ht
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
Xt+1
Ht+1
...
He is ... ...Decoder
END
START
Fernando Pech May Analisis de artıculo Noviembre 2018 32/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Primera propuesta de la arquitectura -Seq2sec
Encoder. Convierte una
secuencia de sımbolos en
un vector de carac-
terısticas. Procesa pala-
bra por palabra y emite
un contexto.
Decoder. Genera una se-
cuencia de salida, una
palabra a la vez, mien-
tras mira el contexto y la
palabra anterior durante
cada paso del tiempo.
X +
tanh
Xσσ
X
tanh σ
Concatenación X=Xt | Ht-1
Ht-1
Ct-1
Ht
Ct
Xt-1
Ht-1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
X1
H1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
Xt+1
Ht+1
...
Francisco was ... ...Encoder
END
Vector
X +
tanh
Xσσ
X
tanh σ
Concatenación X=Xt | Ht-1
Ht-1
Ct-1
Ht
Ct
Xt-1
Ht-1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
Xt
Ht
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
Xt+1
Ht+1
...
He is ... ...Decoder
END
START
Fernando Pech May Analisis de artıculo Noviembre 2018 33/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Primera propuesta de la arquitectura -Seq2sec
Motivo del problema 1El modelo seq2sec hace que sea
muy difıcil copiar una palabra w des-
de el texto de origen.
La red debe recuperar de algun mo-
do la palabra original despues de
que la informacion haya pasado por
varias capas.
si w es una palabra rara que aparecio
con poca frecuencia durante el en-
trenamiento, por lo tanto, tiene una
mala insercion de palabras. Lo hace
imposible reproducir.
X +
tanh
Xσσ
X
tanh σ
Concatenación X=Xt | Ht-1
Ht-1
Ct-1
Ht
Ct
Xt-1
Ht-1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
X1
H1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
Xt+1
Ht+1
...
Francisco was ... ...Encoder
END
Vector
X +
tanh
Xσσ
X
tanh σ
Concatenación X=Xt | Ht-1
Ht-1
Ct-1
Ht
Ct
Xt-1
Ht-1
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
Xt
Ht
X +
tanh
Xσσ
X
tanh σ
Concatenación X
Ht-1
Ct-1
Ht
Ct
Xt+1
Ht+1
...
He is ... ...Decoder
END
START
Fernando Pech May Analisis de artıculo Noviembre 2018 34/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Primera propuesta de la arquitectura
Motivo del problema 2
La repeticion puede deberse a la dependencia excesiva deldecodificacion en la entrada del decoder (es decir, la palabrade resumen anterior).
Una sola palabra repetida comunmente desencadena un ciclorepetitivo sin fin.
Fernando Pech May Analisis de artıculo Noviembre 2018 35/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Segunda propuesta -Solucion de problemas
Source Text
Germany emerge victorious in 2-0 win against Argentina on Saturday ...
...
<START>
Vocabulary Distribution
Context Vector
Germany
a zoo
beat
a zoo
Partial Summary
Final Distribution
"Argentina"
"2-0"
Atte
ntio
nDi
strib
utio
n
Enco
der
Hid
den
Stat
es
Decoder Hidden States
Fernando Pech May Analisis de artıculo Noviembre 2018 36/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Segunda propuesta -Solucion de problemas
Se calcula la probabilidad de generacion pgen
Source Text
Germany emerge victorious in 2-0 win against Argentina on Saturday ...
...
<START>
Vocabulary Distribution
Context Vector
Germany
a zoo
beat
a zoo
Partial Summary
Final Distribution
"Argentina"
"2-0"
Atte
ntio
nDi
strib
utio
n
Enco
der
Hid
den
Stat
esDecoder H
idden States
Fernando Pech May Analisis de artıculo Noviembre 2018 37/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Segunda propuesta -Solucion de problemas
Probabilidad de generacion
Representa la probabilidad de generar una palabra del vocabulario, enlugar de copiar una palabra de la fuente
Se utiliza para ponderar y combinar la distribucion del vocabulario(pgen), que es para generar w y la distribucion de la atencion (a), que espara senalar el origen w .
Esto da una distribucion final Pfinal .
Vocabulary Distribution
Context Vector
a zoo
a zoo
Final Distribution
"Argentina"
"2-0"
Atte
ntio
nDi
strib
utio
n
Fernando Pech May Analisis de artıculo Noviembre 2018 38/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Segunda propuesta -Solucion de problemas
La formula de la distribucion final indica:
La probabilidad de producir la palabra w ≡ probabilidad de generarla apartir del vocabulario (multiplicada por la probabilidad de generacion) +la probabilidad de senalarla en cualquier lugar que aparezca en el texto deorigen (multiplicada por la probabilidad de copia) .
Vocabulary Distribution
Context Vector
a zoo
a zoo
Final Distribution
"Argentina"
"2-0"
Atte
ntio
nDi
strib
utio
n
Fernando Pech May Analisis de artıculo Noviembre 2018 39/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Segunda propuesta -Solucion de problemas
1 Facilita la copia de palabras del texto de origen. La redsimplemente necesita poner suficiente atencion en la palabrarelevante y hacer un pgen suficientemente largo.
2 Es capaz de copiar palabras fuera de vocabulario del texto deorigen.
3 Es mas rapido de entrenar respecto al seq2sec.
4 Se puede combinar abstraccion y extraccion en el resumen
Hasta ahora, solo solucional el problema de inexactitud.
Fernando Pech May Analisis de artıculo Noviembre 2018 40/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Solucion de resumenes repetidos
Utilizan una tecnica llamada coberturaIdea. Usar la distribucion de atencion para hacer unseguimiento de lo que se ha cubierto hasta ahora, y penalizar ala red por atender a las mismas partes nuevamente.En cada paso del tiempo t del decoder, el vector decobertura c t es la suma de toda la distribucion de atencion
at . c t =t−1∑t′=0
at′
Fernando Pech May Analisis de artıculo Noviembre 2018 41/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Solucion de resumenes repetidos
La cobertura de una palabra fuente particular es igual a lacantidad de atencion que ha recibido hasta ahora
Fernando Pech May Analisis de artıculo Noviembre 2018 42/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Solucion de resumenes repetidos
Utilizan perdida adicional para penalizar cualquiersuperposicion entre el vector de cobertura ct y la nuevadistribucion de atencion at
Fernando Pech May Analisis de artıculo Noviembre 2018 43/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Metricas
ROUGE. Benchmark para evaluar aplicaciones de resumenesautomaticos y traduccion automatica.
METEOR. Metricas de evaluacion de traduccion automatica.
Usan 256 dimensiodes de estados ocultos y 128 dimensionesword embedding
50k palabras de vocabulario
Fernando Pech May Analisis de artıculo Noviembre 2018 44/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
Resultados
Fernando Pech May Analisis de artıculo Noviembre 2018 45/46
ResumenIntroduccion
Trabajos relacionadosBackground
Metodologıa propuesta
Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion
¿Preguntas?
CÓMPUTODistribuidoC A Cuerpo Académico
Fernando Pech May Analisis de artıculo Noviembre 2018 46/46