An alisis de Art culo: Get To The Point: Summarization with...

ResumenIntroduccion

Trabajos relacionadosBackground

Metodologıa propuesta

Analisis de Artıculo:Get To The Point: Summarization with

Pointer-Generator Networks

Autores: 1Abigail See, 2Peter J. Liu y 1Christopher D. Manning

1Universidad de Stanford2 Grupo de Google

Analiza: Fernando Pech MayInstituto Tecnologico Superior de los Rıos

Noviembre 2018

Fernando Pech May Analisis de artıculo Noviembre 2018 1/46

ResumenIntroduccion



Informacion

Abigail See, Peter J. Liu, and Christopher D. Manning.Get to the point: Summarization with pointer-generatornetworks.In Proceedings of the 55th Annual Meeting of the Associationfor Computational Linguistics (Volume 1: Long Papers), pages1073–1083. Association for Computational Linguistics, 2017.

Enlace: https://arxiv.org/pdf/1704.04368.pdf


ResumenIntroduccion



Resumen

En este artıculo presentan una nueva arquitectura deaprendizaje profundo para la extraccion de resumenes,abstractivo, de texto en documentos no estructurados.


ResumenIntroduccion



Tipos de generacion de resumenes

Procesamiento de lenguaje natural (PLN)

El procesamiento de lenguaje natural proporciona tecnicaspara el analisis y representacion del lenguaje humano

Con el PLN se puenden realizar tareas como:1 Analisis morfologico (POS)2 Reconocimiento de entidades nombradas (NER)3 Generacion de resumenes4 Segmentacion de texto5 Traduccion automatica6 Analisis de sentimientos7 Sistemas de dialogos, etc.

Este artıculo trata sobre lageneracion de resumenes


ResumenIntroduccion




Resumen

Un resumen puede definirse como untexto producido de uno o mas textos,que contiene una porcion significati-va de la informacion respecto al textooriginal.


ResumenIntroduccion




Resumen

Dos enfoques para la extraccion de resumen:

Abstractivo. Genera oracionesnuevas a partir del documentooriginal.

Extractivo. Seleccionafragmentos del texto original yluego los organiza para formarun resumen.

Conjunto de documentos D

d1 d2 d3 dn...

S1: Clasificación de sentencias

...c1 c2 c3 cm

S2: Generación de sentencias para el resumen

...c1 c2 c3 cm

Extractivo Abstractivo

...c1 c2 c3 cm

Sentencias


ResumenIntroduccion




Resumen

La mayorıa de los enfoques sonextractivos. Implica seleccionary reorganizar oraciones deldocumento original.

El Abstractivo es muy complejopor el hecho de generar textodesde cero.

Este artıculo genera resumenabstractivo

Conjunto de documentos D

d1 d2 d3 dn...

S1: Clasificación de sentencias

...c1 c2 c3 cm

S2: Generación de sentencias para el resumen

...c1 c2 c3 cm

Extractivo Abstractivo

...c1 c2 c3 cm

Sentencias


ResumenIntroduccion



Trabajos relacionados

Extractive Summarization using Deep Learning (2017)

Abstractive text summarization using sequence-to-sequencernns and beyond (2016)

SummaRuNNer: A Recurrent Neural Network Based SequenceModel for Extractive Summarization of Documents (2017)

A Deep Reinforced Model for Abstractive Summarization(2016)


ResumenIntroduccion



Enfoques para la extraccion de resumenesAprendizaje profundo

Enfoques para la extraccion de resumenes

Metodos estadısticos

Basados en caracterısticas

Aprendizaje automatico

Logica difusa

Basado en grafos

Semantica Distribucional

LSA (Analisis de semantica latente)NMF (Factorizacion de matriz no-negativa)Word2Vec


ResumenIntroduccion




Red Neuronal Artificial

Paradigma de programacion que permite auna computadora aprender de los datosobservados.

Compuesto por un gran numero de elementosde procesamiento interconectados y quetrabajan conjuntamente para resolver unproblema.


ResumenIntroduccion




Red Neuronal Artificial

Conformado por 3capas

1 Capa deentrada

2 Capa oculta3 Capa de salida

...

x1

x2

x3

xn

X

Capa de entrada

...

Capa oculta Capa desalida

Y

Salidas

y1

y2

Red Neuronal


ResumenIntroduccion




Red Neuronal Artificial (RNA)

Conformado por 3capas

1 Capa deentrada

2 Capa oculta3 Capa de salida

...

x1

x2

x3

xn

X

Entradas

...

Capa oculta

...

Capa desalida

Y

Salidas

y1

y2

Red Neuronal


ResumenIntroduccion




Red neuronal artificial (RNA)

Inconvenientes:1 Numero

limitado decapas

2 Imposiblerepresentarproblemascomplejos

3 No es escalable

...

x1

x2

x3

xn

X

Entradas

...

Capa oculta

...

Capa desalida

Y

Salidas

y1

y2

Red Neuronal


ResumenIntroduccion




Aprendizaje profundo

Las RNAs que consisten de mas de capas se le denominanredes neuronales profundasEl entrenamiento de las RNA profundas se denominaaprendizaje profundo


ResumenIntroduccion





El aprendizaje profundo son conjunto de tecnicas poderosaspara el aprendizaje en redes neuronales y con ella es posibleresolver problemas complejos de prediccion y clasificacion.Existen distintas metodos de aprendizaje profundo paraanalisis de imagenes, texto y sonido.


ResumenIntroduccion





Redes Neuronales recurren-tes (RNN)

Excelentes para el PLN

Construyen unarepresentacion vectorialpara cada token

Son redes con bucles quepermiten que lainformacion persista y soncapaces de manejar datossecuenciales

Redes Neuronales convolu-cionales (CNN)

Principalmente alprocesamiento deimagenes

Utilizado en vision porcomputadora

Se ha usado en PLN conexito


ResumenIntroduccion




Red neuronal Recurrente -RNN

Este artıculo utiliza RNN.RNN tiene distintas versiones

1 La version simple

2 LSTM (Long Short Term Memory)

3 GRU (Gated Recurrent Units)

La diferencia entre ellas radica en la arquitectura de la unidad dememoria.


ResumenIntroduccion




Red neuronal Recurrente simple

Xt-1

Ht-1

tanh

Xt

Ht

tanh

Xt+1

Ht+1

tanhcelda

Xt

Ht

H

a)

=

...

...

b)

Output

Input


ResumenIntroduccion




Red neuronal Recurrente simple

Problema:no guarda informacion de celdas anterioresSon incapaces de aprender a largo plazo

celda

X0

H0

celda

X2

H2

celda

X3

H3

celda

X1

H1

celda

X0

H0

celda

X1

H1

celda

X2

H2

celda

Xt

Ht

celda

Xt+1

Ht+1

...

a) b)

Francisco was born ... His mother tongue .... in child


ResumenIntroduccion




RNN-LSTM

Son RNN con memoria a largo plazo

Capaces de aprender dependencias a largo plazo, recordarinformacion por periodos largos de tiempo

Consta de cuatro capas que interactuan entre sı; esto permiteque recuerde dependencias a largo plazo.


ResumenIntroduccion




RNN-LSTM

X +

tanh

Xσσ

X

tanh σ

Concatenación X=Xt | Ht-1

Ht-1

Ct-1

Ht

Ct

Xt

Yt

σ tanh Capas

Operaciones puntualesX +tanh


ResumenIntroduccion




RNN-LSTM

Es un estandar para distintas tareas de PLN... pero

Problema:no guarda informacion de celdas anterioresEs unidireccional, solo es capaz de conservar informacion delpasadoNo proporciona buenos resultados para NER, similitud ycontexto semantico


ResumenIntroduccion




RNN-LSTM

Por ejemplo, si se desea extraer el contexto de una entidad,solamente puede detectar el contexto izquierdo.

X +

tanh

Xσσ

X

tanh σ


Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

X1

H1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...

Francisco was ... ...


ResumenIntroduccion




RNN-LSTM bidireccional

Se constituye de dos capas1 Una capa que aprende representaciones previas2 Otra que retrocede en el el tiempo, para aprender

representaciones futuras

Capaces de analizar oraciones hacia adelante (forward) yhacia atras (backward)

La primera capa analiza el texto hacia adelante →La segunda capa analiza texto hacia atras ←


ResumenIntroduccion




RNN-LSTM bidireccional

CeldaLSTM

X0

H0

X0

H0

X0

H0

Francisco was born ...

X0

H0

Forward CeldaLSTM

CeldaLSTM

CeldaLSTM

CeldaLSTM

CeldaLSTM

CeldaLSTM

CeldaLSTMBackward

+ + + +

X +

tanh

Xσσ

X

tanh σ


Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

Celda LSTM


ResumenIntroduccion



Primera propuestaSeq2sec -Encoder-DecoderSegunda propuestaVentajas de la generacion de punterosSolucion de resumenes repetidosExperimentacion

Primera propuesta de la arquitectura

...

Atte

ntio

nDi

strib

utio

n

<START>

VocabularyDistribution

Context Vector

Germany

a zoo

Partial Summary

"beat"

Germany emerge victorious in 2-0 win against Argentina on Saturday ...

Enco

der

Hid

den

Stat

es

DecoderH

idden States

Source Text


ResumenIntroduccion





1 Leen el texto origen palabra por palabra, produciendo unasecuencia de estados ocultos encoder. La lectura de laentrada es bidireccional

2 Despues de leer todo el texto, el decoder genera una secuenciade palabras que debe formar un resumen.

...

<START> Germany

Partial Summary


Enco

der

Hid

den

Stat

es

DecoderH

idden States

Source Text


ResumenIntroduccion





En cada paso, el decoder recibe como entrada la palabraanterior del resumen y lo usa para actualizar el estado ocultodel decodificador y tambien se utiliza para calcular ladistribucion de la atencion (una distribucion de probabilidadsobre las palabras).

...

Atte

ntio

nDi

strib

utio

n

<START>


Context Vector

Germany

a zoo

Partial Summary

"beat"


Enco

der

Hid

den

Stat

es

DecoderH

idden States

Source Text


ResumenIntroduccion





Distribucion de atencion

Le dice a la red donde buscar para producir la siguiente palabraSe usa para producir una suma ponderada de los estadosocultos del codificador, conocido como vector de contexto.

...

Atte

ntio

nDi

strib

utio

n

<START>


Context Vector

Germany

a zoo

Partial Summary

"beat"


Enco

der

Hid

den

Stat

es

DecoderH

idden States

Source Text


ResumenIntroduccion





El vector de contexto y el el estado oculta del decoder seutilizan para calcular la distribucion del vocabulario

La distribucion del vocabulario es una distribucion deprobabilidad sobre todas las palabras en un vocabulario fijogrande.

...

Atte

ntio

nDi

strib

utio

n

<START>


Context Vector

Germany

a zoo

Partial Summary

"beat"


Enco

der

Hid

den

Stat

es

DecoderH

idden States

Source Text


ResumenIntroduccion





Esta arquitectura es una buena solucion para resumenextractivo

Pero es solo temporal

Problemas que los autores obtuvieron1 El resumen generado es inexacto (e.g. Germany beat

Argentina 3-2)2 Los resumenes se repiten (e.g. Germany beat Germany beat

Germany beat. . . )


ResumenIntroduccion





Motivos de la Inexactitud. Uso de seq2sec

X +

tanh

Xσσ

X

tanh σ


Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

X1

H1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...

Francisco was ... ...Encoder

END

Vector

X +

tanh

Xσσ

X

tanh σ


Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt

Ht

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...

He is ... ...Decoder

END

START


ResumenIntroduccion




Primera propuesta de la arquitectura -Seq2sec

Encoder. Convierte una

secuencia de sımbolos en

un vector de carac-

terısticas. Procesa pala-

bra por palabra y emite

un contexto.

Decoder. Genera una se-

cuencia de salida, una

palabra a la vez, mien-

tras mira el contexto y la

palabra anterior durante

cada paso del tiempo.

X +

tanh

Xσσ

X

tanh σ


Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

X1

H1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...


END

Vector

X +

tanh

Xσσ

X

tanh σ


Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt

Ht

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...


END

START


ResumenIntroduccion




Primera propuesta de la arquitectura -Seq2sec

Motivo del problema 1El modelo seq2sec hace que sea

muy difıcil copiar una palabra w des-

de el texto de origen.

La red debe recuperar de algun mo-

do la palabra original despues de

que la informacion haya pasado por

varias capas.

si w es una palabra rara que aparecio

con poca frecuencia durante el en-

trenamiento, por lo tanto, tiene una

mala insercion de palabras. Lo hace

imposible reproducir.

X +

tanh

Xσσ

X

tanh σ


Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

X1

H1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...


END

Vector

X +

tanh

Xσσ

X

tanh σ


Ht-1

Ct-1

Ht

Ct

Xt-1

Ht-1

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt

Ht

X +

tanh

Xσσ

X

tanh σ

Concatenación X

Ht-1

Ct-1

Ht

Ct

Xt+1

Ht+1

...


END

START


ResumenIntroduccion





Motivo del problema 2

La repeticion puede deberse a la dependencia excesiva deldecodificacion en la entrada del decoder (es decir, la palabrade resumen anterior).

Una sola palabra repetida comunmente desencadena un ciclorepetitivo sin fin.


ResumenIntroduccion




Segunda propuesta -Solucion de problemas

Source Text


...

<START>

Vocabulary Distribution

Context Vector

Germany

a zoo

beat

a zoo

Partial Summary

Final Distribution

"Argentina"

"2-0"

Atte

ntio

nDi

strib

utio

n

Enco

der

Hid

den

Stat

es

Decoder Hidden States


ResumenIntroduccion





Se calcula la probabilidad de generacion pgen

Source Text


...

<START>


Context Vector

Germany

a zoo

beat

a zoo

Partial Summary

Final Distribution

"Argentina"

"2-0"

Atte

ntio

nDi

strib

utio

n

Enco

der

Hid

den

Stat

esDecoder H

idden States


ResumenIntroduccion





Probabilidad de generacion

Representa la probabilidad de generar una palabra del vocabulario, enlugar de copiar una palabra de la fuente

Se utiliza para ponderar y combinar la distribucion del vocabulario(pgen), que es para generar w y la distribucion de la atencion (a), que espara senalar el origen w .

Esto da una distribucion final Pfinal .


Context Vector

a zoo

a zoo

Final Distribution

"Argentina"

"2-0"

Atte

ntio

nDi

strib

utio

n


ResumenIntroduccion





La formula de la distribucion final indica:

La probabilidad de producir la palabra w ≡ probabilidad de generarla apartir del vocabulario (multiplicada por la probabilidad de generacion) +la probabilidad de senalarla en cualquier lugar que aparezca en el texto deorigen (multiplicada por la probabilidad de copia) .


Context Vector

a zoo

a zoo

Final Distribution

"Argentina"

"2-0"

Atte

ntio

nDi

strib

utio

n


ResumenIntroduccion





1 Facilita la copia de palabras del texto de origen. La redsimplemente necesita poner suficiente atencion en la palabrarelevante y hacer un pgen suficientemente largo.

2 Es capaz de copiar palabras fuera de vocabulario del texto deorigen.

3 Es mas rapido de entrenar respecto al seq2sec.

4 Se puede combinar abstraccion y extraccion en el resumen

Hasta ahora, solo solucional el problema de inexactitud.


ResumenIntroduccion




Solucion de resumenes repetidos

Utilizan una tecnica llamada coberturaIdea. Usar la distribucion de atencion para hacer unseguimiento de lo que se ha cubierto hasta ahora, y penalizar ala red por atender a las mismas partes nuevamente.En cada paso del tiempo t del decoder, el vector decobertura c t es la suma de toda la distribucion de atencion

at . c t =t−1∑t′=0

at′


ResumenIntroduccion





La cobertura de una palabra fuente particular es igual a lacantidad de atencion que ha recibido hasta ahora


ResumenIntroduccion





Utilizan perdida adicional para penalizar cualquiersuperposicion entre el vector de cobertura ct y la nuevadistribucion de atencion at


ResumenIntroduccion




Metricas

ROUGE. Benchmark para evaluar aplicaciones de resumenesautomaticos y traduccion automatica.

METEOR. Metricas de evaluacion de traduccion automatica.

Usan 256 dimensiodes de estados ocultos y 128 dimensionesword embedding

50k palabras de vocabulario


ResumenIntroduccion




Resultados


ResumenIntroduccion




¿Preguntas?

CÓMPUTODistribuidoC A Cuerpo Académico


Date post:	23-Apr-2020
Category:	Documents
Upload:	others
View:	4 times
Download:	0 times