+ All Categories
Home > Documents > Karola Klarl seminario nel corso Linguaggio...

Karola Klarl seminario nel corso Linguaggio...

Date post: 24-Jul-2020
Category:
Upload: others
View: 13 times
Download: 0 times
Share this document with a friend
30
Summarization Karola Klarl seminario nel corso Elaborazione di Linguaggio Naturale
Transcript
Page 1: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Summarization

Karola Klarlseminario nel corso

Elaborazione di Linguaggio Naturale

Page 2: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Overview• Introduction• Steps of summarization

– Extraction– Interpretation– Generation

• Evaluation• Future

28.05.2013 Summarization 2

Page 3: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Why summarization?• Informing• Decision making• Time saving

28.05.2013 Summarization 3

Introduction

Page 4: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

What is a summary?• Text produced from one or more texts• That contains a significant portion of information from the original text

• That is no longer than half of the original text

28.05.2013 Summarization 4

Introduction

Page 5: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Types of summaries• Indicative Informative• Extract  Abstract• Generic  Query‐oriented• Single‐Doc  Multi‐Doc

28.05.2013 Summarization 5

Introduction

Page 6: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

ParadigmsInformation Extraction / NLP

• Top‐Down approach• Query‐driven focus • Query‐oriented summaries

• Tries to «understand»• Need of rules for text 

analysis at all levels

Information Retrieval / Statistics

• Bottom‐Up approach• Text‐driven focus• Generic summaries

• Operates at lexical level• Need of large amount of 

texts

28.05.2013 Summarization 6

Introduction

Page 7: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

ParadigmsInformation Extraction / NLP

+   Higher quality+   Supports abstracting

‐ Speed‐ Needs to scale up to robust 

open‐domain summarization

Information Retrieval / Statistics

+   Robust

‐ Lower quality‐ Inability to manipulate 

information at abstract levels

28.05.2013 Summarization 7

Introduction

Combine strength of both paradigms

Page 8: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Overview• Introduction• Steps of summarization

– Extraction– Interpretation– Generation

• Evaluation• Future

28.05.2013 Summarization 8

Page 9: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Steps of summarization

28.05.2013 Summarization 9

Steps of summarization

• Extraction Extracts

• (Filtering)• Only for Multi‐Docs

• Interpretation Templates  (unreadable abstract representations)

• Generation Abstracts

Page 10: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Extraction• General procedure

– Several independent modules– Each module assigns score to each unit of input– Combination module combines scores to a single score

– System returns n highest‐scoring units

28.05.2013 Summarization 10

Extraction

Page 11: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Methods• Position‐based• Cue‐Phrase• Word‐Frequency• Cohesion‐based• Discourse‐based• And many more …

28.05.2013 Summarization 11

Extraction

Page 12: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Position‐based methods• Lead method

– Claim:  important sentences occur at the beginning (or end) of texts

• OPP (Optimum Position Policy)– Claim:  important sentences are located at genre‐

dependent positionspositions can be determined through training

• Title‐based method– Claim: words in titles are relevant to summarization

28.05.2013 Summarization 12

Extraction

Page 13: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Cue‐Phrase method• Claim 1: important sentences contain «bonus 

phrases»(in this paper we show, significantly, in conclusion)

non important sentences contain «stigma phrases»(hardly, impossible)

• Claim 2: phrases can be detected automatically

28.05.2013 Summarization 13

Extraction

Page 14: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Word frequency‐based method• Claim: important sentences contain words 

that occur frequently  Zipf’s law distribution

• Generality makes it attractive for further study

28.05.2013 Summarization 14

Extraction

Page 15: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Cohesion‐based methods• Claim:  important sentences are the highest 

connected entities in semantic structures

• Classes of approaches– Word co‐occurrences– Local salience and grammatical relations– Co‐reference– Lexical chains– Combinations

28.05.2013 Summarization 15

Extraction

Page 16: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Discourse‐based method• Claim: coherence structure of a text can be 

constructed and «centrality» of units reflects their importance

• Coherence structure = tree‐like representation

28.05.2013 Summarization 16

Extraction

Page 17: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Extraction• All methods seem to work• No method performs as well as humans

• No obvious best strategy

28.05.2013 Summarization 17

Extraction

Page 18: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Interpretation• Occurs at conceptual level• Result = something new, not contained in input

• Need of „world knowledge“, separate from inputReally difficult to build domain knowledgeLittle work so far

28.05.2013 Summarization 18

Interpretation

Page 19: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Interpretation• Methods

– Condensation operators– Topic signatures– And others …

28.05.2013 Summarization 19

Interpretation

Page 20: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Condensation operators• Parse text• Build  terminological representation• Apply condensation operators• Build hierarchy of topic descriptions

• Until now no parser/generator has been built!

28.05.2013 Summarization 20

Interpretation

Page 21: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Topic signatures• Claim: can approximate topic identification 

at lexical level using automatically aquired «word families»

• Topic signature is defined by frequency distribution of words related to concept

• Inverse of query expansion in Information Retrieval

28.05.2013 Summarization 21

Interpretation

Page 22: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Generation• Level 1: no separate generation

Produce extracts from input text

• Level 2: simple sentencesAssemble portions of extracted clauses together

• Level 3: full NL GenerationSentence planner: plan content, lenght, 

theme, order, words , …Surface realizer: linearize input 

grammatically

28.05.2013 Summarization 22

Generation

Page 23: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Overview• Introduction• Steps of summarization

– Extraction– Interpretation– Generation

• Evaluation• Future

28.05.2013 Summarization 23

Page 24: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Evaluation• If you already have a summary

– Compare the new one to it– Choose granularity (clause, sentence, paragraph)– Measure similarity of each unit in the new summary to the most similar units in the «gold standard»

– Measure Precision and Recall

28.05.2013 Summarization 24

Evaluation

Page 25: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Evaluation• If you don’t have a summary

– Compression ratio CR = length S / length T– Retention ratio       RR = info in S / info in T

• RR is measured through Q&A games– Shannon game: quantifies information 

content– Question game: test reader’s understanding

28.05.2013 Summarization 25

Evaluation

Page 26: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Overview• Introduction• Steps of summarization

– Extraction– Interpretation– Generation

• Evaluation• Future

28.05.2013 Summarization 26

Page 27: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

What has to be done …• Data preparation

– Collect sets of texts and abstracts– Corpora of <text, abstract, extract>

• Types of summaries– Determine characteristics for each type

• Extraction– New extraction methods– Heuristics for method combination

28.05.2013 Summarization 27

Future

Page 28: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

What has to be done …• Interpretation

– Investigate types of fusion– Create collections of knowledge– Study incorporation of user’s knowledge in interpretation

• Generation– Develop sentence planner rules for dense packing of content into sentences

• Evaluation– Better evaluation metrics

28.05.2013 Summarization 28

Future

Page 29: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

Grazie per l‘attenzione!

Spero che il mio italiano fosse comprensibile 

Page 30: Karola Klarl seminario nel corso Linguaggio Naturaledidawikinf.di.unipi.it/lib/exe/fetch.php/magistraleinformatica/eln/... · Karola Klarl seminario nel corso Elaborazione di Linguaggio

References• The Oxford Handbook of Computational Linguistics, Mitkov R., Oxford: Oxford University Press, pp.583‐598 (encyclopedia entry: Automated Text Summarization, Hovy E.H. 2005)

• Automated Text Summarization Tutorial, COLING/ACL '98, by E.Hovy e D.Marcuhttp://www.isi.edu/~marcu/acl‐tutorial.ppt

• Text Summarization Tutorial ACM SIGIR, by D. R. Radevhttp://www.summarization.com/sigirtutorial2004.ppt

• http://en.wikipedia.org/wiki/Automatic_summarization

28.05.2013 Summarization 30


Recommended