+ All Categories
Home > Documents > Semantisk analys - IDA > HomeTDDD02/info/TDDD02-2016-F5.pdfLesks algoritm ’e bank can guarantee...

Semantisk analys - IDA > HomeTDDD02/info/TDDD02-2016-F5.pdfLesks algoritm ’e bank can guarantee...

Date post: 01-Jul-2019
Category:
Upload: vukhuong
View: 218 times
Download: 0 times
Share this document with a friend
43
Semantisk analys Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016)
Transcript

Semantisk analys

Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016)

Semantik

morfologi

syntax

semantik

pragmatik

genereringanalys

Denna föreläsning

• ordbetydelsebestämning

• likhet mellan ord

Ordbetydelsebestämning

Ordbetydelsebestämning

Ordbetydelsebestämning handlar om att avgöra den i sammanhanget korrekta betydelsen för ett ord.

Lemman och lexem

• Lemma: ord som formenhet bil – bil, bilen, bils, bilar, bilarna, bilarnas

• Lexem: ord som betydelseenhet kurs1 ”studieavsnitt”, kurs2 ”pris på värdepapper”

Semantiskt lexikon

• färg1: grundläggande, genom synen uppfattad egenskap (hos ngt) som beror på det slags ljus som utsänds (från detta) och som ofta kan jämföras med viss del av regnbågen.

• färg2: klibbigt, vanligen flytande, ämne, innehållande partiklar av viss kulör, avsett att strykas ut och torka till ett tunt skikt

• färg3: sammanfattning av olika egenskaper som ger (visst) speciellt intryck mest i fråga om var för sig relativt obestämda el. svårbeskrivna egenskaper

Homonymer

• Homonymer: ord som har samma form men olika betydelser kurs, får, ekar

• Homografer: ord som har samma stavning men olika betydelser anrika, banan, kör

• Homofoner: ord som har samma uttal men olika betydelser beck/bäck, kål/kol, sej/sig/säg

Ordbetydelsebestämning som taggning

• När vi har data som är uppmärkta med korrekta ordbetydelser kan vi använda övervakad inlärning.

• Samma ansats som för ordklasstaggning: Träna en klassificerare som kan predicera ett ords betydelse utifrån extraherade särdrag.

Träningsdata för ordbetydelsebestämning

<instance id=“färg.3” senseid=“färg2”> <context> Efter 20–30 år kommer plastfärgen att vittra bort ändå och under tiden gör inte linoljefärgen någon ytterligare skada. Många är rädda för att använda linoljefärger för att det har hänt att färgen inte torkar. Men det har i sådana fall berott på att <head>färgen<head> målats på för tjockt. – Ett gammalt talesätt är att om du har tio liter i burken när du börjar ska du ha elva när du är klar. Är färgen bra täcker den när den är tunn också. </context> </instance>

Lexikonbaserade metoder

Som ett alternativ till maskininlärning används ofta resurser såsom semantiska lexikon (tesaurusar) för ordbetydelsebestämning.

WordNet

http://wordnet.princeton.edu

• En stor databas med ordbetydelser och semantiska relationer.

• En ordbetydelse representeras som en mängd av ömsesidigt synonyma ord, ett så kallat synset.

• Den centrala semantiska relationen mellan ordbetydelser är hyponymi–hyperonymi.

Synonymer och antonymer

• Synonymer: ord som kan ersätta varandra i vissa sammanhang lysande, klart, skimrande, glänsande

• Synonymi är inget absolut begrepp; ord kan vara synonyma i ett sammanhang men inte synonyma i ett annat.

• Antonymer: ord som har motsatta betydelser varmt – kallt, levande – död, grina – grina

Hyponymer och hyperonymer

• Hyponymer: semantiskt underordnade ord bil < fordon, mango < frukt, stol < möbel

• En hyponym till ett ord är mindre abstrakt och innehåller mer information än detta ord.

• Hyperonymer: semantiskt överordnade ord

nickel dime

coin

coinage, mintage, specie, metal money

currency

standard, criterion, measure, touchstone

medium of exchange, monetary system

scale, graduated table, ordered series

Richter scalemoney

fund, monetary fund

budget

Lesks algoritm

• En enkel lexikonbaserad ansats för ordbetydelsebestämning är Lesks algoritm.

• Indata: En text innehållande ett målord 𝑤 och ett antal möjliga ordbetydelser, definierade i ett semantiskt lexikon.

• Utdata: Den ordbetydelse som ger det största överlappet mellan texten och betydelsedefinitionen, räknat i antalet ord.

Lesks algoritm

The bank can guarantee deposits that will eventually cover future tuition costs because it invests in adjustable-rate mortgage securities.

• bank1: a financial institution that accepts deposits and channels the money into lending activities. Examples: “he cashed a check at the bank”, “that bank holds the mortgage on my home”

• bank2: sloping land (especially the slope beside a body of water). Examples: “they pulled the canoe up on the bank”, “he sat on the bank of the river and watched the currents”

Övningsuppgift

• På nästa bild visas definitioner för fyra olika betydelser av ordet papper. Välj ut en av betydelserna.

• Formulera sedan två meningar som innehåller ordet papper i den utvalda betydelsen:

• en mening där Lesk räknar ut den avsedda betydelsen,

• en mening där Lesk räknar ut fel betydelse.

Övningsuppgift

• papper1: material, primärt format i tunna ark avsedda för skrift, vanligen tillverkat av växtfibrer.

• papper2: en bit av ovanstående material, i allmänhet använt för att skriva eller rita på.

• papper3: dokument, handling. ”Om man ska åka utomlands bör man se till att inte glömma sina papper.”

• papper4: artikel publicerad i en vetenskaplig tidskrift.

Utvärdering av ordbetydelsebestämning

• Ett vanligt utvärderingsmått för ordbetydelsebestämning är korrekthet relativt till en guldstandard.

• Som baseline används oftast förekommande ordbetydelse eller Lesks algoritm.

Attitydlexikon

• En attityd är en långvarig, emotionellt färgad inställning mot andra människor, objekt eller institutioner

• Enskilda ord har ofta en ”inbyggd” attityd som kan hjälpa oss att analysera attityden i en hel text. fantastisk, kass, uppskatta

• Ett attitydlexikon är ett lexikon som innehåller information om dessa inbyggda attityder.

Attitydlexikon

• General Inquirer http://www.wjh.harvard.edu/~inquirer/

• LIWC (Linguistic Inquiry and Word Count) http://www.liwc.net/

• MPQA Subjectivity Cues Lexicon http://mpqa.cs.pitt.edu/lexicons/subj_lexicon/

Likhet mellan ord

nickel dime

coin

coinage, mintage, specie, metal money

currency

standard, criterion, measure, touchstone

medium of exchange, monetary system

scale, graduated table, ordered series

Richter scalemoney

fund, monetary fund

budget

Likhet mellan ord

• Synonymi är en relation som antingen råder eller inte råder mellan två lexem (i en given kontext).

• Semantisk likhet är en graduell relation, dvs. olika ordbetydelser är mer eller mindre lika varandra.

Likhet mellan ord: Tillämpningar

• Informationsutvinning

Hitta dokument som innehåller ord som har semantisk likhet med orden i sökfrågan.

• Automatisk rättning av tentor

Hitta ett mått på hur nära studentens svar kommer svaret i lärarens facit.

Likhet mellan ord

lexikonbaserade metoder

distributionella metoder

Likhet i WordNet

• Intuition: kort avstånd i hierarkin = stor semantisk likhet

• pathlength(𝑠1, 𝑠2)

längden på den kortaste vägen mellan synset 𝑠1 och synset 𝑠2

• likhet mellan två synsets:

sim(𝑠1, 𝑠2) = 1 / (1 + pathlength(𝑠1, 𝑠2))

nickel dime

coin

coinage, mintage, specie, metal money

currency

standard, criterion, measure, touchstone

medium of exchange, monetary system

scale, graduated table, ordered series

Richter scalemoney

fund, monetary fund

budget

sim(nickel, dime) = 1/(1 + 2) = 1/3

nickel dime

coin

coinage, mintage, specie, metal money

currency

standard, criterion, measure, touchstone

medium of exchange, monetary system

scale, graduated table, ordered series

Richter scalemoney

fund, monetary fund

budget

sim(nickel, budget) = 1/(1 + 7) = 1/8

Problem med enkla avståndsmått

• Ju högre upp vi går i hierarkin, desto mindre sammanhang finns det mellan semantisk likhet och avstånd mellan synsets. jämför coin – nickel med standard – monetary system

• En enkel idé att lösa detta problem är att låta länkarna representera olika längder.

• Ju större hierarkin blir desto mindre blir det minimala likhetsvärde mellan synsets. eftersom det maximala avståndet blir allt större

Likhet mellan ord

lexikonbaserade metoder

distributionella metoder

Distributionell semantik

• Den distributionella hypotesen

‘You shall know a word by the company it keeps.’ Firth (1957)

• The Word Space Model

‘Words can be represented as points in a 𝑑-dimensional space such that nearby words (points) are similar in terms of their distributional properties.’ Lin et al. (2015)

Ord som vektorer

queen

soccer

king

One hot-vektorer

• Det enklaste sättet att representera ord som vektorer är att koda dem som one hot-vektorer.

• Denna representation antar att orden är numrerade från 1 to 𝑑, där 𝑑 är vokabulärens totala storlek.

• One hot-vektorn för ord nummer 𝑖 är den 𝑑-dimensionella vektorn där alla komponenter är noll, men komponent 𝑖 är 1.

Matris med samförekomster

kontextord

crown throne reign Sweden match goal play

queen 4 1 1 2 0 0 0

king 3 2 1 3 1 0 0

soccer 1 0 0 4 3 4 2

hockey 0 1 0 1 2 1 1

mål

ord

Matris med samförekomster

kontextord

crown throne reign Sweden match goal play

queen 4 1 1 2 0 0 0

king 3 2 1 3 1 0 0

soccer 1 0 0 4 3 4 2

hockey 0 1 0 1 2 1 1

mål

ord

Ord som vektorer

queen

soccer

king

crown

Sweden

Hur hanterar man gleshet?

Att räkna antalet samförekomster ger ordvektorer som har många dimensioner men som är väldigt glesa (många nollor).

• Ansats 1: Dimensionalitetsreduktion singulärvärdesdekomposition

• Ansats 2: Direkt inlärning av lågdimensionella, täta vektorer continuous bag-of-words, skip-gram

The continuous bag-of-words model

𝒙−2

𝒉

𝒙−1

𝒙+1

𝒙+2

𝒙

Predict the one-hot vector for the current word 𝒙 from the one-hot vectors for the surrounding words.

Read off the word vector for 𝒙 from the activations of the units in the hidden layer.

Kompositionell struktur av ordvektorer

queen

king

woman

man

Sammanfattning: Semantisk analys

• ordbetydelsebestämning, likhet mellan ord

• Viktiga begrepp

synonym/antonym, hyponym/hyperonym, Lesks algoritm, semantisk likhet, ord som vektorer

• Läsanvisningar

Jurafsky och Martin, 19–19.3, 20–20.7 (ej 20.5, 20.7.2)

Vad betyder en mening?

• Kompositionalitetsprincipen Betydelsen hos ett komplext uttryck avgörs av betydelserna hos dess deluttryck och hur dessa deluttryck har kombinerats. utmaningar: idiomatiska uttryck, kontextualitet

• Syntax har en avgörande roll för en menings betydelse. The brown dog on the mat saw the striped cat through the window. The brown cat saw the striped dog through the window on the mat.


Recommended