POS
Experimente zur Detektion von intertextuellenShakespeare-Referenzen mithilfe von Word Embeddings
3. Parameter
- Gewichtung übereinstimmender POS tags - Penalties für nicht übereinstimmende Tokens - Wahl des Word Embeddings - Ähnlichkeitsmetrik für Vektoren des Embeddings
1. Motivation: Quantitative Detektion von intertextuellen Shakespeare-Referenzen
4. Optimale Alignments
Alignment und Scoring von Satzpaaren via Dynamic Programming:
2. Ansatz: Effiziente Suche optimaler Alignments mittels weicher Constraints und parametrisierter Ähnlichkeitsmetriken auf Basis von Word Embeddings
Bernhard Liebl1, Manuel Burghardt1 1Computational Humanities, Universität Leipzig
Kontakt: Bernhard Liebl ([email protected]) Gedruckt im Universitätsrechenzentrum Leipzig
„ALL THE WORLD'S A VECTOR“
Apache Parquet
…
Embedding
…
1
2
Token
Token-Lexikon
seasea
thethe
underunder
ther
eth
ere
bene
ath
bene
ath
the
the
gree
ngr
een
ocea
noc
ean
Korpus
Preprocessor
fast
Text
w
net2
vec
C++17 Python
Apache Arrow
POS
…
DT
NN
Token
…
23
1238
…
1
Satz
1
…
1
1
Doc
Sätze
Tokens
Attribute
Alignment
Basis-Metrik
POS