+ All Categories
Home > Documents > Exploring Polish-English Parallel Corpora with...

Exploring Polish-English Parallel Corpora with...

Date post: 10-Apr-2020
Category:
Upload: others
View: 1 times
Download: 0 times
Share this document with a friend
25
Paralela Exploring Polish-English Parallel Corpora with Piotr Pęzik University of Łódź pelcra.pl
Transcript
Page 1: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Paralela

Exploring Polish-English Parallel Corpora with

Piotr Pęzik University of Łódź

pelcra.pl

Page 2: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

About the data• Manually and automatically aligned collections

acquired in a number of projects (CESAR, ATLAS and most notably: CLARIN-PL)

• Finally made available through Paralela, which is developed as one of the CLARIN-PL (clarin-pl.eu) applications

• An open-ended corpus with user-defined virtual collections

Page 3: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Sources

0"

10000000"

20000000"

30000000"

40000000"

50000000"

60000000"

70000000"

JRC-Acquis" EUBooks" EMEA" RAPID"

Sources(1..5(

Words"

0"

20000"

40000"

60000"

80000"

100000"

120000"

cosel"wiry"

korsarz"

bruhl" po

e"

napoluchwaly"

diveinto"

sawyer"

gulliver"

flowerofnorth"

argonauci"

duet"

treasure"

2ndjunglebook"

skalky"

almayer"

Sources(27..42(

Words" 0"10000"20000"30000"40000"50000"60000"70000"

houn

dbaskervilles1"

houn

dbaskervilles2"

thegoldh

unters"

golden

snare"

captainscourageo

us"

kres"

puck"

thew

ol=un

ters"

then

iggero>h

enarcissus"

junglebo

ok1"

junglebo

ok2"

thestoryo>

hetreasuresee

shadow

line"

heartofdarkness"

hania"

Batory"

freya"

thecallo>h

ewild"

Sources(43..60(

Words"

0"500000"1000000"1500000"2000000"2500000"3000000"3500000"4000000"4500000"

CORD

IS"

OSW

"

potop"

Acade

mia"

ogniem

imieczem

"

faraon

"

ville@e"

jane

eyre"

greatexpectaDon

s"

wom

eninlove"

nostromo"

quovadis"

sonsandlovers"

emma"

chance"

dogm

at"

wuthe

ringhe

ights"

ESO"

kim"

wpu

styniiw

puszczy"

lordjim

"

Sources(6..26(

Words"

Page 4: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Genres

Page 5: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Alignment

Page 6: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Drugaksięgadżungli Bezdogmatu HistoriaJees-uck PannaBrill TheSecretAgent Zwycięstwo

SzaleństwoAlmayera Emma DoktorJekylliPanhHyde PaństwoGołębiowie Opowieść Podróż

AmyFoster Wiarawczłowieka DoktorJekyllipanHyde Napoluchwały Anarchista ZimowaPowieść

Argonauci Falk SzaraWilczyca NaPoluChwały CzarnySternik Wiry

WZatoce Kwiatdalekiejpółnocy Kim Nostromo-opowieściz

wybrzeża BesQa Zakochanekobiety

Świętobankowe Frejazsiedmiuwysp KlubPickwicka PleśńŚwiata Zewkrwi WichroweWzgórza

ZłowrogaBisara FrejazSiedmiuWysp Komediantka Potop Łowcyzłota Podlotek

Bruhl GardenParty Korsarz KsiążęRoman Władcaskalnejdoliny Młodość

Kapitanowiezuchy GasparRuiz Ukresusił OficerPruski Gospodapod"DwiemaWiedźmami" ZlegenddawnegoEgiptu

Los Złotesidła Krzyżacy PukzPukowejGórki Murzynzzałogi"Narcyza" ŻywyTelegraf

Cienie WielkieNadzieje Pokojówkajaśniepani CzerwonyBóg Poszukiwaczeskarbu

Ciężkieczasynateczasy Hamlet LadySusanRobinsonKruzo:jegożycialosy,doświadczeniaiprzypadki

Watsonowie

Pyramids Hamlet:królewiczduński Laguna UkrytySojusznik Białacisza

PrzygodyTomkaSawyera Jądrociemności OstatniMohikanin SmugaCienia.Wyznanie Łowcywilków

HrabinaCosel Jejpierwszybal ŻycieMamyParker Chorobasamotnegowodza Trzechstarszychpanówwjednejłódce(opróczpsa)

Córkizmarłegopułkownika PrzygodyHuck'a Opowiadania Lekcjaśpiewu Jutro

Dzieje,przygody,doświadczeniaizapiskiDawidaCopperfielda,T.1

Idealnarodzina ZamążpójścieLitLit Stalkyispółka PrzygodyT.S.

Dzieje,przygody,doświadczeniaizapiskiDawidaCopperfielda,T.2

Szpieg MeirEzofowicz UśmiechSzczęścia-opowieśćportowa Humoreski

Dzieje,przygody,doświadczeniaizapiskiDawidaCopperfielda,T.2

DziwneLosyJaneEyre Meksykanin SynowieiKochankowie Tajfun

Bezdogmatu DziwnelosyJaneEyre MilknąceGłosy Obcy WoczachZachodu

>100 literary classics (10M words)

Page 7: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Mantel

Page 8: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

• http://paralela.clarin-pl.eu/

• Based on Apache Solr, scales up to billions of words, scales out to even more

Page 9: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Query syntax

• SlopeQ 2 syntax corpus queries (cf. spokes.clarin-pl.eu)

• Solr DisMax syntax for metadata

Page 10: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Metadata filters: <lemma=miłość> AND (genre:typ_lit_proza NOT source:wutheringheights AND (alignment:simple OR

alignment:paraphrase) AND wc:[5 TO *])

Page 11: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

SlopeQ 2 queries: <pos=adj:.*:gen:.*> <lemma=wiara>|<lemma=nadzieja>

Page 12: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

SlopeQ queries: (<lemma=dać> do zrozumienia)=3

Page 13: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Bitext queries: PL:(<lemma=dać> do zrozumienia)=3 AND EN:(<lemma=give> to understand)=3

Page 14: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Negation and regular expressions: <lemma=st.+>|!<lemma=start>|!<pos=n.+>

Page 15: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Facets• Search facets are computed for every query on the

full set of results

• Used to:

• Visualize relative metadata values frequencies

• Navigate through and filter results in a relevance feedback mode

Page 16: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Facets

Page 17: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Export formats

• Excel

• JSON

• TMX

• Up to 100 000 results per query

Page 18: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Full programmatic access• REST API available

• Used by the web application

Page 19: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Virtual collections

• Collection1 = (genre:typ_lit_proza NOT (genre:duet OR genre:sawyer)) AND (ts:[2015-03-30 TO *])

Page 20: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Miłość w prozie i w poradnikach

Page 21: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Przykłady zapytań

Page 22: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Zapytania dwujęzyczne

Page 23: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Single-word equivalents

• Results of queries are aggregated on word equivalents

Page 24: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Alignment of collocations

• Dla wielu kolokacji dostępna jest opcja ‘Equivalents’

Page 25: Exploring Polish-English Parallel Corpora with Paralelaclarin-pl.eu/wp-content/uploads/2018/11/paralela_torun.pdfDruga księga dżungli Bez dogmatu Historia Jees-uck Panna Brill The

Alignment of collocations

• Słowniki HASK zostały zrównoleglone przez dane z Paraleli


Recommended