Exploring Polish-English Parallel Corpora with...

Post on 10-Apr-2020

1 views 0 download

transcript

Paralela

Exploring Polish-English Parallel Corpora with

Piotr Pęzik University of Łódź

pelcra.pl

About the data• Manually and automatically aligned collections

acquired in a number of projects (CESAR, ATLAS and most notably: CLARIN-PL)

• Finally made available through Paralela, which is developed as one of the CLARIN-PL (clarin-pl.eu) applications

• An open-ended corpus with user-defined virtual collections

Sources

0"

10000000"

20000000"

30000000"

40000000"

50000000"

60000000"

70000000"

JRC-Acquis" EUBooks" EMEA" RAPID"

Sources(1..5(

Words"

0"

20000"

40000"

60000"

80000"

100000"

120000"

cosel"wiry"

korsarz"

bruhl" po

e"

napoluchwaly"

diveinto"

sawyer"

gulliver"

flowerofnorth"

argonauci"

duet"

treasure"

2ndjunglebook"

skalky"

almayer"

Sources(27..42(

Words" 0"10000"20000"30000"40000"50000"60000"70000"

houn

dbaskervilles1"

houn

dbaskervilles2"

thegoldh

unters"

golden

snare"

captainscourageo

us"

kres"

puck"

thew

ol=un

ters"

then

iggero>h

enarcissus"

junglebo

ok1"

junglebo

ok2"

thestoryo>

hetreasuresee

shadow

line"

heartofdarkness"

hania"

Batory"

freya"

thecallo>h

ewild"

Sources(43..60(

Words"

0"500000"1000000"1500000"2000000"2500000"3000000"3500000"4000000"4500000"

CORD

IS"

OSW

"

potop"

Acade

mia"

ogniem

imieczem

"

faraon

"

ville@e"

jane

eyre"

greatexpectaDon

s"

wom

eninlove"

nostromo"

quovadis"

sonsandlovers"

emma"

chance"

dogm

at"

wuthe

ringhe

ights"

ESO"

kim"

wpu

styniiw

puszczy"

lordjim

"

Sources(6..26(

Words"

Genres

Alignment

Drugaksięgadżungli Bezdogmatu HistoriaJees-uck PannaBrill TheSecretAgent Zwycięstwo

SzaleństwoAlmayera Emma DoktorJekylliPanhHyde PaństwoGołębiowie Opowieść Podróż

AmyFoster Wiarawczłowieka DoktorJekyllipanHyde Napoluchwały Anarchista ZimowaPowieść

Argonauci Falk SzaraWilczyca NaPoluChwały CzarnySternik Wiry

WZatoce Kwiatdalekiejpółnocy Kim Nostromo-opowieściz

wybrzeża BesQa Zakochanekobiety

Świętobankowe Frejazsiedmiuwysp KlubPickwicka PleśńŚwiata Zewkrwi WichroweWzgórza

ZłowrogaBisara FrejazSiedmiuWysp Komediantka Potop Łowcyzłota Podlotek

Bruhl GardenParty Korsarz KsiążęRoman Władcaskalnejdoliny Młodość

Kapitanowiezuchy GasparRuiz Ukresusił OficerPruski Gospodapod"DwiemaWiedźmami" ZlegenddawnegoEgiptu

Los Złotesidła Krzyżacy PukzPukowejGórki Murzynzzałogi"Narcyza" ŻywyTelegraf

Cienie WielkieNadzieje Pokojówkajaśniepani CzerwonyBóg Poszukiwaczeskarbu

Ciężkieczasynateczasy Hamlet LadySusanRobinsonKruzo:jegożycialosy,doświadczeniaiprzypadki

Watsonowie

Pyramids Hamlet:królewiczduński Laguna UkrytySojusznik Białacisza

PrzygodyTomkaSawyera Jądrociemności OstatniMohikanin SmugaCienia.Wyznanie Łowcywilków

HrabinaCosel Jejpierwszybal ŻycieMamyParker Chorobasamotnegowodza Trzechstarszychpanówwjednejłódce(opróczpsa)

Córkizmarłegopułkownika PrzygodyHuck'a Opowiadania Lekcjaśpiewu Jutro

Dzieje,przygody,doświadczeniaizapiskiDawidaCopperfielda,T.1

Idealnarodzina ZamążpójścieLitLit Stalkyispółka PrzygodyT.S.

Dzieje,przygody,doświadczeniaizapiskiDawidaCopperfielda,T.2

Szpieg MeirEzofowicz UśmiechSzczęścia-opowieśćportowa Humoreski

Dzieje,przygody,doświadczeniaizapiskiDawidaCopperfielda,T.2

DziwneLosyJaneEyre Meksykanin SynowieiKochankowie Tajfun

Bezdogmatu DziwnelosyJaneEyre MilknąceGłosy Obcy WoczachZachodu

>100 literary classics (10M words)

Mantel

• http://paralela.clarin-pl.eu/

• Based on Apache Solr, scales up to billions of words, scales out to even more

Query syntax

• SlopeQ 2 syntax corpus queries (cf. spokes.clarin-pl.eu)

• Solr DisMax syntax for metadata

Metadata filters: <lemma=miłość> AND (genre:typ_lit_proza NOT source:wutheringheights AND (alignment:simple OR

alignment:paraphrase) AND wc:[5 TO *])

SlopeQ 2 queries: <pos=adj:.*:gen:.*> <lemma=wiara>|<lemma=nadzieja>

SlopeQ queries: (<lemma=dać> do zrozumienia)=3

Bitext queries: PL:(<lemma=dać> do zrozumienia)=3 AND EN:(<lemma=give> to understand)=3

Negation and regular expressions: <lemma=st.+>|!<lemma=start>|!<pos=n.+>

Facets• Search facets are computed for every query on the

full set of results

• Used to:

• Visualize relative metadata values frequencies

• Navigate through and filter results in a relevance feedback mode

Facets

Export formats

• Excel

• JSON

• TMX

• Up to 100 000 results per query

Full programmatic access• REST API available

• Used by the web application

Virtual collections

• Collection1 = (genre:typ_lit_proza NOT (genre:duet OR genre:sawyer)) AND (ts:[2015-03-30 TO *])

Miłość w prozie i w poradnikach

Przykłady zapytań

Zapytania dwujęzyczne

Single-word equivalents

• Results of queries are aggregated on word equivalents

Alignment of collocations

• Dla wielu kolokacji dostępna jest opcja ‘Equivalents’

Alignment of collocations

• Słowniki HASK zostały zrównoleglone przez dane z Paraleli