Post on 10-Apr-2020
transcript
Paralela
Exploring Polish-English Parallel Corpora with
Piotr Pęzik University of Łódź
pelcra.pl
About the data• Manually and automatically aligned collections
acquired in a number of projects (CESAR, ATLAS and most notably: CLARIN-PL)
• Finally made available through Paralela, which is developed as one of the CLARIN-PL (clarin-pl.eu) applications
• An open-ended corpus with user-defined virtual collections
Sources
0"
10000000"
20000000"
30000000"
40000000"
50000000"
60000000"
70000000"
JRC-Acquis" EUBooks" EMEA" RAPID"
Sources(1..5(
Words"
0"
20000"
40000"
60000"
80000"
100000"
120000"
cosel"wiry"
korsarz"
bruhl" po
e"
napoluchwaly"
diveinto"
sawyer"
gulliver"
flowerofnorth"
argonauci"
duet"
treasure"
2ndjunglebook"
skalky"
almayer"
Sources(27..42(
Words" 0"10000"20000"30000"40000"50000"60000"70000"
houn
dbaskervilles1"
houn
dbaskervilles2"
thegoldh
unters"
golden
snare"
captainscourageo
us"
kres"
puck"
thew
ol=un
ters"
then
iggero>h
enarcissus"
junglebo
ok1"
junglebo
ok2"
thestoryo>
hetreasuresee
shadow
line"
heartofdarkness"
hania"
Batory"
freya"
thecallo>h
ewild"
Sources(43..60(
Words"
0"500000"1000000"1500000"2000000"2500000"3000000"3500000"4000000"4500000"
CORD
IS"
OSW
"
potop"
Acade
mia"
ogniem
imieczem
"
faraon
"
ville@e"
jane
eyre"
greatexpectaDon
s"
wom
eninlove"
nostromo"
quovadis"
sonsandlovers"
emma"
chance"
dogm
at"
wuthe
ringhe
ights"
ESO"
kim"
wpu
styniiw
puszczy"
lordjim
"
Sources(6..26(
Words"
Genres
Alignment
Drugaksięgadżungli Bezdogmatu HistoriaJees-uck PannaBrill TheSecretAgent Zwycięstwo
SzaleństwoAlmayera Emma DoktorJekylliPanhHyde PaństwoGołębiowie Opowieść Podróż
AmyFoster Wiarawczłowieka DoktorJekyllipanHyde Napoluchwały Anarchista ZimowaPowieść
Argonauci Falk SzaraWilczyca NaPoluChwały CzarnySternik Wiry
WZatoce Kwiatdalekiejpółnocy Kim Nostromo-opowieściz
wybrzeża BesQa Zakochanekobiety
Świętobankowe Frejazsiedmiuwysp KlubPickwicka PleśńŚwiata Zewkrwi WichroweWzgórza
ZłowrogaBisara FrejazSiedmiuWysp Komediantka Potop Łowcyzłota Podlotek
Bruhl GardenParty Korsarz KsiążęRoman Władcaskalnejdoliny Młodość
Kapitanowiezuchy GasparRuiz Ukresusił OficerPruski Gospodapod"DwiemaWiedźmami" ZlegenddawnegoEgiptu
Los Złotesidła Krzyżacy PukzPukowejGórki Murzynzzałogi"Narcyza" ŻywyTelegraf
Cienie WielkieNadzieje Pokojówkajaśniepani CzerwonyBóg Poszukiwaczeskarbu
Ciężkieczasynateczasy Hamlet LadySusanRobinsonKruzo:jegożycialosy,doświadczeniaiprzypadki
Watsonowie
Pyramids Hamlet:królewiczduński Laguna UkrytySojusznik Białacisza
PrzygodyTomkaSawyera Jądrociemności OstatniMohikanin SmugaCienia.Wyznanie Łowcywilków
HrabinaCosel Jejpierwszybal ŻycieMamyParker Chorobasamotnegowodza Trzechstarszychpanówwjednejłódce(opróczpsa)
Córkizmarłegopułkownika PrzygodyHuck'a Opowiadania Lekcjaśpiewu Jutro
Dzieje,przygody,doświadczeniaizapiskiDawidaCopperfielda,T.1
Idealnarodzina ZamążpójścieLitLit Stalkyispółka PrzygodyT.S.
Dzieje,przygody,doświadczeniaizapiskiDawidaCopperfielda,T.2
Szpieg MeirEzofowicz UśmiechSzczęścia-opowieśćportowa Humoreski
Dzieje,przygody,doświadczeniaizapiskiDawidaCopperfielda,T.2
DziwneLosyJaneEyre Meksykanin SynowieiKochankowie Tajfun
Bezdogmatu DziwnelosyJaneEyre MilknąceGłosy Obcy WoczachZachodu
>100 literary classics (10M words)
Mantel
• http://paralela.clarin-pl.eu/
• Based on Apache Solr, scales up to billions of words, scales out to even more
Query syntax
• SlopeQ 2 syntax corpus queries (cf. spokes.clarin-pl.eu)
• Solr DisMax syntax for metadata
Metadata filters: <lemma=miłość> AND (genre:typ_lit_proza NOT source:wutheringheights AND (alignment:simple OR
alignment:paraphrase) AND wc:[5 TO *])
SlopeQ 2 queries: <pos=adj:.*:gen:.*> <lemma=wiara>|<lemma=nadzieja>
SlopeQ queries: (<lemma=dać> do zrozumienia)=3
Bitext queries: PL:(<lemma=dać> do zrozumienia)=3 AND EN:(<lemma=give> to understand)=3
Negation and regular expressions: <lemma=st.+>|!<lemma=start>|!<pos=n.+>
Facets• Search facets are computed for every query on the
full set of results
• Used to:
• Visualize relative metadata values frequencies
• Navigate through and filter results in a relevance feedback mode
Facets
Export formats
• Excel
• JSON
• TMX
• Up to 100 000 results per query
Full programmatic access• REST API available
• Used by the web application
Virtual collections
• Collection1 = (genre:typ_lit_proza NOT (genre:duet OR genre:sawyer)) AND (ts:[2015-03-30 TO *])
Miłość w prozie i w poradnikach
Przykłady zapytań
Zapytania dwujęzyczne
Single-word equivalents
• Results of queries are aggregated on word equivalents
Alignment of collocations
• Dla wielu kolokacji dostępna jest opcja ‘Equivalents’
Alignment of collocations
• Słowniki HASK zostały zrównoleglone przez dane z Paraleli