Number Words’ Frequency in Modern Lithuanian Adriano Cerri University of Pisa, Department of...

Post on 13-Jan-2016

213 views 0 download

Tags:

transcript

Number Words’ Frequency in Modern Lithuanian

Adriano CerriUniversity of Pisa, Department of

Linguisticsadriano.cerri@for.unipi.it

Introduction

Methodology

Data & RemarksConclusions

Future directions of study

Numerals

History

Anthropology

Psychology

Linguistic

typology

Etymology

Quantitative

studies

Numerals in many of the world’s languages

(cf. Stampe 1976, Greenberg 1978):

- they are part of a system- they play different roles (simple units, main bases, secondary bases, upper units, etc.)

Number words’ frequency

?

Basic questions

- Are numerals used with random frequency?

- If a pattern of use emerge, how can this pattern be understood within the structure of the system?

Introduction

Methodology

Data & RemarksConclusions

Future directions of study

Target language: Modern Lithuanian

Useful tools:

- - L. GrumadiL. Grumadienė & enė & V. V. ŽilinskienėŽilinskienė (1997-1998), (1997-1998), Dažninis dabartinės rašomosios lietuvių kalbos Dažninis dabartinės rašomosios lietuvių kalbos žodynasžodynas [ [Frequency Dictionary of Modern Frequency Dictionary of Modern Written LithuanianWritten Lithuanian]]- A. Utka (2009), A. Utka (2009), Dažninis rašytinės lietuvių Dažninis rašytinės lietuvių kalbos žodynaskalbos žodynas [ [Frequency Dictionary of Frequency Dictionary of Written LithuanianWritten Lithuanian] ] - DabartinDabartinės lietuvių kalbos tekstynas ės lietuvių kalbos tekstynas [[Corpus Corpus of Contemporary Lithuanian Languageof Contemporary Lithuanian Language (CCLL) (CCLL)] ] donelaitis.vdu.ltdonelaitis.vdu.lt- LietuviLietuviųų mokslo kalbos tekstynas mokslo kalbos tekstynas [ [Corpus Corpus Academicum Lithuanicum (CorALit)Academicum Lithuanicum (CorALit)]] coralit.ltcoralit.lt

The Dictionaries: Advantages

  M. F.NOM. penkipenkiosGEN. penkiųDAT. penkiems penkiomsACC. penkis penkiasINS. penkiais penkiomisLOC. penkiuose penkiose

NOM.M penkitot. occ.: 187

The Dictionaries: Limits

Complex numerals (two or more number words, e.g. du šimtai septyniasdešimt trys «273») are not registered as a single numeral, but their components are counted separately (e.g. 2 – 100 – 70 – 3)

Original database on number words’ frequency using the CCLL

Consequence:

complex numerals are not represented, their single components are over represented

Number Word Occurr.

NOM.M keturi 6399NOM.F keturios 2809GEN.M & F keturių 6421DAT.M keturiems 596DAT.F keturioms 283ACC.M keturis 5982ACC.M keturias 3145INS.M keturiais 929INS.F keturiomis 374LOC.M keturiuose 312LOC.F keturiose 480

Search: Simple numerals (e.g. keturi «4»)

Total: 27.730

Search: Complex numerals (e.g. dvidešimt penki «25»)

s studentų grupę iš visos Europos. Dvidešimt penki instrumentalistai dirba dra

iai daugiau nei kitam mirtingajam ( dvidešimt penki lavonai vardan grožio!). Pe

d, jo nuomone, Lietuvoje yra kokie dvidešimt penki verti dėmesio skulptoriai i

3, penkiolika futbolininkų - po 2, dvidešimt penki - po 1. Šį savaitgalį ir

tau, kad meluoji! Buvo mažiausiai dvidešimt penki gorčiai, tik išmatavome neg

dalyvavo trisdešimt trys teatrai. Dvidešimt penki iš jų vaidino lietuvių, o a

iu tuos tris šimtus metrų, turėsiu dvidešimt progų tuo įsitikinti: penki jūsų s

imk savo pelną. O tas pelnas buvo dvidešimt penki kartai, kuriuos jis visados

iesiausias kelias į Daugpilį - vos dvidešimt penki kilometrai. Tačiau ten Riman

i tai, kas priklauso. Priklausė dvidešimt penki kirčiai, kuriuos jis labai s

kiekvienais metais ne mažiau kaip dvidešimt penki milijardai dolerių pervedami

į kompaktinių diskų dežėles (telpa dvidešimt penki sargiai). Dar roskildiečiai

jį automobilio modelį - "Carisma". Dvidešimt penki šalies gyventojai, savo lan

iaus ir D.Girėno skrydžiu, kai "... dvidešimt penki tūkstančiai lietuvių nesulau

nkauskui. "Senukų" asortimentas - dvidešimt penki tūkstančiai prekių: vakariet

ltūros skyriaus ataskaitoje... Dvidešimt penki žymiausi įvairių kartų Balta

jo pulko karininkų buvo areštuoti dvidešimt septyni, taip pat penki puskarinin

Search: Complex numerals (e.g. dvidešimt penki «25»)

First word Contextual word

dvidešimt penki

dvidešimt penkios

dvidešimt penkių

dvidešimt penkiems

dvidešimt penkioms

dvidešimt penkis

dvidešimt penkias

dvidešimt penkiais

dvidešimt penkiomis

dvidešimt penkiuose

dvidešimt penkiose

Search: Complex numerals (e.g. dvidešimt penki «25»)

Introduction

Methodology

Data & RemarksConclusions

Future directions of study

Table 1. Counting of number words’ occurrences in the Corpus of Contemporary Lithuanian Language

(CCLL)

Chart 1. Number words’ occurrences in the Corpus of Contemporary Lithuanian Language (CCLL)

1

2

3

4 5 6 7 8 9101112 13 1415 16 171819 202122 23 304050 607080 90100

1000

1062529 109

0

50000

100000

150000

200000

250000

300000

350000

numerical value

num

ber o

f occ

urre

nces

Chart 2. Numerals 1-9

Trend: Frequency lowers as numerical value increases

1

2

3

4 5 8769

0

50000

100000

150000

200000

250000

300000

350000

numerical value

num

ber o

f occ

uren

ces

(Cf. Hurford (1987: 91) for Modern English)

Chart 3. The tens

10

20

3040 50

60 70 80 90

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

numerical value

num

ber

of o

ccur

renc

es

Chart 4. The series of round numerals 1

10

100

10001.000.000

1.000.000.000

0

5000

10000

15000

20000

25000

30000

numerical value

nu

mb

er

of

occu

rren

ces

Chart 5. Numerals 11-19

19

1817

16

15

1413

12

11

0

500

1000

1500

2000

2500

3000

3500

4000

numerical value

nu

mb

er o

f o

ccu

ren

ces

Chart 6. Numerals 21-29

2122

23

25

29

0

50

100

150

200

250

300

350

numerical value

num

ber o

f occ

urre

nces

Chart 7. The ‘peaks’ of frequency

1000100

90

30

2921

20

1916

1512

11

10

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

numerical value

num

ber o

f occ

urre

nces

Correspondence between the structural role of a numeral, its cognitive salience

and its frequency of use

1

2

3

4 5 8769

0

50000

100000

150000

200000

250000

300000

350000

numerical value

num

ber o

f occ

uren

ces

10

20

3040 50

60 70 80 90

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

numerical value

nu

mb

er o

f o

ccu

rren

ces

The base (10) of the system is a upper-level unit

Charts 2 and 3.

Introduction

Methodology

Data & RemarksConclusions

Future directions of study

Main results:

• Lithuanian number words are not used with random frequency

• Trend: within each cycle, the lower the numeral is, the higher its frequency

• Frequency can be subject to comparative predictions (e.g. frequency 4 > 9)

• The cycle 1-9 serves as a basic model ruled by the above-mentioned trend

• The whole system proceeds by reproducing the basic model

• Vienas «1» is the most frequently used numeral

• It serves as a model for those numerals sharing the semantic trait of «unity» (10, 100, 1000 etc.)

• A correspondence is shown between the structural role of a numeral, its cognitive salience and its frequency of use

• ‘Round’ numerals attract a higher number of occurrences

Main results:

Round numerals

fulfil the universal need of ‘milestones’ along the endless path of numbers

• more salient

• more frequent

• more suitable for approximate uses (to ‘round off’ a quantity)

Introduction

Methodology

Data & RemarksConclusions

Future directions of study

Other languages, especially non-decimal ones

Cross-linguistic perspective: a ‘frequency typology’ of numerals?

What is culturally determined? What is universal?

Th

an

k

Yo

u

ReferencesBybee & Hopper (eds., 2001) – Frequency and Emergence of Linguistic Structure. Amsterdam: John Benjamins.Bybee (2007) – Frequency of Use and the Organization of Language. Oxford: Oxford University Press.CCLL – Corpus of Contemporary Lithuanian Language / Dabartinės lietuvių kalbos tekstynas, http://donelaitis.vdu.lt. CorALit – Corpus Academicum Lithuanicum / Lietuvių mokslo kalbos tekstynas, http://coralit.lt. Greenberg (1978) – Generalizations about numeral systems. J.H. Greenberg, C.A. Ferguson, E.A. Moravcsick (eds.). Universals of human language 3: Word structure. Standford: Standford University Press, 249-295.Grumadienė & Žilinskienė (1997) – Dažninis dabartinės rašomosios lietuvių kalbos žodynas (mažėjančio dažnio tvarka). Vilnius: Lietuvių kalbos institutas, Matematikos ir informatikos institutas.Grumadienė & Žilinskienė (1998) – Dažninis dabartinės rašomosios lietuvių kalbos žodynas (abėcėlės tvarka). Vilnius: Lietuvių kalbos institutas, Matematikos ir informatikos institutas.Hurford (1987) – Language and Number: The Emergence of a Cognitive System. Oxford: Basil Blackwell.Kaufman, Lord, Reese & Volkmann (1949) – The Discrimination of Visual Number. American Journal of Psychology, 62 (4), 498-525.Mandler & Shebo (1982) – Subitizing: an Analysis of its Component Processes. Journal of Experimental Psychology: General, 111, 1-22.Rūķe-Draviņa (1979) – On numerals in Baltic and Slavic languages. Acta Baltico-Slavica, 12, 53-66.Stampe 1976 – Cardinal Number Systems. S.S. Mufwene, C.A. Walker, S.B. Steever (eds.). Papers from the Twelfth Regional Meeting of the Chicago Linguistic Society. Chicago: Chicago Linguistic Society, 594-609.Thorndike & Lorge (1944) – The Teacher’s Word Book of 30.000 Words. New York: Columbia University Teachers’ College.Trick & Pylyshyn (1994) – Why are small and large numbers enumerated differently? A limited-capacity preattentive stage in vision. Psychological Review, 101 (1), 80-102.Utka (2009) – Dažninis rašytinės lietuvių kalbos žodynas. Kaunas: VDU leidykla.