Peter Grzybek & Ernst Stadlober Austrian Research Fund Project #15485 Quantitative Text.

Post on 30-Dec-2015

216 views 0 download

Tags:

transcript

Peter Grzybek & Ernst Stadlober

http://www-gewi.uni-graz.at/quanta http://quanta.uni-graz.at

Austrian Research Fund Project #15485

Quantitative Text Typology

… A Universe

of Texts

Let‘s suppose there is …

Is the Universe Structured ?

Or Can We Structure it ?

How Can the Text Universe Be Structured?

Corpus Analysis vs. Text Analysis

„Text Mixture“

(Re-)Construction

• of a norm • of a standard• of „language“

TextText

As aAs a

Homogeneous EntityHomogeneous Entity

Complete Text

(„Quasi Text“)Self-regulating System

What is a Text ?

• Complete novel, composed of books ?

• Complete book of a novel, consisting of several chapters ?

• Individual chapters ?

• Dialogical vs. narrative sequences within a text ?

Two Major Problems: 1. Data Homogeneity

2. Definition of Basic Analytical Units

Both problems relevant for quantitative approaches

WHY QUANTITATIVE APPROACHES ?

ASSUMPTION:

• If a ‚text‘ is governed by synergetic processes, these processes can and must be quantitatively described.

• The descriptive models obtained for each ‚text‘, can be compaired to each other, possibly resulting in one or more general model(s).

• Thus, a quantitative typology of texts can be obtained.

Synergetics In a Nutshell –

Frequencies and Dependencies

WHY WORD LENGTH ?

SENTENCE

CLAUSE

WORD / LEXEME

SYLLABLE / MORPHEME

PHONEME / GRAPHEME

SENTENCE

CLAUSE

Frequency WORD / LEXEME

Frequency SYLLABLE / MORPHEME

Frequency PHONEME / GRAPHEME

SENTENCE Length↕

CLAUSE Length↕

Frequency WORD / LEXEME Length↕

Frequency SYLLABLE / MORPHEME Length↕

Frequency PHONEME / GRAPHEME Length

Word Length: Graphemes, Phonemes, Syllables, Morphemes,…

SENTENCE Length Frequency

CLAUSE Length Frequency

Frequency WORD / LEXEME Length Frequency

Frequency SYLLABLE / MORPHEME Length Frequency

Frequency PHONEME / GRAPHEME Length Frequency

TYPES OF TEXT TYPOLOGIES

I. Qualitative

II. Quantitative-Qualitative

a. Tabula Rasa Principle (Clustering Methods)

b. A-priori A-posteriori Principle (Discrimination Methods)

1 Abänderungsvertrag 2001 Lamento 3961 Zustandsdrama2 Abbestellung 2002 Landesliste 3962 Zustellungsurkunde3 Abbruchgenehmigung 2003 Landsknechtslied 3963 Zustellvermerk4 Abdankungserklärung 2004 Landstreicherroman 3964 Zuzugsgenehmigung5 Abecedarium 2005 Langzeitprogramm 3965 Zwanziguhrnachrichten6 Abendblatt 2006 Langzeitstudie 3966 Zweckmeldung7 Abendgebet 2007 Lapidarium 3967 Zweiergespräch8 Abendgespräch 2008 Lastenausgleichsgesetz 3968 Zwiegespräch9 Abendnachrichten 2009 Lastschriftzettel 3969 Zwischenbemerkung10 Abendprogramm 2010 Latrinengerücht 3970 Zwischenbericht11 Abendzeitung 2011 Latrinenparole 3971 Zwischenbescheid12 Abenteuerroman 2012 Laudatio 3972 Zwischenfrage13 Aberkennung 2013 Laufzettel 3973 Zwischenruf14 Abfahrtsplan 2014 Layout 3974 Zwischenschein15 Abfindungserklärung 2015 Lead 3975 Zwischenspiel16 Abgabebewilligung 2016 Leaflet 3976 Zwischentest17 Abgabeordnung 2017 Lebensversicherungsantrag 3977 Zwischentitel18 Abgangsmeldung 2018 Lebensabriss 3978 Zwischenurteil19 Abgangszeugnis 2019 Lebensbericht 3979 Zwischenzeugnis20 Abgeordnetenrede 2020 Lebensbeschreibung 3980 Zyklenroman

… … …

Structuring the Text Universe

(Ia): Text Sorts

Structuring the Text Universe

(Ib): Functional Styles

Funktionalstile

Stil der Alltagsrede

(Umgangssprache)

wissen-schaftlicher

Stil

offiziell-amtlicherStil des öffentlichen

Verkehrs

journalistisch-publizistischer

Stilkünstlerischer

Stil

prosaisch poetisch dramatisch

In a qualitative approach, the text universe is structured with regard to external (pragmatic) factors

(„with reference to the world“)

• general communicative functions of language (functional styles)

• specific situational functions (text sorts)

O F " W O R L D "T E X T S

W O R L D

Broad, General Narrow, specificCategories Few Many

heterogeneous homogeneousItems included tend to be

Top-Down

Bottom-Up

F U N C T I O N A LS T Y L E

T E X T S O R T S

T E X T S

Prosa Poesie Dramatik1 2 3 4 5 6 7

Privatbrief Abstract Anleitung Agenturmeldung Autobiographie Elegie DramaTagebucheintrag Aufsatz Geschäftsbrief Auslandsbericht Biographie Epos Komödie

Witz Autorreferat Gesetzestext Fachartikel Briefroman Gedicht TragödieDiplomarbeit Gutachten Feuilleton Epilog Ode VersdramaDissertation Offener Brief Glosse Erinnerungen Sonett

Referat Parteitagsbeschluss Kolumne Erzählung VerserzählungRezension Predigt Kommentar Fabel Versroman

Tagungsbericht Schreiben Kritik GleichnisVertrag Leserbrief KunstmärchenVortrag Meldung Kurzroman

Sportbericht LegendeWetterbericht Mythos

Zeitschriftenaufsatz NovelleZeitungsartikel Roman

SageSchwank

TagebuchromanVolksmärchen

KunstAlltag Wissenschaft Administration Journalistik

Top-Down Bottom-Up

First and Second Order Cross Comparisons

Prosa Poesie Dramatik1 2 3 4 5 6 7

Privatbrief Abstract Anleitung Agenturmeldung Autobiographie Elegie DramaTagebucheintrag Aufsatz Geschäftsbrief Auslandsbericht Biographie Epos Komödie

Witz Autorreferat Gesetzestext Fachartikel Briefroman Gedicht TragödieDiplomarbeit Gutachten Feuilleton Epilog Ode VersdramaDissertation Offener Brief Glosse Erinnerungen Sonett

Referat Parteitagsbeschluss Kolumne Erzählung VerserzählungRezension Predigt Kommentar Fabel Versroman

Tagungsbericht Schreiben Kritik GleichnisVertrag Leserbrief KunstmärchenVortrag Meldung Kurzroman

Sportbericht LegendeWetterbericht Mythos

Zeitschriftenaufsatz NovelleZeitungsartikel Roman

SageSchwank

TagebuchromanVolksmärchen

KunstAlltag Wissenschaft Administration Journalistik

Intended Emphasis on Letters

‚Letter‘ as a Prototype of Language

1. Located between Oral and Written Communication

2. Result of One Homogeneous Process of Text Generation

Ablassbrief Gautschbrief Musterbrief ZulassungsbriefAdelsbrief Gesellenbrief Pastoralbrief AbschiedsbriefBeileidsbrief Heldenbriefe Pfandbrief BriefBettelbrief Himmelsbriefe Prämienbrief BriefromanBittbrief Hirtenbrief Reisebrief Dankbriefblauer Brief Hörerbrief Scheidungsbrief EmpfehlungsbriefBrandbrief Hypothekenbrief Schlussbrief EntschuldigungsbriefBriefbericht Kaperbrief Schmähbrief GeleitbriefBriefkarte Kartenbrief Schuldbrief GeschäftsbriefBriefkopf Kaufbrief Schutzbrief GlückwunschbriefBriefsteller Kettenbrief Sendbrief GratulationsbriefBriefwechsel Kondolenzbrief Sparbrief LeserbriefDrohbrief Lehnsbrief Sparkassenbrief LiebesbriefEhrenbürgerbrief Lehrbrief Steckbrief PrivatbriefEilbrief Leserbriefdebatte Stiftungsbrief ProtestbriefErpresserbrief Literaturbriefe Studienbrief RundbriefFacharbeiterbrief Mahnbrief UnterrichtsbriefFrachtbrief Meisterbrief WappenbriefFreibrief Minnebrief Werbebrief

FUNCTIONAL STYLE

AUTHOR(S) TEXT TYPE(S) NUMBER

EVERYDAY LANGUAGE

Cankar, Jurčič Private Letters 61

PUBLIC STYLE div. anon. Open Letters 29

JOURNALISM div. anon. Readers‘ Letters,

Comments

65

ARTISTIC STYLE

Prose

Cankar

Švigelj-Mérat / Kolšek

Individual Chapters from Short Novels („povest“)

Letters from an Epistolary Novel

68

93

Poetry Gregorčič Versified Poems 40

Drama Jančar Individual Acts from Dramas 42

Textbasis (398 Slovenian Texts)

1 2 3 4 5 6 70

10

20

30

40

50

Kurzprosa

1 2 3 4 5 6 70

10

20

30

40

50

Vers

1 2 3 4 5 6 70

10

20

30

40

50

Kommentar

A Small World of TextsA Small World of TextsWord Length Frequencies (in %) of Four Word Length Frequencies (in %) of Four

Texts Texts

Literary Prose Text (#256)

Versified Poetic Text (#359)

Journalistic Comment (#324)

1 2 3 4 5 6 70

10

20

30

40

50

Privatbrief

Private Letter (#1)

1 2 3 4 5Gedichte 40 1,7127

Kurzprosa 68 1,8258Privatbrief 61 1,8798

Drama 42 1,8973Briefroman 93 2,0026Leserbrief 30 2,2622

Kommentar 35 2,2883Offener Brief 29 2,4268Signifikanz 1,000 0,366 1,000 0,994 1,000

m1Scheffé-Prozedur

textsort NUntergruppe für Alpha = .05.

Post-Hoc-Tests (Text Sorts)

Groups without significant differences form „homogeneous subgroups“

a. Homogeneous subgroups do exist

b. All four letter types in different subgroups !

Post-Hoc-Analyses Homogeneous Subgroups

Discriminant analyses Cases are attributed to groups, on the basis of specific predictor variables

The variables are submitted to linear transformations in order to arrive at an optimal discrimination of the

individual cases

-7,5 -5,0 -2,5 0,0 2,5 5,0 7,5

Funktion 1

-4

-2

0

2

4

6

8

Fu

nk

tio

n 2

Privatbrief

Offener Brief

Leserbrief Kommentar

Briefroman

Kurzprosa

Gedichte

Drama

textsortPrivatbrief

Offener Brief

Leserbrief

Kommentar

Briefroman

Kurzprosa

Gedichte

Drama

Gruppenmittelpunkte

Kanonische Diskriminanzfunktion

Discriminant Analysis: Eight Text Sorts

Discrimination variables:

m1, m2, v, p1

(56.30%)

Discriminant Analysis: Four Letter Types (n=213)

{Private L.} {Ep. Novel} {Readers‘ L.} {Open L.}

Discrimination variables: m1, v

70.40 %

-4 -2 0 2 4 6

Funktion 1

-4

-2

0

2

4

6

Fu

nkt

ion

2

Privatbrief Offener Brief

LeserbriefBriefroman

textsortPrivatbrief

Offener Brief

Leserbrief

Briefroman

Gruppenmittelpunkte

Kanonische Diskriminanzfunktion

Privatbrief Offener Brief Leserbrief BriefromanPrivatbrief 37 0 2 22 61Offener Brief 0 22 3 4 29Leserbrief 1 9 10 10 30Briefroman 10 0 3 80 93

textsortVorhergesagte Gruppenzugehörigkeit

Gesamt

Discriminant Analysis: Three Letters Types (n=213)

{Private L., Ep. Novel} {Readers‘ L.} {Open L.}

Discrimination variables: m1, p2

86.90 %

-2 0 2 4 6

Funktion 1

-3

-2

-1

0

1

2

3

4

Fu

nkt

ion

2

PB/BR OBLB

poaPB/BR

OB

LB

Gruppenmittelpunkte

Kanonische Diskriminanzfunktion

Distinction of Literary Letters Irrelevant ?

PB/BR OB LB

PB/BR 151 0 3 154

OB 2 20 6 28

LB 12 5 14 31

poa

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Discriminant Analysis: Private vs. Public Letters (n=213)

{Private L., Ep. Novel}, {Readers‘ & Open L.}

Discrimination variables: m1, p2

92.00 %

Distinction of Private vs. Public Styles ?

priv pub

priv 151 3 154

pub 14 45 59

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Discriminant Analysis: Private vs. Public Texts (n=248)

{Private L., Ep. Novel}, {Readers‘ & Open L., Comments}

Discrimination variables: m1, p2

91.10 %

Public vs. Private Styles ?

priv pub

priv 148 6 154

pub 16 78 94

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Discriminant Analysis: Private/Oral vs. Public/Written Texts (n=290)

{Private L., Ep. Novel, Drama}, {Readers‘ & Open L., Comments}

Discrimination variables: m1, p2

92.40 %

Oral vs. Written Styles ?

priv pub

priv 190 6 196

pub 16 78 94

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Towards a New Typology ?

-6 -4 -2 0 2 4 6

Funktion 1

-4

-2

0

2

4

Fu

nkt

ion

2

priv

pub

vers

oeffprivpriv

pub

vers

Gruppenmittelpunkte

Kanonische Diskriminanzfunktion

priv pub vers

priv 191 3 2 196

pub 19 75 0 94

vers 5 0 35 40

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Discriminant Analysis: Three Text Types (n=330)

{Private / Oral} {Public / Written} {Verse}

Discrimination variables: m1, p2, v

91.20 %

Discriminant Analysis: Four Text Types (n=398)

{Private / Oral} {Public / Written} {Prose} {Verse}

Discrimination variables: m1, p2, v

79.90 %

priv pub vers lit

oeffpriv

priv pub lit vers

priv 183 3 9 1 196

pub 19 75 0 0 94

lit 42 0 26 0 68

vers 1 0 5 34 40

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Discriminant Analysis: Three Text Types (n=398)

{Private / Oral} {Public / Written / Prose} {Verse}

-6 -4 -2 0 2 4 6

Funktion 1

-4

-2

0

2

4

Fu

nkt

ion

2

priv

pub

vers

oeffprivpriv

pub

vers

Gruppenmittelpunkte

Kanonische Diskriminanzfunktion

priv pub vers

priv 260 3 1 264

pub 19 75 0 94

vers 6 0 34 40

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Discrimination variables: m1, p2, v

92.70 %

This is the End …