+ All Categories
Home > Documents > Peter Grzybek & Ernst Stadlober Austrian Research Fund Project #15485 Quantitative Text.

Peter Grzybek & Ernst Stadlober Austrian Research Fund Project #15485 Quantitative Text.

Date post: 30-Dec-2015
Category:
Upload: kelly-hill
View: 216 times
Download: 0 times
Share this document with a friend
Popular Tags:
29
Peter Grzybek & Ernst Stadlober http://www-gewi.uni-graz.at/quanta http://quanta.uni- graz.at Austrian Research Fund Project #15485 Quantitative Text Typology
Transcript
Page 1: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Peter Grzybek & Ernst Stadlober

http://www-gewi.uni-graz.at/quanta http://quanta.uni-graz.at

Austrian Research Fund Project #15485

Quantitative Text Typology

Page 2: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

… A Universe

of Texts

Let‘s suppose there is …

Page 3: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Is the Universe Structured ?

Or Can We Structure it ?

How Can the Text Universe Be Structured?

Page 4: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Corpus Analysis vs. Text Analysis

„Text Mixture“

(Re-)Construction

• of a norm • of a standard• of „language“

TextText

As aAs a

Homogeneous EntityHomogeneous Entity

Complete Text

(„Quasi Text“)Self-regulating System

Page 5: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

What is a Text ?

• Complete novel, composed of books ?

• Complete book of a novel, consisting of several chapters ?

• Individual chapters ?

• Dialogical vs. narrative sequences within a text ?

Two Major Problems: 1. Data Homogeneity

2. Definition of Basic Analytical Units

Page 6: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Both problems relevant for quantitative approaches

WHY QUANTITATIVE APPROACHES ?

ASSUMPTION:

• If a ‚text‘ is governed by synergetic processes, these processes can and must be quantitatively described.

• The descriptive models obtained for each ‚text‘, can be compaired to each other, possibly resulting in one or more general model(s).

• Thus, a quantitative typology of texts can be obtained.

Page 7: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Synergetics In a Nutshell –

Frequencies and Dependencies

WHY WORD LENGTH ?

SENTENCE

CLAUSE

WORD / LEXEME

SYLLABLE / MORPHEME

PHONEME / GRAPHEME

SENTENCE

CLAUSE

Frequency WORD / LEXEME

Frequency SYLLABLE / MORPHEME

Frequency PHONEME / GRAPHEME

SENTENCE Length↕

CLAUSE Length↕

Frequency WORD / LEXEME Length↕

Frequency SYLLABLE / MORPHEME Length↕

Frequency PHONEME / GRAPHEME Length

Word Length: Graphemes, Phonemes, Syllables, Morphemes,…

SENTENCE Length Frequency

CLAUSE Length Frequency

Frequency WORD / LEXEME Length Frequency

Frequency SYLLABLE / MORPHEME Length Frequency

Frequency PHONEME / GRAPHEME Length Frequency

Page 8: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

TYPES OF TEXT TYPOLOGIES

I. Qualitative

II. Quantitative-Qualitative

a. Tabula Rasa Principle (Clustering Methods)

b. A-priori A-posteriori Principle (Discrimination Methods)

Page 9: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

1 Abänderungsvertrag 2001 Lamento 3961 Zustandsdrama2 Abbestellung 2002 Landesliste 3962 Zustellungsurkunde3 Abbruchgenehmigung 2003 Landsknechtslied 3963 Zustellvermerk4 Abdankungserklärung 2004 Landstreicherroman 3964 Zuzugsgenehmigung5 Abecedarium 2005 Langzeitprogramm 3965 Zwanziguhrnachrichten6 Abendblatt 2006 Langzeitstudie 3966 Zweckmeldung7 Abendgebet 2007 Lapidarium 3967 Zweiergespräch8 Abendgespräch 2008 Lastenausgleichsgesetz 3968 Zwiegespräch9 Abendnachrichten 2009 Lastschriftzettel 3969 Zwischenbemerkung10 Abendprogramm 2010 Latrinengerücht 3970 Zwischenbericht11 Abendzeitung 2011 Latrinenparole 3971 Zwischenbescheid12 Abenteuerroman 2012 Laudatio 3972 Zwischenfrage13 Aberkennung 2013 Laufzettel 3973 Zwischenruf14 Abfahrtsplan 2014 Layout 3974 Zwischenschein15 Abfindungserklärung 2015 Lead 3975 Zwischenspiel16 Abgabebewilligung 2016 Leaflet 3976 Zwischentest17 Abgabeordnung 2017 Lebensversicherungsantrag 3977 Zwischentitel18 Abgangsmeldung 2018 Lebensabriss 3978 Zwischenurteil19 Abgangszeugnis 2019 Lebensbericht 3979 Zwischenzeugnis20 Abgeordnetenrede 2020 Lebensbeschreibung 3980 Zyklenroman

… … …

Structuring the Text Universe

(Ia): Text Sorts

Page 10: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Structuring the Text Universe

(Ib): Functional Styles

Funktionalstile

Stil der Alltagsrede

(Umgangssprache)

wissen-schaftlicher

Stil

offiziell-amtlicherStil des öffentlichen

Verkehrs

journalistisch-publizistischer

Stilkünstlerischer

Stil

prosaisch poetisch dramatisch

Page 11: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

In a qualitative approach, the text universe is structured with regard to external (pragmatic) factors

(„with reference to the world“)

• general communicative functions of language (functional styles)

• specific situational functions (text sorts)

O F " W O R L D "T E X T S

W O R L D

Broad, General Narrow, specificCategories Few Many

heterogeneous homogeneousItems included tend to be

Page 12: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Top-Down

Bottom-Up

F U N C T I O N A LS T Y L E

T E X T S O R T S

T E X T S

Page 13: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Prosa Poesie Dramatik1 2 3 4 5 6 7

Privatbrief Abstract Anleitung Agenturmeldung Autobiographie Elegie DramaTagebucheintrag Aufsatz Geschäftsbrief Auslandsbericht Biographie Epos Komödie

Witz Autorreferat Gesetzestext Fachartikel Briefroman Gedicht TragödieDiplomarbeit Gutachten Feuilleton Epilog Ode VersdramaDissertation Offener Brief Glosse Erinnerungen Sonett

Referat Parteitagsbeschluss Kolumne Erzählung VerserzählungRezension Predigt Kommentar Fabel Versroman

Tagungsbericht Schreiben Kritik GleichnisVertrag Leserbrief KunstmärchenVortrag Meldung Kurzroman

Sportbericht LegendeWetterbericht Mythos

Zeitschriftenaufsatz NovelleZeitungsartikel Roman

SageSchwank

TagebuchromanVolksmärchen

KunstAlltag Wissenschaft Administration Journalistik

Top-Down Bottom-Up

First and Second Order Cross Comparisons

Page 14: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Prosa Poesie Dramatik1 2 3 4 5 6 7

Privatbrief Abstract Anleitung Agenturmeldung Autobiographie Elegie DramaTagebucheintrag Aufsatz Geschäftsbrief Auslandsbericht Biographie Epos Komödie

Witz Autorreferat Gesetzestext Fachartikel Briefroman Gedicht TragödieDiplomarbeit Gutachten Feuilleton Epilog Ode VersdramaDissertation Offener Brief Glosse Erinnerungen Sonett

Referat Parteitagsbeschluss Kolumne Erzählung VerserzählungRezension Predigt Kommentar Fabel Versroman

Tagungsbericht Schreiben Kritik GleichnisVertrag Leserbrief KunstmärchenVortrag Meldung Kurzroman

Sportbericht LegendeWetterbericht Mythos

Zeitschriftenaufsatz NovelleZeitungsartikel Roman

SageSchwank

TagebuchromanVolksmärchen

KunstAlltag Wissenschaft Administration Journalistik

Intended Emphasis on Letters

‚Letter‘ as a Prototype of Language

1. Located between Oral and Written Communication

2. Result of One Homogeneous Process of Text Generation

Page 15: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Ablassbrief Gautschbrief Musterbrief ZulassungsbriefAdelsbrief Gesellenbrief Pastoralbrief AbschiedsbriefBeileidsbrief Heldenbriefe Pfandbrief BriefBettelbrief Himmelsbriefe Prämienbrief BriefromanBittbrief Hirtenbrief Reisebrief Dankbriefblauer Brief Hörerbrief Scheidungsbrief EmpfehlungsbriefBrandbrief Hypothekenbrief Schlussbrief EntschuldigungsbriefBriefbericht Kaperbrief Schmähbrief GeleitbriefBriefkarte Kartenbrief Schuldbrief GeschäftsbriefBriefkopf Kaufbrief Schutzbrief GlückwunschbriefBriefsteller Kettenbrief Sendbrief GratulationsbriefBriefwechsel Kondolenzbrief Sparbrief LeserbriefDrohbrief Lehnsbrief Sparkassenbrief LiebesbriefEhrenbürgerbrief Lehrbrief Steckbrief PrivatbriefEilbrief Leserbriefdebatte Stiftungsbrief ProtestbriefErpresserbrief Literaturbriefe Studienbrief RundbriefFacharbeiterbrief Mahnbrief UnterrichtsbriefFrachtbrief Meisterbrief WappenbriefFreibrief Minnebrief Werbebrief

Page 16: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

FUNCTIONAL STYLE

AUTHOR(S) TEXT TYPE(S) NUMBER

EVERYDAY LANGUAGE

Cankar, Jurčič Private Letters 61

PUBLIC STYLE div. anon. Open Letters 29

JOURNALISM div. anon. Readers‘ Letters,

Comments

65

ARTISTIC STYLE

Prose

Cankar

Švigelj-Mérat / Kolšek

Individual Chapters from Short Novels („povest“)

Letters from an Epistolary Novel

68

93

Poetry Gregorčič Versified Poems 40

Drama Jančar Individual Acts from Dramas 42

Textbasis (398 Slovenian Texts)

Page 17: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

1 2 3 4 5 6 70

10

20

30

40

50

Kurzprosa

1 2 3 4 5 6 70

10

20

30

40

50

Vers

1 2 3 4 5 6 70

10

20

30

40

50

Kommentar

A Small World of TextsA Small World of TextsWord Length Frequencies (in %) of Four Word Length Frequencies (in %) of Four

Texts Texts

Literary Prose Text (#256)

Versified Poetic Text (#359)

Journalistic Comment (#324)

1 2 3 4 5 6 70

10

20

30

40

50

Privatbrief

Private Letter (#1)

Page 18: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

1 2 3 4 5Gedichte 40 1,7127

Kurzprosa 68 1,8258Privatbrief 61 1,8798

Drama 42 1,8973Briefroman 93 2,0026Leserbrief 30 2,2622

Kommentar 35 2,2883Offener Brief 29 2,4268Signifikanz 1,000 0,366 1,000 0,994 1,000

m1Scheffé-Prozedur

textsort NUntergruppe für Alpha = .05.

Post-Hoc-Tests (Text Sorts)

Groups without significant differences form „homogeneous subgroups“

a. Homogeneous subgroups do exist

b. All four letter types in different subgroups !

Page 19: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Post-Hoc-Analyses Homogeneous Subgroups

Discriminant analyses Cases are attributed to groups, on the basis of specific predictor variables

The variables are submitted to linear transformations in order to arrive at an optimal discrimination of the

individual cases

Page 20: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

-7,5 -5,0 -2,5 0,0 2,5 5,0 7,5

Funktion 1

-4

-2

0

2

4

6

8

Fu

nk

tio

n 2

Privatbrief

Offener Brief

Leserbrief Kommentar

Briefroman

Kurzprosa

Gedichte

Drama

textsortPrivatbrief

Offener Brief

Leserbrief

Kommentar

Briefroman

Kurzprosa

Gedichte

Drama

Gruppenmittelpunkte

Kanonische Diskriminanzfunktion

Discriminant Analysis: Eight Text Sorts

Discrimination variables:

m1, m2, v, p1

(56.30%)

Page 21: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Discriminant Analysis: Four Letter Types (n=213)

{Private L.} {Ep. Novel} {Readers‘ L.} {Open L.}

Discrimination variables: m1, v

70.40 %

-4 -2 0 2 4 6

Funktion 1

-4

-2

0

2

4

6

Fu

nkt

ion

2

Privatbrief Offener Brief

LeserbriefBriefroman

textsortPrivatbrief

Offener Brief

Leserbrief

Briefroman

Gruppenmittelpunkte

Kanonische Diskriminanzfunktion

Privatbrief Offener Brief Leserbrief BriefromanPrivatbrief 37 0 2 22 61Offener Brief 0 22 3 4 29Leserbrief 1 9 10 10 30Briefroman 10 0 3 80 93

textsortVorhergesagte Gruppenzugehörigkeit

Gesamt

Page 22: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Discriminant Analysis: Three Letters Types (n=213)

{Private L., Ep. Novel} {Readers‘ L.} {Open L.}

Discrimination variables: m1, p2

86.90 %

-2 0 2 4 6

Funktion 1

-3

-2

-1

0

1

2

3

4

Fu

nkt

ion

2

PB/BR OBLB

poaPB/BR

OB

LB

Gruppenmittelpunkte

Kanonische Diskriminanzfunktion

Distinction of Literary Letters Irrelevant ?

PB/BR OB LB

PB/BR 151 0 3 154

OB 2 20 6 28

LB 12 5 14 31

poa

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Page 23: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Discriminant Analysis: Private vs. Public Letters (n=213)

{Private L., Ep. Novel}, {Readers‘ & Open L.}

Discrimination variables: m1, p2

92.00 %

Distinction of Private vs. Public Styles ?

priv pub

priv 151 3 154

pub 14 45 59

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Page 24: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Discriminant Analysis: Private vs. Public Texts (n=248)

{Private L., Ep. Novel}, {Readers‘ & Open L., Comments}

Discrimination variables: m1, p2

91.10 %

Public vs. Private Styles ?

priv pub

priv 148 6 154

pub 16 78 94

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Page 25: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Discriminant Analysis: Private/Oral vs. Public/Written Texts (n=290)

{Private L., Ep. Novel, Drama}, {Readers‘ & Open L., Comments}

Discrimination variables: m1, p2

92.40 %

Oral vs. Written Styles ?

priv pub

priv 190 6 196

pub 16 78 94

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Page 26: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Towards a New Typology ?

-6 -4 -2 0 2 4 6

Funktion 1

-4

-2

0

2

4

Fu

nkt

ion

2

priv

pub

vers

oeffprivpriv

pub

vers

Gruppenmittelpunkte

Kanonische Diskriminanzfunktion

priv pub vers

priv 191 3 2 196

pub 19 75 0 94

vers 5 0 35 40

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Discriminant Analysis: Three Text Types (n=330)

{Private / Oral} {Public / Written} {Verse}

Discrimination variables: m1, p2, v

91.20 %

Page 27: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Discriminant Analysis: Four Text Types (n=398)

{Private / Oral} {Public / Written} {Prose} {Verse}

Discrimination variables: m1, p2, v

79.90 %

priv pub vers lit

oeffpriv

priv pub lit vers

priv 183 3 9 1 196

pub 19 75 0 0 94

lit 42 0 26 0 68

vers 1 0 5 34 40

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Page 28: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

Discriminant Analysis: Three Text Types (n=398)

{Private / Oral} {Public / Written / Prose} {Verse}

-6 -4 -2 0 2 4 6

Funktion 1

-4

-2

0

2

4

Fu

nkt

ion

2

priv

pub

vers

oeffprivpriv

pub

vers

Gruppenmittelpunkte

Kanonische Diskriminanzfunktion

priv pub vers

priv 260 3 1 264

pub 19 75 0 94

vers 6 0 34 40

oeffpriv

Vorhergesagte Gruppenzugehörigkeit

Gesamt

Discrimination variables: m1, p2, v

92.70 %

Page 29: Peter Grzybek & Ernst Stadlober    Austrian Research Fund  Project #15485 Quantitative Text.

This is the End …


Recommended