+ All Categories
Home > Documents > La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed...

La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed...

Date post: 06-Aug-2020
Category:
Upload: others
View: 2 times
Download: 0 times
Share this document with a friend
29
La codifica digitale dei testi Daniela Trotta [email protected]
Transcript
Page 1: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

La codifica digitale dei testi

Daniela [email protected]

Page 2: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

“The lexicographic data that are

available in computer form as of

today are the following: published

dictionaries […], electronic

dictionaries […], corpora

2

GROSS, Maurice. A bootstrap method for constructing local grammars. In: Proceedings of the Symposium on

Contemporary Mathematics. University of Belgrad, 1999. p. 229-250.

Page 3: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Che cos’è un corpus

Un corpus è una collezione di testi

selezionati ed organizzati in maniera

tale da soddisfare specifici criteri

che li rendono funzionali per le analisi

linguistiche.

3

Page 4: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Chomsky VS

corpora

4

AARTS, Bas. Corpus linguistics, Chomsky and fuzzy tree fragments. Language and

Computers, 2000, 33: 5-14.

Page 5: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Criteri di classificazione

dei corpora

5

✓ generalità

✓ modalità

✓ cronologia

✓ lingua

✓ integrità dei testi

✓ codifica digitale dei testi

✓ + estensione

Page 6: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Che cos’è la codifica?

“Rappresentazione di un testo su un supporto digitale in un

formato comprensibile da un elaboratore elettronico”

CIOTTI, Fabio. Testo rappresentazione e computer. Contributi per una teoria della codifica testuale. Internet e le

Muse, 1997.

6

Page 7: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Teoria della comunicazione

di Jakobson(1966)

7

Page 8: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Il problema

8

Le avventure di Pinocchio

Capitolo I

Come andò che Maestro Ciliegia, falegname,

trovò un pezzo di legno, che piangeva e

rideva come un bambino.

C'era una volta...

- Un re! - diranno subito i miei piccoli

lettori.

- No, ragazzi, avete sbagliato. C'era una

volta un pezzo di legno.

Non era un legno di lusso, ma un semplice

pezzo da catasta, di quelli che d'inverno

si mettono nelle stufe e nei caminetti per

accendere il fuoco e per riscaldare le

stanze.

Non so come andasse, ma il fatto gli è che

un bel giorno questo pezzo di legno capitò

nella bottega di un vecchio falegname, il

quale aveva nome mastr'Antonio, se non che

tutti lo chiamavano maestro Ciliegia, per

via della punta del suo naso, che era

sempre lustra e paonazza, come una

ciliegia matura.

Page 9: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

La codifica

si articola

su due

livelli Zero (o basso)

01010101

.

9

Alto

▪ selezione di aspetti

strutturali e funzionali

▪ scelta di un linguaggio di

rappresentazione

Page 10: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

10

E quindi?

Page 11: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

La codifica trasforma il dato

testuale in fonte esplicita di

informazione linguistica →

struttura del testo, struttura del

contesto, struttura linguistica

11

Page 12: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

12

Definizioneschema di

codifica o annotazione

repertorio di categorie per

la codifica

regole di compatibilità

specifica criteri di applicazione delle categorie selezionate

Page 13: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

“L’annotazione del testo è dunque un processo

delicato, aperto e incrementale, che investe

direttamente il linguista in più fasi successive

e che può avere ripercussioni non banali sulla

sua comprensione dei fenomeni da annotare

13

LENCI, Alessandro; MONTEMAGNI, Simonetta; PIRRELLI, Vito. Testo e computer. Introduzione alla linguistica

computazionale. Carocci editore, 2005.

Page 14: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Tipologie

14

Morfo-sintattica

Sintattica

Semantica Pragmatica

annotazione

Page 15: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

15

Page 16: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

16

Page 17: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

17

Linguaggi di mark-up→ XML

eXtensible Mark-up Language

Vantaggi

• portabilità e interscambiabilità

• massimo grado di espressività

Page 18: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Tratti caratterizzanti

l’xml

18

marcatura strutturata

marcatura gerarchica

marcatura dichiarativa

Page 19: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Componenti della

marcatura

19

✓ elemento: ogni componente della strutturalinguistico-testuale, identificato da un nome definitocome con un indicatore generico (generic identifier,GI)

<titolo>Le avventure di Pinocchio</titolo>

✓ attributo: informazioni aggiuntive che specificanoalcune caratteristiche dell’elemento che non fannoparte del contenuto del testo

nome_attributo=valore

<capoverso num=«2»>C’era una volta…</capoverso>

Page 20: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Componenti della

marcaturaII

20

✓ riferimenti a caratteri e entità: caratteriappartenenti al codice Unicode attraverso il lorovalore numerico in notazione decimale o esadecimale+ sequenze di byte associate a nomi mnemonici

<testo>l&apos;amico</testo>

✓ commenti: note dell’annotatore ignoratedall’elaboratore

< ! --- rivedere questo tag --- >

Page 21: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

DTD

Document Type

Definition

In essa vengono dichiarati – una e una

sola volta – tutti gli oggetti necessari alla

costruzione del linguaggio di marcatura.

Cosa si dichiara?

21

▪ elementi

▪ attributi

▪ entità

Page 22: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

22

Dichiarazione di un

elemento

Si articola in due parti: a) etichetta o tag (GI) b)descrizione del contenuto in termini strutturali (contentmodel)

<!ELEMENT tag_elemento (modello di contenuto)>

Page 23: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

23

Dichiarazione di un attributo

<!ATTLIST

tag_elemento

tag_attributo

tipo_valore

modificatore … >

Page 24: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

24

Dichiarazione di un attributo

I

<!ATTLIST tag_elementotag_attributotipo_valoremodificatore … >

Specifica obbligatorietà/opzionalità e/o eventuale valore di default:

# REQUIRED → specificazione valore per

attributo obbligatoria

# IMPLIED → specificazione attributo

opzionale

# FIXED → valore fisso per attributo

Page 25: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

25

Page 26: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

“La proliferazione degli schemi di codifica ha reso

evidenti gli svantaggi derivanti da una babele

informatica che ostacola lo scambio di risorse e

strumenti scientifici, stimo fondamentale per far

avanzare la ricerca

26

PIERAZZO, Elena. La codifica dei testi: un'introduzione. Carocci editore, 2005.

Page 27: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

La nascita delle

Guidelines

1994: pubblicazione della prima versione completa e stabile

della Guidelines fot Text Encoding and Interchange (Sperberg-

Mc Queen, Burnard, 1995a)→ https://tei-c.org/

Le Guidelines in apertura definiscono gli scopi della codifica

TEI:

• fornire un formato standard per l’interscambio di

informazioni

• fornire una guida per la codifica in questo formato

• supportare la codifica di tutti i tipi di caratteristiche di ogni

genere di testo

• essere indipendente dalle applicazioni27

Page 28: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Conseguenze

- scelta di SGML, XML e ISO 646 17

- preparazione di un ampio set di tag predefiniti

- distinzione fra codifica richiesta,

raccomandata e opzionale

- codifica per diverse interpretazioni del testo

- presenza di codifiche alternative per la stessa

caratteristica testuale

- creazione di un sistema di estensioni dello

schema definite dall’utente

28

Page 29: La codifica digitale dei testi - WordPress.com...Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali

Place your screenshot here

29

Domande?


Recommended