+ All Categories
Home > Technology > Ringlstetter Historische Lexika Impact Workshop MUC

Ringlstetter Historische Lexika Impact Workshop MUC

Date post: 24-Jun-2015
Category:
Upload: impact-centre-of-competence
View: 391 times
Download: 3 times
Share this document with a friend
Popular Tags:
50
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Aufbau und Verwendung spezieller Lexika bei der Digitalisierung historischer Kollektionen Annette Gotscharek, Ulrich Reffle, Christoph Ringlstetter, Klaus U. Schulz CIS, University of Munich
Transcript
Page 1: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Aufbau und Verwendung spezieller Lexika bei der Digitalisierung historischer Kollektionen

Annette Gotscharek, Ulrich Reffle, Christoph Ringlstetter, Klaus U. Schulz CIS, University of Munich

Page 2: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

2

Fragen, Methoden, Evaluation Welche Art lexikalischer Ressourcen sind für

welche Periode geeignet? Welche Art von Verbesserungen sind zu

erwarten?

------------ (1) Analyse historischer Korpora (2) Expliziter Lexikonaufbau (3) Approximative Methode

------------ (4) Experimente zum Information Retrieval (5) Experimente zur OCRBSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 3: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

1900 1800 1700 1600 1500

• Qualität der Dokumente• Problematische Fonts• Historische Varianten• unbekannte Wörter

Herausforderungen bei der Digitalisierung

Page 4: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4

Orthografische Variation

Fehlende Normalisierung der Orthografie führt zu einer Vielzahl orthografischer Varianten in historischen Dokumenten

– Teil als theil, Teyl, theyl

– Kräuter als kra ͤuter, Kreuther, kreüter, Kreuter, creuther

– fragte als frug, fruk

Standardlexika enthalten diese Varianten nichtBSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 5: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Suche auf historischen Texten

???

Keine Resultate für die moderne Query “Kräuter” -Mapping von den historischen Varianten zum modernen

Äquivalent

Kräuterkraͤuter

Kreüter

kreuter

creuther

creuter

Page 6: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

OCR historischer Texte: gute Qualität

Städte den römischen mumcizmg gleich zu stellen. Allem wenn sich je in einem Rechtstheile die altrechtlichen teutschen Gewohnheiten, und Gesetze erhalten haben, so ist es gewiß in dieser Lehre, man mag entweder auf die Befugniß, die Stadtgerechtigkeit zu ertheilen , oder auf die innere Regimentsverfftssung so-

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 7: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

OCR historischer Texte: mittlere Qualität

Fürsten zu Gstternwerden/wer wollte vermainen / daßwtIhroKhurftrstl Durchl gnädiglsterHcttVatterinderpictcrrndFrombkcltallmFürstenvorzusetzen!scyn/vnd das halst> in^cclcQ^ vci pluz^uäzn 5accr6o5 daß tl iN KilchkN GottW wehr als ein Priester.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 8: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

OCR historischer Texte: Fehlerbeispiele (1)Verarbeitete Wortbilder können zu False Friends

führen

Fischerei - Tischlerei: F->T, h -> hl

(2) Verarbeitete Wortbilder können zu Nichtwörtern führen

(3) Schwere Wortsegmentierungsfehler

OCR auf Fraktur:

gut (WER < 10%); mittel (10-30%); schlecht (< 30%)

vndExcmpelFürstl-vnd HeroischerTuzenF

^.uglltt. schreibet/

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 9: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

• Lexika für IR: modernes Wort – historische Variante • Lexika für OCR (aktives Lexikon, Wortliste)• Listen historischer Patterns: Hypothetisches Lexikon• Sprachmodelle für OCR • Syntaktische Information zur Paradigmenexpansion

Sprachressourcen zur OCR/IR Verbesserung

Page 10: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Mögliche Quellen historischer Korpora:

• Korpora im Web (Abgetippte hist. Dokumente)

• Nichtöffentliche elektronische Korpora

• Eigenes Keying/korrigierte OCR digitalisierter Bilder

• Unkorrigierte OCR Korpora

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Sprachressourcen basieren auf Korpora

Page 11: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

1. Entwicklungskorpus 1.0 • Getippte Texte von 1450 bis 1900 • Mittlere Größe: 2.7 Mill. Token • Für Lexikonkonstruktion

2. Evaluationskorpus für OCR Tests• OCRte Bilder + Groundtruth aliniert• Texte aus dem 16th, 18th, 19th Jahrhundert

3. Evaluationskorpus für IR Tests• Linguistisch annotierte Groundtruth• Texte aus dem 16th, 17th, 18th, 19th Jahrhundert

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Erste Sammlung historischer Korpora

Page 12: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Abdeckung Modernes Lexikon

Page 13: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Anteil Komposita

Page 14: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Korpus basierter Lexikon Aufbau IMPACTZiel unserer Arbeit am historischen

LexikonEin Lexikon das für jeden Eintrag enthält:

– die historische Variante– das korrespondierende moderne Lemma

(Grundform) – mindestens ein Auftreten der

historischen Variante in realen historischen Daten (= “attestation”)

Page 15: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Korpus basierter Lexikon Aufbau IMPACTWas wir brauchen um effizient zu arbeiten:

– Korpus mit historischen Texten (Groundtruth)– Modernes Vollformenlexikon (= flektierte

Wortformen) mit Information zur Lemmatisierung

– “Hypothetisches Lexikon”: mapping pattern-basierter historischer Varianten auf Einträge im modernen Lexikon

– Speziell zu älteren Texten (16. Jahrhundert): geduldige Menschen mit Hintergrund in historischer Linguistik.

Page 16: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

“Preprocessing”

Korpus Files Normalisierung (UTF-8),

Tokenisierung, Frequenzliste

Filter:

- Token im modernen Lexikon

- Token bereits im gesammelten historischen Lexikon

Varianten Matcher

Frq.-Liste der pattern-basierten Varianten

Frq.-Liste der „unbekannten“ Varianten

Page 17: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Lexikograph wählt ein Wort aus

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 18: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Pattern Varianten automatisch erzeugt - Lexikograph bestätigt gültige

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 19: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Lemma Lesarten automatisch erzeugt – LexikographIn bestätigt gültige

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 20: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Lemma Attestate automatisch gesucht- Lexikograph wählt für die Lesart gültige aus

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 21: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Resultierende Lexikon Struktur

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 22: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Für IR Explizites Lexikon für IR derzeit ca. 15,000 Einträge Hypothetisches Lexikon für IR: Matching Prozedur basierend auf 140

Pattern theoretisch 100 Mio Einträge

Für OCR Witnessed lexicon aus hist. Korpus 1.0, ca. 200,000 Types

Erstellte lexikalische Resourcen

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 23: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Experimente zum Information Retrieval

Anwendung Lexika 1: Information Retrieval

? Genügt Approximatives Matching für IR auf historischen Texten?

? Benötigen wir ein manuell erstelltes Lexikon und wenn ja für welches Szenario?

Page 24: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Herausforderung für IR auf hist. Texten:Orthografische Variation

0 Results

Kräuterkraͤuter

Kreüter

kreuter

creuther

creuter

Page 25: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Methoden zur Variantenbehandlung

Hypothetisches LexikonDurch spezielles approximatives Matching basierend auf historischen Pattern werden Eingabestrings mit modernen Wörtern assoziert

Explizites Lexikon erstellt von Linguisten

Lexikoneintrag ist eine historische Variante assoziiert mit dem modernen Lemma

Page 26: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Automatisches Matching

Modern lexicon

Inflected forms

teile

...

taille

fragte

Lemmatizing information

teil (= part)

teilen (= to share)

taille (= waist)

fragen (= to ask)

Page 27: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Automatisches Matching

Modern lexicon

Inflected forms

teile

...

taille

fragte

Lemmatizing information

teil (= part)

teilen (= to share)

taille (= waist)

fragen (= to ask)

~ 140 Patterns

th → t

ei → ai

ey → ei

l → ll…

Page 28: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Automatisches Matching

Modern lexicon

Inflected forms

teile

...

taille

fragte

Lemmatizing information

teil (= part)

teilen (= to share)

taille (= waist)

fragen (= to ask)

~ 140 Patterns

th → t

ei → ai

ey → ei

l → ll…

Spelling variation

theile

Page 29: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Automatisches Matching

Modern lexicon

Inflected forms

teile

...

taille

fragte

Lemmatizing information

teil (= part)

teilen (= to share)

taille (= waist)

fragen (= to ask)

~ 140 Patterns

th → t

ei → ai

ey → ei

l → ll…

Spelling variation

theile

Page 30: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Approximate matching procedure

Modern lexicon

Inflected forms

teile

...

taille

fragte

Lemmatizing information

teil (= part)

teilen (= to share)

taille (= waist)

fragen (= to ask)

~ 140 Patterns

th → t

ei → ai

ey → ei

l → ll…

Spelling variation

theile

Page 31: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Automatisches Matching

Modern lexicon

Inflected forms

teile

...

taille

fragte

Lemmatizing information

teil (= part)

teilen (= to share)

taille (= waist)

fragen (= to ask)

~ 140 Patterns

th → t

ei → ai

ey → ei

l → ll…

Spelling variation

theile

Page 32: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Automatisches Matching

Modern lexicon

Inflected forms

teile

...

taille

fragte

Lemmatizing information

teil (= part)

teilen (= to share)

taille (= waist)

fragen (= to ask)

~ 140 Patterns

th → t

ei → ai

ey → ei

l → ll…

Spelling variation

frug

Page 33: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Automatisches Matching

Modern lexicon

Inflected forms

teile

...

taille

fragte

Lemmatizing information

teil (= part)

teilen (= to share)

taille (= waist)

fragen (= to ask)

~ 140 Patterns

th → t

ei → ai

ey → ei

l → ll…

Spelling variation

?

frug

Page 34: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Automatisches Matching - Hypothetisches Lexikon Vorteile:

– Keine manuelle Arbeit– Dynamische Lösung

Grenzen:– Mismatches verbinden eine künstliche Variante mit

einem unverbundenen modernen Wort– Ein Teil des historischen Vokabulars kann nicht

durch einfaches Matching auf ein modernes Wort reduziert werden (komplizierte historische Flexionsvarianten, nicht pattern-basierte historische Wörter).

Page 35: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Manuell validierte Lexika

Modern lexicon

Inflected forms

teile

...

taille

fragte

Lemmatizing information

teil (= part)

teilen (= to share)

taille (= waist)

fragen (= to ask)

Spelling variation

theile

frug

Page 36: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Manuell validierte Lexika

Modern lexicon

Inflected forms

teile

...

taille

fragte

Lemmatizing information

teil (= part)

teilen (= to share)

taille (= waist)

fragen (= to ask)

Spelling variation

theile

frug

Manual mapping

Page 37: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Manuell validierte Lexika Vorteile:

– Assoziationen zwischen historischer Variante und modernem Lemma sind sicher

– Nicht patternbasierte Assoziationen können explizit gespeichert werden

Grenzen:– Zeitaufwändig, z. T. werden Spezialisten

benötigt– Kaum je komplett wegen der großen Zahl

historischer Varianten

Page 38: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Evaluation des hypothetischen Lexikons für ein Suchszenario

Liste moderner und historischer Stopwörter

Definition von “Präzision” und “Recall” für unser Szenario (Erreichbarkeit des Textes)

Aufwändige manuelle Erstellung eines Evaluationskorpus

Page 39: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Speziell annotiertes IR Groundtruth

Page 40: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Präzision und Recall

Page 41: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Fehlender Recall des hypoth. Lexikons

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 42: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Anwendung Lexika 2: OCR

Erste Experimente zur OCR mit dem IMPACT Abbyy External Dictionary Interface FR9

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 43: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

43

Erneut die Frage: brauchen wir ein historisches Lexikon?

– OCR Ausgabe– Groundtruth (abgetippt vom Original

oder korrigierte OCR)– Alignierung zwischen OCR und

Groundtruth– Messung der Performanz: Reduktion

von Erkennungsfehlern

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 44: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Alignierung zwischen OCR und Groundtruth

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Mittlere Erkennung

Gute Erkennung

Page 45: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

1.Kein Lexikon, nur historisches Zeichenmodell

2.Modernes deutsches Lexikon3.Korpusbasiertes historisches

Lexikon4.Hypothetisches Lexikon---------------------------------------------------

-Oberes Limit: optimales Lexikon

OCR Experimente für Lexikon Settings

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 46: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

46

Dictionary16th century

No. of word errors

Reduction of error rate

18th century

No. of word errors

Reduction of error rate

19th century

No. of word errors

Reduction of error rate

No Lexicon 1306 - 827 - 2074 -

Optimal Lexicon 756 42% 395 52% 612 70%

Modern Lexicon 1096 16% 501 39% 888 57%

W.Historical Lexicon 938 28% 481 42% 856 59%

Modern + Virtual H.L. 1011 25% 480 42% 849 59%

WER > 50% WER ~ 10%

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 47: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Ergebnis: lexikalische Ressourcen für IR/OCR

Kann Approximatives Matching ein Lexikon für historische Texte ersetzen?

Antwort ist abhängig von der Zeit aus der die Kollektion stammt– Nur modernes Lexikon genügt auf keinen Fall– Für Kollektionen aus dem 19. und 18. Jahrhundert:

automatisches Matching akzeptabel – Für Kollektionen aus dem 16. und 17. Jahrhundert:

Manuell erstellte Lexika notwendig

Eine Kombination scheint optimal

Page 48: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

48

Zwischenergebnis LMU/BSB Studie VD16

Fokuskollektion der Bayerischen StaatsbibliothekVD16: Größte Sammlung Frühneuhochdeutscher

Bücher Manuelle Lexikonerstellung nötig Keine elektronischen Korpora verfügbar Theologische Domäne als Fokusbereich Spezifikation + Pflichtenheft zusammen mit BSB Ausgewählte repräsentative Materialien ca. 90

Bücher, 500,000 Token wurden von Serviceprovidern abgetippt

Qualitätssicherung durch BSB/LMUBSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 49: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

49

Ressourcen für Frühneuhochdeutsch

Integration der OCR Anbieter

Spezielle Font- und Zeichenmodelle

Verbesserung der OCR durch

spezielles VD16 Lexikon

Verbesserung der Suche durch

IR Variantenlexikon

Linguistische Datenbank

für VD16

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Page 50: Ringlstetter Historische Lexika Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

BSB IMPACT Workshop 04.03.2010: LMU/CIS

Herzlichen Dank.


Recommended