Post on 06-Dec-2014
description
transcript
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11.10.2011 DemoDay BSB
OCR-Software für historische Dokumente Gerd Zechmeister (Österr. Nationalbibliothek)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
2
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
3
Was ist OCR?Optische Zeichenerkennung ist die mechanische oder elektronischeÜbersetzung von - üblicherweise von einem Scanner erfassten - Abbildern von hand- oder maschingeschriebenem bzw. gedrucktem Text in maschinenlesbaren Text. (Übersetzte Definition aus dem IMPACT Glossar)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
4
Warum OCR?
� Volltextgewinnung und Einsatz spezieller Lexika zur Wiederauffindung von
Dokumenten in Suchsystemen
� Editierbarkeit (z.B. Redigieren für reprints oder eBook-Formate)
� Schriftart-Erkennung
� „Trainieren“ von OCR Software
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
5
OCR Verarbeitungsschritte
� Bildvorverarbeitung
– Kompensieren und Ausgleichen von Image-Defekten (z.B. Geraderücken, Entfernen von Flecken) zur Optimierung des Scans sowie als Vorverarbeitungfür die OCR (Binarisierung)
� integriert im OCR-System oder als Vorverarbeitungsschritt vorgesehen
� Layout-Analyse und Segmentierung
– Erkennen von Layout-Elementen (Druckbereich, Marginalia, Seiten- und Kapitelzahlen etc.) und Blöcken (Text, Illustrationen etc.)
� Mehrinformation über diese Elemente und Blöcke (z.B. Koordinaten) können je nach Ausgabeformat in den Ergebnissen mitgeliefert werden
� Mustererkennung
– Erkennen einzelner Zeichen und Abgleich derselben mit der Datenbank von Klassifikatoren (= Zeichenmuster)
– Ausgabe von Ergebnissen (z.B. TXT, XML, RTF)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
6
IMPACT & ABBYY
� ABBYY ist der OCR-Technologie-Lieferant für IMPACT
� Die IMPACT Partner arbeiten mit der FineReader Engine (SDK)
� ABBYY verbessert Features im Rahmen von IMPACT, darunter:
– Bildvorverarbeitung
– Zeichenerkennung
– Segmentierung
� werden in zukünftige Produkte integriert
� IMPACT ermöglicht Forschung, liefert kein Produktivsystem
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Binarisierung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Adaptive Binarisierung
Original-Scan
alteBinarisierung
neueBinarisierung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Binarisierung
9
� Original � Stand der Technik � IMPACT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Segmentierung
Blöcke/Regionen Worte Glyphen/Zeichen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Segmentierung: Beispiel 1Pre-IMPACT FR Engine 9 FR Engine 10
Ein Teil wurde fälschlicherweise als Grafikblock interpretiert
11111111
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Segmentierung: Beispiel 2
Fehler in der Zuordnung von Elementen wurden behoben
12121212
Pre-IMPACT FR Engine 9 FR Engine 10
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Segmentierung: Beispiel 3Pre-IMPACT FR Engine 9 FR Engine 10
In v9 nicht berücksichtigte Textregionen sind jetzt inkludiert
13131313
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Fraktur-Erkennung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Sprachen und Wörterbücher� Ziel: Schnittstelle zur Integration externer Wörterbüc her in die
Engine� 2008 - 2009:
• Betaversion der Schnittstelle• Selbe Prozessqualität möglich wie mit internen Wörterbüchern
15151515
� 2010 - 2011:• Schnittstelle “stabilisieren” (weitere
Funktionstests notwendig)• Partner einschulen wie die Schnittstelle
zu benutzen ist• Unterstützung für alle verfügbaren
Sprachen und Zeiträume
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
16
Eigennamenerkennung
� Erkennen von Personen, Orten und Körperschaften in Volltexten
� Arbeitsschritte
1. Erstellen von Eigennamenverzeichnissen (z. B. Abtippen von Ortsverzeichnissen,
Konvertierung von Normdateien in geeignete Formate)
2. Indexieren von Volltexten
3. Suchschnittstelle generieren
� IMPACT Retrieval Demonstrator
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
ALTO: neues natives Exportformat
� Verfügbar seit FineReader Engine 10 R2
� Unterstützt aktuelles Schema: ALTO v. 2.0
� Koordinaten auf Linienebene verfügbar
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
18
Ergebnisvergleich
� Prozess 1
1. Geometrische Korrektur
2. Rahmenentfernung
3. ABBYY FineReader 10 Binarisation Service
4. ABBYY FineReader 10 OCR Service
� Prozess 2
1. ABBYY FineReader 10 OCR Service
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
19
� Prozess 1 (Bildvorverarbeitung + FR 9)
� Prozess 2 (FR 9)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
20
Vielen Dank … Fragen?