Home >Documents >Digitalisierungspraxis - Pichler - Abbyy

Digitalisierungspraxis - Pichler - Abbyy

Date post:05-Dec-2014
Category:
View:1,378 times
Download:1 times
Share this document with a friend
Description:
 
Transcript:
  • 1. OCR Software Automatisiertehochskalierbare OCR imBibliotheksumfeldMarkus PichlerProduct Marketing ManagerABBYY Europe [email protected]
  • 2. Die ABBYY GruppeABBYY das Unternehmen: > 800 Mitarbeiter weltweit > 400 Entwickler in der Zentrale Gegrndet 1989 in Moskau, RusslandFhrender Anbieter von: Software fr Texterkennung und Dokumentenkonvertierung (OCR, ICR, OBR und OMR) Data Capture zur Formular- sowie Freiformerkennung zur Verarbeitung geschftskritischer Dokumente (Rechnungen, Lieferscheine, Antrge etc.) bersetzungs- sowie Sprachensoftware (Wrterbcher und bersetzungsservices)
  • 3. Was macht ABBYY Recognition Server? Serverbasierte OCR und Dokumenten- Konvertierung Hochskalierbare und automatisierte OCR- Umwandlung fr Volltextsuche und -erschlieung Luft als Service und kann von allen Abteilungen genutzt werden Untersttzung fr die Erkennung von historischen Schriften und Fraktur
  • 4. Automatisierte und zentrale VerarbeitungAutomatische, zentralisierte Verarbeitung Automatisierte Server Software fr OCR sowie zur PDF Umwandlung Indexing Station Konvertiert gescannte Dokumente, Bilder und PDF in Dateien, die editiert, indexiert sowie durchsucht werden knnen. Scanning Station Wandelt gescannte Dokumente oder Bilder in durchsuchbare PDFs Zentrale Verarbeitung als Service Management und zentrale Administration Hohe Skalierbarkeit fr hochvolumige Dokumentenverarbeitung Untersttzt: zeitgeplante und automatische OCR sowie Verarbeitung im Hintergrund
  • 5. Herausforderungen historischer Dokumente Bildqualit Bildqualitt Gewelltes Papier, verschachtelte Layouts, gebogene Textzeilen liefern mangelhafte Bildqualitt Layouterkennung Historische Bcher/Dokumente haben oft eine andere Layoutstruktur Algorithmen fr die Erkennung von modernen Layouts nicht anwendbar auf alten Dokumenten Verwendete Typographie Verwendung alter Schriftarten mit minderer Qualitt der Buchstaben Unvollstndige Zeichen
  • 6. Bildqualitt verbessernAusrichtung (De-Skew) & Begradigung Adaptive Binarisierung ABBYY Binarisierung Fehlerhafte Binarisierung OriginabildAbschneiden (Crop)
  • 7. Layouterkennung Bild Layouterkennung durch Dokumentenanalyse Tablelle Identifizierung der Struktur des Dokumentes Erkennen von Textblcken, Tabellen, und Bildern Erkennen von vertikalem Text in Tabellen OCR-fhig vs. Bild ADRT (Adaptive Document A Recognition Technology) Textblcke
  • 8. Verifizierung und Qualittskontrolle Ergebnisse der Layout Analyse Textblcke Bildblcke Tabellenblcke Abstze Textlinien Buchstaben Manueller Eingriff mglich Manuelle Korrektur von Blcken Korrektur unsicher erkannter Zeichen und Wrter, mit Wrterbuch- Untersttzung (auch externe Wrterbcher) Erneute OCR Erkennung mit anderen Spracheinstellungen mglich
  • 9. ABBYY Optimierungen im IMPACT Projekt Bildvorverarbeitung Adaptive Binarisierung Verbesserung der texturierten Hintergrunderkennung Bild- Verbesserungen der Bild- sowie Texterkennung Verbesserte Erkennung von Gothic/Frakturschriften Anbindung externer Wrterbcher (individuelle manuell erstelle Wrterbcher) ADRT Adaptive Document Recognition Technology Erkennung von Inhaltsverzeichnissen Neue XML Exportformate ALTO XML Support (Recognition Server 3.0. Release 8, Juli 2011) Untersttzung spezifischer Formate wie ePub zur Erzeugung elektronischer Bcher
  • 10. Fragen?

Click here to load reader

Reader Image
Embed Size (px)
Recommended