What is OCR / Kaj je OCR / 10. 06. 2011

Post on 11-Jun-2015

336 views 1 download

Tags:

description

Presentation of OCR procedures in the frame of EOD project at National and University Library, Slovenia. Presented in June 2011 by Matija Brumen.

transcript

EOD - eBooks on Demand in OCR

Matija Brumen, NUK, 10.6.2011

EOD je evropski projekt digitalizacije

monografskih publikacij, prostih avtorskih pravic (natisnjene med leti 1501-1945),

na zahtevo uporabnika.

Končni izdelek je:

Kaj je EOD?

PDF datoteka(z ali brez OCR)

ali mehko vezana knjiga (tisk na zahtevo - POD)

Cena

EOD e-knjige=> 0,11-0,22€ na stran (npr. 200 stranska knjiga z OCR = 36€)

POD knjige=> 6€ + 0,02€ na stran (200 strani = 10€)

Cena

Sodeluje več kot 30 partnerskih institucij iz 12 evropskih držav

Partnerji

Postopek optične prepoznave besedila pri projektu EOD

Vstopna točka nuk.uni-lj.si

Iskalnik na: dlib.si/eod

Prikaz zadetkov, izbor

Naročilo na books2ebooks.eu

Izbor z/brez OCR

Oddaja naročila

Naročilo gradiva v skladišču

Zajem slike - skeniranje

Obdelava slik-Book restorer

Poravnava teksta

Binarizacija

Binarizacija

Binarizirana, neobdelana slika

Porezava slik - Fast stone image viewer

Porezava

Obrezana slika (neočiščena)

Čiščenje slik in OCR - ABBYY

Čiščenje slike

Očiščena in popravljenaslika, pripravljena za OCR

Potek OCRNUK

ABBYY(NUK) ABBYY Innsbruck (gotica)

NUK

Izbira jezika za OCR

Branje

Ločen prikaz slike in teksta, napake

Označimo napake

Vstavimo popravke (naslovnica)

Shranimo kot PDF z OCR

Statistika naročil EOD e-knjig z OCR

z OCR41%

brez OCR59%

Razmerje naročil z/brez OCR

Hvala za pozornost.

dlib.si/eodbooks2ebooks.eu