Date post: | 04-Dec-2014 |
Category: |
Technology |
Upload: | epitalrde |
View: | 1,138 times |
Download: | 2 times |
ScriboExtraction automatique de connaissances a partir d’images
Guillaume [email protected]
Thierry GeraudYann Jacquelet
Arthur Crepin-LeblondRoland Levillain
Julien Marquegnies
EPITA Research and Development Laboratoryhttp://www.lrde.epita.fr
Guillaume Lazzara Scribo 1 / 15
Outline
1 Introduction
2 Cas d’application
3 Les outils
4 Demo
5 Conclusion
Guillaume Lazzara Scribo 2 / 15
Introduction (1/2)
Constat :
Gros volumes de donnees :
au format papier (documents d’entreprises, d’institutions...),ou deja numerises (sous forme d’images).
Presence de texte :
non manipulable (au format image, pas texte ! ),a exploiter (nombreuses applications).
Idee : a partir d’une image de document :
preserver la structure du document,
conserver les informations de style.
Identifier les objets non texte (traits, cadres, cartouches, images (!)...)
Guillaume Lazzara Scribo 3 / 15
Introduction (2/2)
But de notre participation dans Scribo :
dematerialiser des documents papiers,
fournir une solution libre et gratuite,
enrichir notre bibliotheque de traitement d’images (Licence GNUGPLv2).
Guillaume Lazzara Scribo 4 / 15
Cas d’application
2 chaınes de traitement principales :
Extraction et reconstruction d’un document complexe.
Detection de texte dans les photos.
Des cas d’application :
Nepomuk KDE : recherche de mots cles dans les images.
AFP : extraction de texte dans les photos de presse pour indexation.
Nuxeo/XWiki : extraction de texte dans les images pour enrichir lesmeta-donnees.
Guillaume Lazzara Scribo 5 / 15
Exemples de documents
Guillaume Lazzara Scribo 6 / 15
Olena
Scribo s’appuie sur la plateforme Olena :
dediee au traitement d’images,collection d’outils generaux (structures et algorithmes)10 ans d’age,version 1.0 sortie en juillet 2009,
Module Scribo pour la dematerialisation
outils specifiques,disponible sur Internet http://olena.lrde.epita.fr
Guillaume Lazzara Scribo 7 / 15
Fonctionnalites de Scribo (1/3)
Nettoyage de l’image.
suppression de bruit,separation objets/fond,
= +
Binarisation.
→
Guillaume Lazzara Scribo 8 / 15
Fonctionnalites de Scribo (2/3)
Extraction de primitives :
lignes,motifs (tableaux),images.
Groupement d’objets :
passage de composantes a ungraphe,plusieurs strategiesdisponibles,identification de lignes detexte.
Guillaume Lazzara Scribo 9 / 15
Fonctionnalites de Scribo (3/3)
Extraction de tableaux :
reconstruction a partir deslignes verticales ethorizontales,decoupage en cellules,obtention de la structure.
Reconnaissance de caracteres :
amelioration de la qualite deszones de texte,integration du logiciel OCRTesseract. →
Guillaume Lazzara Scribo 10 / 15
Chaıne de dematerialisation
Guillaume Lazzara Scribo 11 / 15
Demo
<< LiveDemo >>
Guillaume Lazzara Scribo 12 / 15
Demo
Guillaume Lazzara Scribo 13 / 15
Conclusion (1/2)
Disseminations logicielles :
developpement ouvert sur depot Git,sortie d’Olena Version 1.1 bientot,nouvelle version du module Scribo.
Disseminations scientifiques :
publications (ISMM 2009, ICIP 2010, WADGMM 2010),2 publications en cours,2 concours (HSC 2009, H-DIBCO 2009).
Guillaume Lazzara Scribo 14 / 15
Conclusion (2/2)
En cours de packaging pour Mandriva Linux,
Deja utilise par :
KDE (Nepomuk),XWiki,Nuxeo.
Plus d’informations et demos en ligne sur :
http://olena.lrde.epita.fr/
Guillaume Lazzara Scribo 15 / 15