Categorización de documentos del Centro Virtual Cervantes
Fernando García
Eddy Rodriguez
Paula Zitinski
Introducción del proyecto
Clasificación de las páginas web del Centro Virtual Cervantes
La clasificación actual - incompleta: Música Enseñanza Artes Literatura Lengua
Alcance
Crear un clasificador que se pueda aplicar a las páginas del CVC
Este clasificador tendrá que cumplir los siguientes requisitos: Entrada desde un fichero de texto Salida a una base de datos Usar, en la medida posible, distintos frameworks La clasificación debe producirse sin (demasiados)
errores Debe terminar en tiempo aceptable
Entorno software
1. Eclipse (Java) Entorno de desarrollo integrado de código
abierto
2. Lucene es un framework de código abierto para
recuperación de información Búsqueda de palabras en documentos Problema – analizador en inglés
Solución – adaptación de la librería a través de un fichero externo (300 palabras)
3. SVN Sistema de control de versiones Compatible con Eclipse
4. Google code Espacio web para el almacenamiento de proyectos
de código abierto Página web:
http://code.google.com/p/proyectoil2010
5. JUnit Librerías de código para hacer pruebas unitarias y
de integración
6. Jericho HTML Parser
Librería de Java para el tratamiento de páginas web
Al final no lo utilizamos – sacaba información irrelevante
Sistema desarrollado
Estructura general del proyecto
Ficheros de entrada: Base – páginas web, ya categorizadas SpanishSmart – lista de palabras ruido Test – páginas web no clasificadas
Salida del programa: Base de datos
Objetos del proyecto (despliegue)
Lista de funcionalidades de la aplicación hasta el momento
Pendiente de desarrollo
Cambiar el modo de introducción de páginas web a categorizar
Implementar la función de similitud Implementar el almacenamiento de resultados Calcular la validez del código (JUnit)
Bibliografía
Código de nuestra página web: http://proyectoil2010.googlecode.com/svn/trunk
http://junit.sourceforge.net http://www.adictosaltrabajo.com http://www.googlecode.com http://lucene.apache.org http://www.ibm.com/developerworks/opens
ource/library/os-ecl-subversion http://jericho.htmlparser.net
¡Ahora, vosotros!