Date post: | 27-Jun-2015 |
Category: |
Documents |
Upload: | jose-m-carmona-cejudo |
View: | 294 times |
Download: | 0 times |
Tesis Doctoral
José Mª Carmona Cejudo
Directores:
Rafael Morales Bueno
Manuel Baena García
Universidad de Málaga
6 de junio de 2013
Nuevas tendencias en fundamentosteóricos y aplicaciones de la minería
de datos aplicada a la clasificación detextos en lenguaje natural
2 de 52
Why text mining? Nowadays, most information is stored as documents in natural language Applications: blog mining, spam detection, web page clustering,
recommender systems, analysis of medical literature, and much more
Why is it challenging? Unstructured information High dimensionality (large vocabulary) Massive, unbounded data sources Changes in underlying statistical distributions over time (concept change)
Introduction
3 de 52
Objectives of this thesis
Application to DNA strings Application of multilabel classification to electronic mail
Study of concept drift in email data streams. GNUsmail framework Study of dynamical attribute spaces in text streams. Is it useful? What’s the
best strategy? ABC-DynF framework Efficient strategies for document summarization using reduced space. TF-
SIDF/BM25 Efficient strategies for feature selection in text streams using reduced
space. STFSIDF
Open source and replicable experimentation
Objectives
Applications in bounded datasets
Study of data streams
4 de 52
Minería de textos
Aplicación: análisis de ADN Clasificación multietiqueta
Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos
dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto
Conclusions
Índice de contenidos
Aplicaciones datasets cerrados
Flujos dedatos
5 de 52
Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos
dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions
Índice de contenidos
6 de 52
Minería de textos: minería de datos para documentos en lenguaje natural
Minería de datos: extracción de información de grandes cantidades de datos
Tareas:◦ Clasificación
◦ Regresión
◦ Clustering
◦ Reglas de asociación
Proceso en varias fases:◦ Comprensión del dominio de aplicación
◦ Preparación de los datos
◦ Modelado
◦ Evaluación
◦ Despliegue
Minería de textos (1)
7 de 52
Preprocesamiento de texto: Tokenization Stemming Eliminación de stop-words Transformación a espacio vectorial Pesos:
◦ Binarios
◦ Frecuencia
◦ Según función de relevancia (peso)
Minería de textos (2)
April is the cruellest month, breedingLilacs out of the dead land, mixingMemory and desire (. . .)
[’april’, ’is’, ’the’, ’cruellest’, ’month’,’breeding’, ’lilacs’, ’out’, ’of’, ’the’,’dead’, ’land’, ’mixing’, ’memory’, ’and’, ’desire’]
[’april’, ’be’, ’the’, ’cruel’, ’month’,’breed’, ’lilac’, ’out’, ’of’, ’the’, ’dead’, ’land’, ’mix’, ’memory’, ’and’, ’desire’
[’april’, ’cruel’, ’month’, ’breed’, ’lilac’,’dead’, ’land’, ’mix’, ’memory’, ‘desire’, ]
(The waste land, T.S. Eliot)
Reducción de dimensionalidad:
Selección de términos◦ Estrategia wrapper (funciones de
relevancia)◦ Estrategia de filtrado
Extracción de términos
tokenization
stemming
eliminar stop-words
8 de 52
Minería de textos (3)
Algoritmos de clasificación: Probabilísticos (Naïve Bayes) SVMs Redes neuronales Basados en ejemplos (lazy) Árboles de decisión Multiclasificadores (ensemble learning)
o Boosting, bagging
Evaluación Medidas de evaluación
o Precisión, recall, F1 Comparación de algoritmos
o Validación cruzadao Tests estadísticos
Entrenamiento
Evaluación
4 fold cross validation
Iteración 1
Iteración 2
Iteración 3
Iteración 4
9 de 52
Escenario: fuentes de datos no acotadas
Limitaciones computacionales◦ No se almacenan los ejemplos◦ Modelos incrementales◦ Limitaciones de espacio y
tiempo
Minería textos (4). Flujos de datos
Cambios de concepto◦ Repentino o gradual◦ Real o virtual
10 de 52
Algoritmos de clasificación. Dos filosofías:
◦ Estrategia wrapper◦ Adaptación
Algunos algoritmos influyentes:◦ VFDT◦ UFFT◦ Algoritmos ensemble (OzaBoost/OzaBag)
Minería textos (5). Flujos de datos
Algoritmos de detección de cambio de conceptoo ADWINo Statistical Process Controlo Page-Hinkley Testo DDM / EDDMo Etc…
Evaluacióno Validación cruzada: no sirveo Evaluación precuencial. Estadístico pesimista. o Mejora: fading factors / sliding windows. Trabajo de J. Gama [111]
11 de 52
Necesarios algoritmos aproximados para reducción de espacio (estimación de frecuencias, top-k, …)
Basados en contadores: se mantienen contadores para un subconjunto de todos los ítems posibles.
Basados en sketches: ◦ Se proyectan los contadores a un espacio de menor
dimensionalidad, usando funciones hash◦ Aplicaciones: problema top-k, estimación de frecuencias
Minería textos (6). Flujos de datos
12 de 52
Count-Min Sketch. Cormode y Mathukrishnan, 2005 [202]
Estructura matricial C (h filas, w columnas) Procedimento de actualización: cuando llega un item i, hj(i) se computa
para cada fila j, incrementando en 1 unidad el valor de C[j, h_j[(i)]] Procedimiento de estimación: freq[i] ≈ minkC[k, hk(i)] Propiedad importante: para obtener una aproximación con error ε y
probabilidad δ, necesitamos un ancho de e/ε, y log(1/ δ) funciones hash
Minería textos (7). Flujos de datos
13 de 52
Filtros de Bloom Estructura de datos probabilística para
comprobar eficientemente si un elemento es miembro de un conjunto
Array de m bits y k funciones hash
Añadir elemento i: cada una de las k posiciones del array que corresponden a i según las funciones hash se pone a 1
Comprobar si un elemento está en el conjunto: si alguna de las k posiciones está a 0, el elemento no está en el conjunto.
Minería textos (8). Flujos de datos
14 de 52
Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos
dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions
Índice de contenidos
15 de 52
ADN (ácido desoxirribonucleico): largas cadenas de nucleótidos (Adenina, Timina, Citosina, Guanina) que se transforman en proteínas.
Cadenas de símbolos de un alfabeto Σ={A,T,C,G}
Minería de textos y ADN (1)
Nuestra idea: tratar las cadenas de ADN como si fueran cadenas de lenguaje natural Minería de textos para extraer información biológica
16 de 52
Necesario descubrir subcadenas relevantes en ADN (frecuentes, y no sólo por formar parte de otra subcadena frecuente)
Nuestra propuesta: dos fases:1. Extracción de subcadenas frecuentes (SANSPOS paralelo)
2. Filtrado de subcadenas relevantes (función de relevancia Added Value)
Minería de textos y ADN (2)
17 de 52
Minería de textos y ADN (3)
ADN mitocondrial (mtDNA). Poblaciones organizadas en haplogrupos
Relación evolutiva entre grupos poblacionales (antropología)
Clasificación de mtADN en haplogrupos
Extracción de características: SANSPOS paralelo y filtrado por AV
Modelado: SVM Base de datos de 1400 secuencias de mtDNA
humano, organizadas por haplogrupos Resultados similares a encontrados en
literatura, p.e. Wong et al. [65] Atributos encontrados automáticamente
(no proporcionados por expertos)
Source: Wikipedia
18 de 52
Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta en email Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos
dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions
Índice de contenidos
19 de 52
Minería multietiqueta: varias etiquetas para cada instancia Motivación: a veces, una sola etiqueta no basta (muy restrictivo)
Métodos:◦ Transformación del problema◦ Adaptación del algoritmo
Métodos de transformación del problema:◦ Binarios (BR, CLR)◦ Label Powerset y derivados (LP, RAkEL, PPT, EPPT)
Medidas de evaluación: ◦ Basadas en instancias◦ Basadas en etiquetas
Clasificación multietiqueta en minería de textos (1)
20 de 52
Estudio experimental: correo electrónico
Dataset: Versión multietiqueta de ENRON (con y sin preprocesamiento lingüístico)
Algoritmos: ◦ Trasformación de dataset: BR, CLR, LP, RAkEL, PPT, EPPT
◦ Algoritmos base: SVM (kernel lineal y polinomial), NN-ge (basado en ejemplos, con generalización), IB-k (vecino más cercano),C4.5 (árboles de decisión), Naïve Bayes
Observaciones sobre los resultados:◦ El preprocesamiento mejora significativamente los resultados◦ Para medidas en recall, funciona mejor EPPT. ◦ Para las demás medidas, funcionan bien los algoritmos que implican binarización◦ Es decir: la relación entre etiquetas es más importante para el recall que para la precisión
Clasificación multietiqueta en minería de textos (2)
21 de 52
Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos
dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions
Índice de contenidos
22 de 52
Correo electrónico como flujo de datos de texto GNUsmail: http://code.google.com/p/gnusmail. Clasificación de flujos de correo
electrónico Arquitectura en capas
◦ Acceso a correo◦ Procesamiento de texto◦ Aprendizaje (online y batch)◦ Evaluación
Plataforma abierta a la incorporación de nuevos métodos
Minería de flujos de textos y GNUsmail (1)
23 de 52
Corpus ENRON: corpus de datasets de correo electrónico
10 datasets en total, eliminando carpetas no tópicas y pequeñas
Algunos desafíos:◦ Desbalance en número de mensajes
◦ Aparición de carpetas nuevas
◦ Ejemplo: distribución de mensajes en carpetas en kitchen-l en el primer 30% (a) y el flujo completo (b)
Minería de flujos de textos y GNUsmail (2)
a)
b)
Carpeta nº
Nº de mensajes
Carpeta nº
Nº de mensajes
Primer 30% del flujo 100% del flujo
24 de 52
Minería de flujos de textos y GNUsmail (3)
Comparación de algoritmos en el dataset beck-s
Precisión precuencial (fading factors, α= 0.995) Test de McNemar, OzaBag vs. NN-ge (fading factors, α = 0.995)
Ganador: OzaBag sobre NNge (con DDM)
25 de 52
Minería de flujos de textos y GNUsmail (4)
Comparación de algoritmos en el dataset kitchen-l
Precisión precuencial (fading factors, α= 0.995) Test de McNemar, OzaBag vs. NN-ge (fading factors, α = 0.995)
Ganador: OzaBag sobre NNge (con DDM)
Cambio de concepto
26 de 52
Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos
dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions
Índice de contenidos
27 de 52
Dificultad de la minería de textos: alta dimensionalidad
El conjunto de atributos relevantes evoluciona
Necesario espacio de atributos dinámico◦ Los clasificadores deben ser capaces de usar atributos cambiantes
Para tratar con flujos de datos de alta dimensionalidad: ABC-DynF◦ Sucesor de AdPreqFr4SL [156]. Monitorización del estado de aprendizaje y
acciones adaptativas◦ ABC-DynF Incluye gestión de relevancia de atributos (filter approach)
ABC-DynF: minería de flujos de datos con atributos dinámicos (1)
28 de 52
ABC-DynF (http://abcdynf.sourceforge.net): estrategias adaptativas de AdPreqFr4SL + gestión de espacio de atributos dinámico
Clasificador base: redes bayesianas. Lista actualizada de atributos más relevantes (chi cuadrado)
Tabla de estadísticas suficientes compartida por el clasificador bayesiano y por la función chi cuadrado
Para cada batch de datos, se actualizan las estadísticas de todos los atributos (entrenamiento)
Para predecir: se usan sólo los k atributos con más relevancia
ABC-DynF: minería de flujos de datos con atributos dinámicos (2)
29 de 52
Estudio experimental: estrategias adaptativas
Se comparan 4 estrategias◦ Adapt00 (no se monitoriza cambio de concepto
ni se actualizan atributos)
◦ Adapt10 (se monitoriza cambio de concepto, no se actualizan atributos)
◦ Adapt01 (no se monitoriza cambio de concepto, se actualizan atributos)
◦ Adapt11 (se monitoriza cambio de concepto y se actualizan atributos)
P-values (Friedman): 0.00667 (F1), 6.03×10−9 (error percentual).
Test Finner: Adapt01 y Adapt11 no significativamente diferentes
ABC-DynF: minería de flujos de datos con atributos dinámicos (3)
30 de 52
Estudio experimental: ¿cuándo actualizar espacio de atributos?
Se comparan 3 estrategias◦ Cambiar para cada batch◦ Cambiar cuando deja de
mejorar el desempeño◦ Cambiar sólo para reconstruir
el modelo
Resultado: Es mejor cambiar los atributos para cada batch, pero la diferencia no es significativa (p-value > 0.05)
ABC-DynF: minería de flujos de datos con atributos dinámicos (4)
31 de 52
Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos
dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions
Índice de contenidos
32 de 52
Selección de atributos para resumen automático, usando funciones de relevancia (TF-IDF, BM25)
Palabras clave (keywords) y nubes de palabras (word clouds)
Prohibitivo mantener todos los contadores necesarios
Soluciones históricas: usar sólo parte de los documentos
Problemas: ◦ Pérdida semántica◦ La complejidad sigue siendo lineal
Nuestra propuesta: uso de algoritmos aproximados para estimación de contadores y listas top-k
TF-SIDF / SBM25: extracción de atributos online (1)
33 de 52
Usando Count-Min sketch para aproximar TF-IDF y BM25
TF-SIDF / SBM25: extracción de atributos online (2)
)(ˆlog),(),(
itfd
DjiTFjiTFSIDF
5.0)(ˆ5.0)(ˆ
log25.2
75.0)(
)(3),(25
,
,
i
i
ji
ji
tfd
tfdD
avgdl
Ddtf
dtfjiSBM
donde:› |D|: número de documentos
› df(ti): documentos donde aparece ti
› f(ti, dj): frecuencia absoluta del término ti en el documento dj
› avgdl: tamaño media de las categorías
› TF(i,j): f(ti, dj): frecuencia relativa del término ti en el documento dj
Count-Min sketch para aproximar el número de documentos en el que aparece cada término ti,
Los términos TF no dependen del pasado (no hace falta mantener contadores)
34 de 52
Experimentación
Diferentes configuraciones (alto/ancho) de los sketches para un mismo tamaño
Medidas de evaluación: ◦ Recall: Proporción de coincidencias entre listas top-k exacta y aproximada (mejor
mientras más grande)◦ Distancia de Spearman: tiene en cuenta el orden de los términos según su relevancia
(mejor mientras más pequeña)
Datasets usados:◦ Reuters◦ Pubmed Central◦ Ambos han sido reordenados cronológicamente
TF-SIDF / SBM25: extracción de atributos online (3)
35 de 52
Aplicación 1: extracción de palabras clave. Mejor resultado con 2 funciones hash
TF-SIDF / SBM25: extracción de atributos online (4)
Reuters PMC
Observación: mejores resultados con 2 funciones hash
Spearman distance
Recall
36 de 52
Otra aplicación: nubes de palabras para resumir categorías
Para cada categoría, se seleccionan las k palabras clave más frecuentes
Se representan en una nube de palabras según su frecuencia
TF-SIDF / SBM25: extracción de atributos online (5)
37 de 52
Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos
dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions
Índice de contenidos
38 de 52
Extracción de atributos eficiente en flujos de texto, usando algoritmos aproximados
STFSIDF: Count-Min Sketch para aproximar TFIDF Objetivo: selección dinámica de atributos en espacio reducido (usando
espacio de atributos dinámico)
STFSIDF para clasificación de flujos de texto (1)
39 de 52
STFSIDF: aproximación de funciones usando sketches y filtros de Bloom
Para TF usamos un sketch (CMterms) que almacena pares (término, categoría), y contadores para el tamaño de cada categoría (CL)
Para IDF necesitamos otro sketch (CMcat) y una estructura que calcule si un par (término, categoría) ha aparecido o no ◦ Los sketches no pueden aproximar bien cuenta 0
◦ Usamos para esto filtros de Bloom (BF)
STFSIDF para clasificación de flujos de texto (2)
40 de 52
Experimentación: aplicación a la clasificación de textos
STFSIDF para clasificación de flujos de texto (3)
Reuters
PMC
Test de McNemar
Precuencial
Precuencial
Versión exacta
Versión con sketches
41 de 52
Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos
dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions
Índice de contenidos
42 de 52
Competitive performance of DNA classification using pure text mining techniques (without features provided by biologists)
We have shown that email streams are affected by concept drift (often virtual), and have published GNUSmail for email stream classification
We have shown that it is advantegous to handle dynamic feature spaces when dealing with high-dimensional data streams (such as text)
We have published an open-source framework for data streams classification with dynamic feature spaces (ABC-DynF)
Conclusions: Main contributions of this thesis (I)
43 de 52
We have seen that it is recommendable to handle concept drifts and changes in the feature space simultaneously (Adapt11 strategy)
We have shown that better results are obtained if the feature space is updated regardless of the learning state
We have shown that it is possible to use approximate algorithms to summarize documents, reducing space without significatively affecting accuracy (TF-SIDF/SBM25)
Finally, we have proposed a method for reducing the space needed for online feature selection in data streams, using sketches and Bloom filters (STFSIDF), without significatively affecting classification performance
Conclusions: Main contributions of this thesis (II)
44 de 52
Extending GNUsmail to different domains
Use of different weighting functions
Extending ABC-DynF with non-Bayesian base models
Handling sketch degradation due to saturation (hash function collisions)
Studying the problem of multi-label text stream mining
Use of other kinds of features (including exogenous knowledge such as ontologies)
Conclusions: Future work
45 de 52
Journal articles: Baena-García, M; Carmona-Cejudo, J.M.; Morales-Bueno, R. String analysis by sliding positioning strategy. Journal of
Computer and System Sciences. Available online 19 March 2013, ISSN 0022-0000, 10.1016/j.jcss.2013.03.004 Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. A comparative study on feature selection and
adaptive strategies for email foldering using the ABC-DynF framework. Knowledge-Based Systems. Available online 1 April 2013, ISSN 0950-7051, 10.1016/j.knosys.2013.03.006
Contributions in international conferences: Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Morales-Bueno, R. Feature extraction for
multi-label learning in the domain of email classification. Proceedings of CIDM 2011 Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. A comparative study on feature selection and
adaptive strategies for email foldering , 11th International Conference on Intelligent Systems Design and Applications (ISDA)
Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Gama, J.; Morales-Bueno, R. Online Evaluation of Email Streaming Classifiers Using GNUsmail. IDA 2011
Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Morales-Bueno, R. GNUsmail: Open Framework for On-line Email Classification. ECAI 2010
Baena-García, M; Carmona-Cejudo, J.M.; Castillo, G.; Morales-Bueno, R. Term Frequency, Sketched Inverse Document Frequency, 11th International Conference on Intelligent Systems Design and Applications (ISDA)
Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. Online Calculation of Word-Clouds for Efficient Label Summarization, 11th International Conference on Intelligent Systems Design and Applications (ISDA)
Publications supporting this thesis
46 de 52
Gracias - Thank you! – Obrigado!