+ All Categories
Home > Documents > New trends in data mining theory and applications for natural language text classification (Ph.D....

New trends in data mining theory and applications for natural language text classification (Ph.D....

Date post: 27-Jun-2015
Category:
Upload: jose-m-carmona-cejudo
View: 294 times
Download: 0 times
Share this document with a friend
Description:
In the last few years there has been a rapid increase in the amount of electronically available data. This has fostered the emergence of novel data mining and machine learning applications able to extract information and knowledge. A significant proportion of these data sources are in the form of natural text, something which involves difficulties not present in other domains, such as their unstructured nature and the high dimensionality of the datasets. Natural text has to be preprocessed so that it can be analyzed by computers, and learning algorithms have to be able to cope with such high-dimensional feature spaces. Text mining techniques are invaluable to extract knowledge from natural text, as well as from other types of unstructured, alphabet-based data such as DNA strings. Many of these data sources are not available as closed-ended datasets, but rather as data streams of examples that arrive in a sequence over time. This includes many text data sources, such as web pages, emails or blog posts. Given the unbounded nature of these datasets, it is important to work with scalable algorithms that use reduced time and memory. Additionally, it is important for the algorithms to be able to adapt to changes in the underlying statistical distributions governing the data. This is especially difficult in the case of data streams, because of their high dimensionality. In order for text streams to be computationally tractable, it is necessary to previously reduce the dimensionality of the datasets, employing only the most relevant terms in the learning algorithms. However, the importance of the terms change over time, which in practice means that it is necessary to work under the assumption of a dynamic feature space. Keeping track of this evolving high-dimensional feature space is an intrinsically complex problem, since the importance of each feature depends on the others. Such challenges are tackled in this thesis. We present GNUsmail, a framework for text stream classification in the domain of electronic email, and use it to study the nature of concept drift in text streams. We introduce a framework for adaptive classification, ABC-DynF, which is able to adapt to dynamic feature spaces, incorporating new features and labels to previously existing models. We also study the problem of summarization in text streams, and propose TF-SIDF / BM25, an approach for approximate weighting function approximation which makes it possible to extract keywords and construct word clouds from text streams in an efficient way. Finally, we present STFSIDF, an incremental approach for online feature selection which minimizes the number of weight recalculations while keeping continuously updated lists of the most relevant features. STFSIDF uses approximate algorithms to reduce the space complexity derived from the high dimensionality of the data sources.
Popular Tags:
46
Tesis Doctoral José Mª Carmona Cejudo Directores: Rafael Morales Bueno Manuel Baena García Universidad de Málaga 6 de junio de 2013 Nuevas tendencias en fundamentos teóricos y aplicaciones de la minería de datos aplicada a la clasificación de textos en lenguaje natural
Transcript
Page 1: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

Tesis Doctoral

José Mª Carmona Cejudo

Directores:

Rafael Morales Bueno

Manuel Baena García

Universidad de Málaga

6 de junio de 2013

Nuevas tendencias en fundamentosteóricos y aplicaciones de la minería

de datos aplicada a la clasificación detextos en lenguaje natural

Page 2: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

2 de 52

Why text mining? Nowadays, most information is stored as documents in natural language Applications: blog mining, spam detection, web page clustering,

recommender systems, analysis of medical literature, and much more

Why is it challenging? Unstructured information High dimensionality (large vocabulary) Massive, unbounded data sources Changes in underlying statistical distributions over time (concept change)

Introduction

Page 3: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

3 de 52

Objectives of this thesis

Application to DNA strings Application of multilabel classification to electronic mail

Study of concept drift in email data streams. GNUsmail framework Study of dynamical attribute spaces in text streams. Is it useful? What’s the

best strategy? ABC-DynF framework Efficient strategies for document summarization using reduced space. TF-

SIDF/BM25 Efficient strategies for feature selection in text streams using reduced

space. STFSIDF

Open source and replicable experimentation

Objectives

Applications in bounded datasets

Study of data streams

Page 4: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

4 de 52

Minería de textos

Aplicación: análisis de ADN Clasificación multietiqueta

Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos

dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto

Conclusions

Índice de contenidos

Aplicaciones datasets cerrados

Flujos dedatos

Page 5: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

5 de 52

Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos

dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions

Índice de contenidos

Page 6: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

6 de 52

Minería de textos: minería de datos para documentos en lenguaje natural

Minería de datos: extracción de información de grandes cantidades de datos

Tareas:◦ Clasificación

◦ Regresión

◦ Clustering

◦ Reglas de asociación

Proceso en varias fases:◦ Comprensión del dominio de aplicación

◦ Preparación de los datos

◦ Modelado

◦ Evaluación

◦ Despliegue

Minería de textos (1)

Page 7: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

7 de 52

Preprocesamiento de texto: Tokenization Stemming Eliminación de stop-words Transformación a espacio vectorial Pesos:

◦ Binarios

◦ Frecuencia

◦ Según función de relevancia (peso)

Minería de textos (2)

April is the cruellest month, breedingLilacs out of the dead land, mixingMemory and desire (. . .)

[’april’, ’is’, ’the’, ’cruellest’, ’month’,’breeding’, ’lilacs’, ’out’, ’of’, ’the’,’dead’, ’land’, ’mixing’, ’memory’, ’and’, ’desire’]

[’april’, ’be’, ’the’, ’cruel’, ’month’,’breed’, ’lilac’, ’out’, ’of’, ’the’, ’dead’, ’land’, ’mix’, ’memory’, ’and’, ’desire’

[’april’, ’cruel’, ’month’, ’breed’, ’lilac’,’dead’, ’land’, ’mix’, ’memory’, ‘desire’, ]

(The waste land, T.S. Eliot)

Reducción de dimensionalidad:

Selección de términos◦ Estrategia wrapper (funciones de

relevancia)◦ Estrategia de filtrado

Extracción de términos

tokenization

stemming

eliminar stop-words

Page 8: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

8 de 52

Minería de textos (3)

Algoritmos de clasificación: Probabilísticos (Naïve Bayes) SVMs Redes neuronales Basados en ejemplos (lazy) Árboles de decisión Multiclasificadores (ensemble learning)

o Boosting, bagging

Evaluación Medidas de evaluación

o Precisión, recall, F1 Comparación de algoritmos

o Validación cruzadao Tests estadísticos

Entrenamiento

Evaluación

4 fold cross validation

Iteración 1

Iteración 2

Iteración 3

Iteración 4

Page 9: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

9 de 52

Escenario: fuentes de datos no acotadas

Limitaciones computacionales◦ No se almacenan los ejemplos◦ Modelos incrementales◦ Limitaciones de espacio y

tiempo

Minería textos (4). Flujos de datos

Cambios de concepto◦ Repentino o gradual◦ Real o virtual

Page 10: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

10 de 52

Algoritmos de clasificación. Dos filosofías:

◦ Estrategia wrapper◦ Adaptación

Algunos algoritmos influyentes:◦ VFDT◦ UFFT◦ Algoritmos ensemble (OzaBoost/OzaBag)

Minería textos (5). Flujos de datos

Algoritmos de detección de cambio de conceptoo ADWINo Statistical Process Controlo Page-Hinkley Testo DDM / EDDMo Etc…

Evaluacióno Validación cruzada: no sirveo Evaluación precuencial. Estadístico pesimista. o Mejora: fading factors / sliding windows. Trabajo de J. Gama [111]

Page 11: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

11 de 52

Necesarios algoritmos aproximados para reducción de espacio (estimación de frecuencias, top-k, …)

Basados en contadores: se mantienen contadores para un subconjunto de todos los ítems posibles.

Basados en sketches: ◦ Se proyectan los contadores a un espacio de menor

dimensionalidad, usando funciones hash◦ Aplicaciones: problema top-k, estimación de frecuencias

Minería textos (6). Flujos de datos

Page 12: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

12 de 52

Count-Min Sketch. Cormode y Mathukrishnan, 2005 [202]

Estructura matricial C (h filas, w columnas) Procedimento de actualización: cuando llega un item i, hj(i) se computa

para cada fila j, incrementando en 1 unidad el valor de C[j, h_j[(i)]] Procedimiento de estimación: freq[i] ≈ minkC[k, hk(i)] Propiedad importante: para obtener una aproximación con error ε y

probabilidad δ, necesitamos un ancho de e/ε, y log(1/ δ) funciones hash

Minería textos (7). Flujos de datos

Page 13: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

13 de 52

Filtros de Bloom Estructura de datos probabilística para

comprobar eficientemente si un elemento es miembro de un conjunto

Array de m bits y k funciones hash

Añadir elemento i: cada una de las k posiciones del array que corresponden a i según las funciones hash se pone a 1

Comprobar si un elemento está en el conjunto: si alguna de las k posiciones está a 0, el elemento no está en el conjunto.

Minería textos (8). Flujos de datos

Page 14: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

14 de 52

Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos

dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions

Índice de contenidos

Page 15: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

15 de 52

ADN (ácido desoxirribonucleico): largas cadenas de nucleótidos (Adenina, Timina, Citosina, Guanina) que se transforman en proteínas.

Cadenas de símbolos de un alfabeto Σ={A,T,C,G}

Minería de textos y ADN (1)

Nuestra idea: tratar las cadenas de ADN como si fueran cadenas de lenguaje natural Minería de textos para extraer información biológica

Page 16: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

16 de 52

Necesario descubrir subcadenas relevantes en ADN (frecuentes, y no sólo por formar parte de otra subcadena frecuente)

Nuestra propuesta: dos fases:1. Extracción de subcadenas frecuentes (SANSPOS paralelo)

2. Filtrado de subcadenas relevantes (función de relevancia Added Value)

Minería de textos y ADN (2)

Page 17: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

17 de 52

Minería de textos y ADN (3)

ADN mitocondrial (mtDNA). Poblaciones organizadas en haplogrupos

Relación evolutiva entre grupos poblacionales (antropología)

Clasificación de mtADN en haplogrupos

Extracción de características: SANSPOS paralelo y filtrado por AV

Modelado: SVM Base de datos de 1400 secuencias de mtDNA

humano, organizadas por haplogrupos Resultados similares a encontrados en

literatura, p.e. Wong et al. [65] Atributos encontrados automáticamente

(no proporcionados por expertos)

Source: Wikipedia

Page 18: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

18 de 52

Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta en email Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos

dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions

Índice de contenidos

Page 19: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

19 de 52

Minería multietiqueta: varias etiquetas para cada instancia Motivación: a veces, una sola etiqueta no basta (muy restrictivo)

Métodos:◦ Transformación del problema◦ Adaptación del algoritmo

Métodos de transformación del problema:◦ Binarios (BR, CLR)◦ Label Powerset y derivados (LP, RAkEL, PPT, EPPT)

Medidas de evaluación: ◦ Basadas en instancias◦ Basadas en etiquetas

Clasificación multietiqueta en minería de textos (1)

Page 20: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

20 de 52

Estudio experimental: correo electrónico

Dataset: Versión multietiqueta de ENRON (con y sin preprocesamiento lingüístico)

Algoritmos: ◦ Trasformación de dataset: BR, CLR, LP, RAkEL, PPT, EPPT

◦ Algoritmos base: SVM (kernel lineal y polinomial), NN-ge (basado en ejemplos, con generalización), IB-k (vecino más cercano),C4.5 (árboles de decisión), Naïve Bayes

Observaciones sobre los resultados:◦ El preprocesamiento mejora significativamente los resultados◦ Para medidas en recall, funciona mejor EPPT. ◦ Para las demás medidas, funcionan bien los algoritmos que implican binarización◦ Es decir: la relación entre etiquetas es más importante para el recall que para la precisión

Clasificación multietiqueta en minería de textos (2)

Page 21: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

21 de 52

Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos

dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions

Índice de contenidos

Page 22: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

22 de 52

Correo electrónico como flujo de datos de texto GNUsmail: http://code.google.com/p/gnusmail. Clasificación de flujos de correo

electrónico Arquitectura en capas

◦ Acceso a correo◦ Procesamiento de texto◦ Aprendizaje (online y batch)◦ Evaluación

Plataforma abierta a la incorporación de nuevos métodos

Minería de flujos de textos y GNUsmail (1)

Page 23: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

23 de 52

Corpus ENRON: corpus de datasets de correo electrónico

10 datasets en total, eliminando carpetas no tópicas y pequeñas

Algunos desafíos:◦ Desbalance en número de mensajes

◦ Aparición de carpetas nuevas

◦ Ejemplo: distribución de mensajes en carpetas en kitchen-l en el primer 30% (a) y el flujo completo (b)

Minería de flujos de textos y GNUsmail (2)

a)

b)

Carpeta nº

Nº de mensajes

Carpeta nº

Nº de mensajes

Primer 30% del flujo 100% del flujo

Page 24: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

24 de 52

Minería de flujos de textos y GNUsmail (3)

Comparación de algoritmos en el dataset beck-s

Precisión precuencial (fading factors, α= 0.995) Test de McNemar, OzaBag vs. NN-ge (fading factors, α = 0.995)

Ganador: OzaBag sobre NNge (con DDM)

Page 25: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

25 de 52

Minería de flujos de textos y GNUsmail (4)

Comparación de algoritmos en el dataset kitchen-l

Precisión precuencial (fading factors, α= 0.995) Test de McNemar, OzaBag vs. NN-ge (fading factors, α = 0.995)

Ganador: OzaBag sobre NNge (con DDM)

Cambio de concepto

Page 26: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

26 de 52

Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos

dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions

Índice de contenidos

Page 27: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

27 de 52

Dificultad de la minería de textos: alta dimensionalidad

El conjunto de atributos relevantes evoluciona

Necesario espacio de atributos dinámico◦ Los clasificadores deben ser capaces de usar atributos cambiantes

Para tratar con flujos de datos de alta dimensionalidad: ABC-DynF◦ Sucesor de AdPreqFr4SL [156]. Monitorización del estado de aprendizaje y

acciones adaptativas◦ ABC-DynF Incluye gestión de relevancia de atributos (filter approach)

ABC-DynF: minería de flujos de datos con atributos dinámicos (1)

Page 28: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

28 de 52

ABC-DynF (http://abcdynf.sourceforge.net): estrategias adaptativas de AdPreqFr4SL + gestión de espacio de atributos dinámico

Clasificador base: redes bayesianas. Lista actualizada de atributos más relevantes (chi cuadrado)

Tabla de estadísticas suficientes compartida por el clasificador bayesiano y por la función chi cuadrado

Para cada batch de datos, se actualizan las estadísticas de todos los atributos (entrenamiento)

Para predecir: se usan sólo los k atributos con más relevancia

ABC-DynF: minería de flujos de datos con atributos dinámicos (2)

Page 29: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

29 de 52

Estudio experimental: estrategias adaptativas

Se comparan 4 estrategias◦ Adapt00 (no se monitoriza cambio de concepto

ni se actualizan atributos)

◦ Adapt10 (se monitoriza cambio de concepto, no se actualizan atributos)

◦ Adapt01 (no se monitoriza cambio de concepto, se actualizan atributos)

◦ Adapt11 (se monitoriza cambio de concepto y se actualizan atributos)

P-values (Friedman): 0.00667 (F1), 6.03×10−9 (error percentual).

Test Finner: Adapt01 y Adapt11 no significativamente diferentes

ABC-DynF: minería de flujos de datos con atributos dinámicos (3)

Page 30: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

30 de 52

Estudio experimental: ¿cuándo actualizar espacio de atributos?

Se comparan 3 estrategias◦ Cambiar para cada batch◦ Cambiar cuando deja de

mejorar el desempeño◦ Cambiar sólo para reconstruir

el modelo

Resultado: Es mejor cambiar los atributos para cada batch, pero la diferencia no es significativa (p-value > 0.05)

ABC-DynF: minería de flujos de datos con atributos dinámicos (4)

Page 31: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

31 de 52

Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos

dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions

Índice de contenidos

Page 32: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

32 de 52

Selección de atributos para resumen automático, usando funciones de relevancia (TF-IDF, BM25)

Palabras clave (keywords) y nubes de palabras (word clouds)

Prohibitivo mantener todos los contadores necesarios

Soluciones históricas: usar sólo parte de los documentos

Problemas: ◦ Pérdida semántica◦ La complejidad sigue siendo lineal

Nuestra propuesta: uso de algoritmos aproximados para estimación de contadores y listas top-k

TF-SIDF / SBM25: extracción de atributos online (1)

Page 33: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

33 de 52

Usando Count-Min sketch para aproximar TF-IDF y BM25

TF-SIDF / SBM25: extracción de atributos online (2)

)(ˆlog),(),(

itfd

DjiTFjiTFSIDF

5.0)(ˆ5.0)(ˆ

log25.2

75.0)(

)(3),(25

,

,

i

i

ji

ji

tfd

tfdD

avgdl

Ddtf

dtfjiSBM

donde:› |D|: número de documentos

› df(ti): documentos donde aparece ti

› f(ti, dj): frecuencia absoluta del término ti en el documento dj

› avgdl: tamaño media de las categorías

› TF(i,j): f(ti, dj): frecuencia relativa del término ti en el documento dj

Count-Min sketch para aproximar el número de documentos en el que aparece cada término ti,

Los términos TF no dependen del pasado (no hace falta mantener contadores)

Page 34: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

34 de 52

Experimentación

Diferentes configuraciones (alto/ancho) de los sketches para un mismo tamaño

Medidas de evaluación: ◦ Recall: Proporción de coincidencias entre listas top-k exacta y aproximada (mejor

mientras más grande)◦ Distancia de Spearman: tiene en cuenta el orden de los términos según su relevancia

(mejor mientras más pequeña)

Datasets usados:◦ Reuters◦ Pubmed Central◦ Ambos han sido reordenados cronológicamente

TF-SIDF / SBM25: extracción de atributos online (3)

Page 35: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

35 de 52

Aplicación 1: extracción de palabras clave. Mejor resultado con 2 funciones hash

TF-SIDF / SBM25: extracción de atributos online (4)

Reuters PMC

Observación: mejores resultados con 2 funciones hash

Spearman distance

Recall

Page 36: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

36 de 52

Otra aplicación: nubes de palabras para resumir categorías

Para cada categoría, se seleccionan las k palabras clave más frecuentes

Se representan en una nube de palabras según su frecuencia

TF-SIDF / SBM25: extracción de atributos online (5)

Page 37: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

37 de 52

Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos

dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions

Índice de contenidos

Page 38: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

38 de 52

Extracción de atributos eficiente en flujos de texto, usando algoritmos aproximados

STFSIDF: Count-Min Sketch para aproximar TFIDF Objetivo: selección dinámica de atributos en espacio reducido (usando

espacio de atributos dinámico)

STFSIDF para clasificación de flujos de texto (1)

Page 39: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

39 de 52

STFSIDF: aproximación de funciones usando sketches y filtros de Bloom

Para TF usamos un sketch (CMterms) que almacena pares (término, categoría), y contadores para el tamaño de cada categoría (CL)

Para IDF necesitamos otro sketch (CMcat) y una estructura que calcule si un par (término, categoría) ha aparecido o no ◦ Los sketches no pueden aproximar bien cuenta 0

◦ Usamos para esto filtros de Bloom (BF)

STFSIDF para clasificación de flujos de texto (2)

Page 40: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

40 de 52

Experimentación: aplicación a la clasificación de textos

STFSIDF para clasificación de flujos de texto (3)

Reuters

PMC

Test de McNemar

Precuencial

Precuencial

Versión exacta

Versión con sketches

Page 41: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

41 de 52

Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributos

dinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions

Índice de contenidos

Page 42: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

42 de 52

Competitive performance of DNA classification using pure text mining techniques (without features provided by biologists)

We have shown that email streams are affected by concept drift (often virtual), and have published GNUSmail for email stream classification

We have shown that it is advantegous to handle dynamic feature spaces when dealing with high-dimensional data streams (such as text)

We have published an open-source framework for data streams classification with dynamic feature spaces (ABC-DynF)

Conclusions: Main contributions of this thesis (I)

Page 43: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

43 de 52

We have seen that it is recommendable to handle concept drifts and changes in the feature space simultaneously (Adapt11 strategy)

We have shown that better results are obtained if the feature space is updated regardless of the learning state

We have shown that it is possible to use approximate algorithms to summarize documents, reducing space without significatively affecting accuracy (TF-SIDF/SBM25)

Finally, we have proposed a method for reducing the space needed for online feature selection in data streams, using sketches and Bloom filters (STFSIDF), without significatively affecting classification performance

Conclusions: Main contributions of this thesis (II)

Page 44: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

44 de 52

Extending GNUsmail to different domains

Use of different weighting functions

Extending ABC-DynF with non-Bayesian base models

Handling sketch degradation due to saturation (hash function collisions)

Studying the problem of multi-label text stream mining

Use of other kinds of features (including exogenous knowledge such as ontologies)

Conclusions: Future work

Page 45: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

45 de 52

Journal articles: Baena-García, M; Carmona-Cejudo, J.M.; Morales-Bueno, R. String analysis by sliding positioning strategy. Journal of

Computer and System Sciences. Available online 19 March 2013, ISSN 0022-0000, 10.1016/j.jcss.2013.03.004 Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. A comparative study on feature selection and

adaptive strategies for email foldering using the ABC-DynF framework. Knowledge-Based Systems. Available online 1 April 2013, ISSN 0950-7051, 10.1016/j.knosys.2013.03.006

Contributions in international conferences: Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Morales-Bueno, R. Feature extraction for

multi-label learning in the domain of email classification. Proceedings of CIDM 2011 Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. A comparative study on feature selection and

adaptive strategies for email foldering , 11th International Conference on Intelligent Systems Design and Applications (ISDA)

Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Gama, J.; Morales-Bueno, R. Online Evaluation of Email Streaming Classifiers Using GNUsmail. IDA 2011

Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Morales-Bueno, R. GNUsmail: Open Framework for On-line Email Classification. ECAI 2010

Baena-García, M; Carmona-Cejudo, J.M.; Castillo, G.; Morales-Bueno, R. Term Frequency, Sketched Inverse Document Frequency, 11th International Conference on Intelligent Systems Design and Applications (ISDA)

Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. Online Calculation of Word-Clouds for Efficient Label Summarization, 11th International Conference on Intelligent Systems Design and Applications (ISDA)

Publications supporting this thesis

Page 46: New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

46 de 52

Gracias - Thank you! – Obrigado!


Recommended