Date post: | 12-Jan-2017 |
Category: |
Technology |
Upload: | juan-azcurra |
View: | 112 times |
Download: | 0 times |
Text Mining
… is the discovery by computer of new, previously unknown information, by automatically extracting information from different written resources.
Untangling Text Data MiningMarti Hearst, 1999
Importancia de Text Mining Grandes cantidades de información en formato
textual (fuera de las tradicionales bases de datos).
Necesidad de información más sofisticada. Detectar sentimientos respecto a un producto,
candidato político, en medios de comunicación colectivos (foros, blogs, redes sociales, etc.)
Respuestas a preguntas vs. recuperación de información.
Resumen de documentos vs. listados. Explicitar la estructura conceptual de los
documentos de cierto tipo.
Procesamiento de Lenguaje Natural La mayoría del texto no tiene estructura,
cuanto mayor estructura tenga para analizar podré encontrar relaciones entre partes del texto.
Poder ir de preguntas en lenguaje natural a respuestas concretas: “¿Quién fue el primer presidente luego del
retorno de la democracia? Preguntas: ¿Quién? ¿Presidente? ¿De qué o
dónde? ¿Retorno de la democracia? Respuesta: Ricardo Alfonsín (persona)
Nivel de análisis del lenguaje Estructura fonética: manera en que
los sonidos son creados (reconocimiento de voz).
Estructura morfológica: analizar como las palabras se forman y derivan a partir de unidades más pequeñas (triangulación = triangul (raiz) + ación (sufijo de sustantivo abstracto).
Estructura sintáctica: describen la organización gramatical de las palabras en una frase (sustantivo frase nominal sujeto).
Análisis gramático Saber la función sintáctica de una
palabra permite identificar de que se está hablando y como se relacionan los objetos nombrados. El sustantivo en el sujeto determina quien
lleva a cabo la acción. El adjetivo determina como es el sujeto. El verbo determina la acción. El objeto directo determina a quién se lo
hace.
Análisis gramático: POS Tagging POS (Part-of-speech) tagging es asignar a
cada palabra un tag que identifique la función sintáctica de la palabra en un token. En análisis de sentimiento u opinión los
adjetivos calificativos incluye la opinión y el adverbio derca del adjetivo da una idea de firmeza.
En named-entity recognition los sustantivos son el centro de las entidades.
En question answering algunos adverbios (quién, cómo, dónde) dan pistas de que tipos de respuestas se esperan.
Problemas Establecer el género en castellano es
complicado: pasta – pasto foco – foca raya – rayo
Los sufijos de aumentativo/disminutivo causan ambigüedades visa – visita pavo - pavote
Collocations - Bigramas Colocación: dos o más palabras que
corresponden al nombre de algo o a una manera de llamar a las cosas.
“ciencia ficción”, “disco rígido”, “buenos aires".
El significado no se deduce de las partes (ejemplo “yerba mala”).
Mineria de Opinion La Mineria de Opinión (o análisis de
sentimiento) se refiere al uso de procesamiento de lenguaje natural, análisis de textos y lingüistica computacional para identificar y extraer información subjetiva de fuentes de información.
13
Partes de una opinión Componentes de una opinión:
Opinador/a: Una persona u organización que expresa una opinión especifica sobre un objeto en particular.
Objeto: Sobre qué se opina.
Opinión: Un punto de vista, postura, o valoración de un objeto por parte de un opinador. Una opinión puede ser positiva, negativa, o neutra.
14
Tareas en Opinion mining 1/2 A nivel de Documento:
Objetivo: sentiment classification de críticas Clases: positiva, negativa y neutral Presunción: cada documento (o crítica) se enfoca en
un solo objeto. A Nivel de Sentencia:
Objetivo 1: identificar frases que contienen una opinión Clases: objetiva / subjetiva (con opinión)
Objetivo 2: sentiment classification de frases Clases: positiva, negativa y neutral Presunción: Una frase contiene solo una opinión.
15
Tareas en Opinion mining 2/2A Nivel de Feature: Tarea 1: Identificar y extraer las features que
marcan comentarios en cada documento o párrafo. Tarea 2: Determinar si las las features están
asociadas a opiniones positivas, negativas o neutrales.
Tarea 3: Agrupar features en sinónimos. Producir un resumen de varias opiniones a partir de
los features. Opinion holders: Identificar a los opinion holders es
también útil (ej. Quién escribió un artículo).
16
Diferentes formatos de críticas Formato 1 - Pros, Cons y crítica detallada: El
autor describe Pros y Cons separadamente y además escribe una crítica detallada (Epinions.com).
Formato 2 - Pros and Cons: El autor describe sólo Pros y Cons, separadamente. (C|net.com).
Formato 3 - Libre: El autor escribe libremente, sin separación de Pros y Cons. (Amazon.com).
Extracción de Información Análisis de sentimiento – Opinión
Atributos:• Zoom• Peso y Tamaño• Bateria• Fácil de usar• Precio
Peso y Tamaño:• Liviana y compacta para transportar.• Es posible guardarla en cualquier bolso.• La camara es muy liviana y endeble, es necesario tratarla con
mucho cuidado.
✔
ZoomPeso y
TamañoBateriaFácil de
usarPrecio
✔✗
Extracción de InformaciónAsunto: Reunión mensualFecha: 23 de OctubrePara: Juan Perez
Informamos que la reunión mensual se realizará mañana en Sala A de 10 a 11.30 hs.
Crear entrada en Calendario
Evento: Reunión MensualFecha: 24/10Lugar: Sala AInicio: 10:00 Fin: 11:30
Flujo del proceso
Extracción de
Textos• Obtención de
la información relevante.
Tokenización
• Separación del texto en términos elementales.
Eliminación de
stopwords• Términos que
no dan relevancia al análisis.
Lematización
• Búsqueda de la raíz de cada término.
Cálculos (Frecuencia, TF-IDF)
• Frecuencia de aparición del término en el documento.
Matriz de cálculos
• Generación de la matríz final con el cálculo por término para aplicar Data Mining.