+ All Categories
Home > Technology > Introducción a Text Mining

Introducción a Text Mining

Date post: 12-Jan-2017
Category:
Upload: juan-azcurra
View: 112 times
Download: 0 times
Share this document with a friend
22
TEXT MINING Juan Azcurra
Transcript

TEXT MININGJuan Azcurra

Text Mining

… is the discovery by computer of new, previously unknown information, by automatically extracting information from different written resources.

Untangling Text Data MiningMarti Hearst, 1999

Importancia de Text Mining Grandes cantidades de información en formato

textual (fuera de las tradicionales bases de datos).

Necesidad de información más sofisticada. Detectar sentimientos respecto a un producto,

candidato político, en medios de comunicación colectivos (foros, blogs, redes sociales, etc.)

Respuestas a preguntas vs. recuperación de información.

Resumen de documentos vs. listados. Explicitar la estructura conceptual de los

documentos de cierto tipo.

Aplicaciones de Text Mining

Procesamiento de Lenguaje Natural La mayoría del texto no tiene estructura,

cuanto mayor estructura tenga para analizar podré encontrar relaciones entre partes del texto.

Poder ir de preguntas en lenguaje natural a respuestas concretas: “¿Quién fue el primer presidente luego del

retorno de la democracia? Preguntas: ¿Quién? ¿Presidente? ¿De qué o

dónde? ¿Retorno de la democracia? Respuesta: Ricardo Alfonsín (persona)

Nivel de análisis del lenguaje Estructura fonética: manera en que

los sonidos son creados (reconocimiento de voz).

Estructura morfológica: analizar como las palabras se forman y derivan a partir de unidades más pequeñas (triangulación = triangul (raiz) + ación (sufijo de sustantivo abstracto).

Estructura sintáctica: describen la organización gramatical de las palabras en una frase (sustantivo frase nominal sujeto).

Análisis gramático Saber la función sintáctica de una

palabra permite identificar de que se está hablando y como se relacionan los objetos nombrados. El sustantivo en el sujeto determina quien

lleva a cabo la acción. El adjetivo determina como es el sujeto. El verbo determina la acción. El objeto directo determina a quién se lo

hace.

Análisis gramático: POS Tagging POS (Part-of-speech) tagging es asignar a

cada palabra un tag que identifique la función sintáctica de la palabra en un token. En análisis de sentimiento u opinión los

adjetivos calificativos incluye la opinión y el adverbio derca del adjetivo da una idea de firmeza.

En named-entity recognition los sustantivos son el centro de las entidades.

En question answering algunos adverbios (quién, cómo, dónde) dan pistas de que tipos de respuestas se esperan.

Análisis gramático: POS Tagging

Problemas Establecer el género en castellano es

complicado: pasta – pasto foco – foca raya – rayo

Los sufijos de aumentativo/disminutivo causan ambigüedades visa – visita pavo - pavote

Collocations - Bigramas Colocación: dos o más palabras que

corresponden al nombre de algo o a una manera de llamar a las cosas.

“ciencia ficción”, “disco rígido”, “buenos aires".

El significado no se deduce de las partes (ejemplo “yerba mala”).

Mineria de Opinion La Mineria de Opinión (o análisis de

sentimiento) se refiere al uso de procesamiento de lenguaje natural, análisis de textos y lingüistica computacional para identificar y extraer información subjetiva de fuentes de información.

13

Partes de una opinión Componentes de una opinión:

Opinador/a: Una persona u organización que expresa una opinión especifica sobre un objeto en particular.

Objeto: Sobre qué se opina.

Opinión: Un punto de vista, postura, o valoración de un objeto por parte de un opinador. Una opinión puede ser positiva, negativa, o neutra.

14

Tareas en Opinion mining 1/2 A nivel de Documento:

Objetivo: sentiment classification de críticas Clases: positiva, negativa y neutral Presunción: cada documento (o crítica) se enfoca en

un solo objeto. A Nivel de Sentencia:

Objetivo 1: identificar frases que contienen una opinión Clases: objetiva / subjetiva (con opinión)

Objetivo 2: sentiment classification de frases Clases: positiva, negativa y neutral Presunción: Una frase contiene solo una opinión.

15

Tareas en Opinion mining 2/2A Nivel de Feature: Tarea 1: Identificar y extraer las features que

marcan comentarios en cada documento o párrafo. Tarea 2: Determinar si las las features están

asociadas a opiniones positivas, negativas o neutrales.

Tarea 3: Agrupar features en sinónimos. Producir un resumen de varias opiniones a partir de

los features. Opinion holders: Identificar a los opinion holders es

también útil (ej. Quién escribió un artículo).

16

Diferentes formatos de críticas Formato 1 - Pros, Cons y crítica detallada: El

autor describe Pros y Cons separadamente y además escribe una crítica detallada (Epinions.com).

Formato 2 - Pros and Cons: El autor describe sólo Pros y Cons, separadamente. (C|net.com).

Formato 3 - Libre: El autor escribe libremente, sin separación de Pros y Cons. (Amazon.com).

17

Extracción de Información Análisis de sentimiento – Opinión

Atributos:• Zoom• Peso y Tamaño• Bateria• Fácil de usar• Precio

Peso y Tamaño:• Liviana y compacta para transportar.• Es posible guardarla en cualquier bolso.• La camara es muy liviana y endeble, es necesario tratarla con

mucho cuidado.

ZoomPeso y

TamañoBateriaFácil de

usarPrecio

✔✗

19

Resumen visual y comparación

Extracción de InformaciónAsunto: Reunión mensualFecha: 23 de OctubrePara: Juan Perez

Informamos que la reunión mensual se realizará mañana en Sala A de 10 a 11.30 hs.

Crear entrada en Calendario

Evento: Reunión MensualFecha: 24/10Lugar: Sala AInicio: 10:00 Fin: 11:30

Flujo del proceso

Extracción de

Textos• Obtención de

la información relevante.

Tokenización

• Separación del texto en términos elementales.

Eliminación de

stopwords• Términos que

no dan relevancia al análisis.

Lematización

• Búsqueda de la raíz de cada término.

Cálculos (Frecuencia, TF-IDF)

• Frecuencia de aparición del término en el documento.

Matriz de cálculos

• Generación de la matríz final con el cálculo por término para aplicar Data Mining.

Análisis de Sentimiento: Twitter


Recommended