+ All Categories
Home > Technology > BigData 101 / Cursillo (Parte4)

BigData 101 / Cursillo (Parte4)

Date post: 15-Apr-2017
Category:
Upload: andres-hurtado
View: 55 times
Download: 0 times
Share this document with a friend
14
1
Transcript
Page 1: BigData 101 / Cursillo (Parte4)

1

Page 2: BigData 101 / Cursillo (Parte4)

2

Page 3: BigData 101 / Cursillo (Parte4)

NATURAL LANGUAGE PROCESSING: asociado a extraer información valiosa desde texto y multimediaTEXT ANALYTICS: técnicas para extraer valor desde texto no estructurado:; Ejemplos:• Categorización de documentosSENTIMENT ANALYSIS: determinar emoción de individuos; ejemplos:• Según un conjunto de tweets, saber el voto a favor o en contra de un candidato• Reacciones frente a un producto nuevo

EJEMPLOSStemming Stopwords para español (http://www.benkhalifa.com/tm-wordcloud-R-english-spanish.html)

3

Page 4: BigData 101 / Cursillo (Parte4)

TEXT ANALYTICSTambién lo denominan text mining; son todas aquellas técnicas que manipulan texto para obtener información; normalmnte el texto se encuentra de forma no-estructurada.

TÉRMiNOS CLAVE• Token/Térm: es una sola palabra• Document: conjunto de palabras de longitud arbitraria• Corpus: Colección de multiples documentos-----• Bag of Words: el set de palabras que conforman un documento • TermFrequency (TF): una representación donde cada término aparece conjunto a

su frecuencia en el documento• InverseDocumento Frequency (IDF): medir los términos que están esparcidos en el

corpus: un termino muy común tendrá menos relevancia

4

Page 5: BigData 101 / Cursillo (Parte4)

COSINE DISTANCEQué pasaría si en un documento por ejemplo, copio y pego el texto 2 veces y creo un nuevo documento con ese resultado?, pues con el bag of words, esto computa una relevancia mayor a las palabras que más se repiten. En el caso de comparación entre documentos, la idea es que esta repetición no reste importancia a otras palabras. Ahora voy a pensar a cada palabra como si fuera una especie de vector y la voy a comparar con la distancia de otra palabra para ver si son similares.2 vectores con la misma orientación tiene similaridad de 1, dado que el coseno entre ellos es 1. Si están perpendiculares, su coseno es 0.La misma idea aplica para poder comparar 2 documentos. 2 de ellos similares estarán a una distancia más cercana que aquellos que no se parecen.

5

Page 6: BigData 101 / Cursillo (Parte4)

6

Page 7: BigData 101 / Cursillo (Parte4)

7

Page 8: BigData 101 / Cursillo (Parte4)

8

Page 9: BigData 101 / Cursillo (Parte4)

9

Page 10: BigData 101 / Cursillo (Parte4)

DATA REDUCTIONSon técnicas que permiten reducir el conjunto de datos a analizar tratando de causar la minima perdida de información.

FEATURE SELECTIONSe refiere a no trabajar con el conjunto de datos completo, sino seleccionar una serie de ellos para trabajar. La idea es tener una heurística a medida que ellos se adicionan o se quitan. (ej: forward selection: iniciar sin atributos e ir adicionando uno a uno de ellos)

DIMENSIONALITY REDUCTION• En el caso de PCA, lo que se hace es tartar de ajustar el conjunto de datos de

forma tal que queden una serie de variables que puedan explicar la varianza de las muestras, disminuyendo al mínimo la pérdida de información y logrando una represetnación de los datos iniciales pero con un conjunto de variables mas pequeño.

• La técnica matemática para llevar a cabo este proceso se llama SVD (SingularValueDecomposition).

• La idea general de SVD es usar el dataset original X y descomponerlo en 3 matrices

10

Page 11: BigData 101 / Cursillo (Parte4)

U,V,D. Las columnas de U son ortogonales (son vectores), y D es uan matriz con valores en la diagonal. Esa matriz normalmente está ordenada de forma tal que los primeros vectores entregan mayor información que los siguientes.

• La idea del PCA es normalizar valores de la matriz X; esto es, sacar media y desviación estándar de cada columna y sacar los z-values. Con ellos aplicar SVD.

• Para correr el algoritmo y al usar reglas matemáticas, es recomendable no tener “missing-values”. En esos caso se pueden “imputar” valores (ej: la media de la columna), o usar los k-nearest-neighborhoods (k vecinos mas cercanos) para hacerlo.

10

Page 12: BigData 101 / Cursillo (Parte4)

11

Page 13: BigData 101 / Cursillo (Parte4)

TECNICAS ADICIONALES

CLASSIFICATION RULES: es una forma de clasificar, habiendo previamente extraido las reglas que permiten realizar la separación de elemento de la población.NGRAMS: algunas veces las palabras solas no tienen sentido, sino que palabras alrededor les pueden poner un sentido; la idea es crear una especied e palabra “virtual” que es el conjunto de las palabras entre sí que le dan sentidoNAMED ENTITY EXTRACTION: se nombra a las técnicas de parsing para seleccionar determinadas palabras de interés dentro del corpus. Ya se tiene previamente un diccionario de entidades de interés o se sabe cómo reconocer su tipo (persona, grupo, lugar, empresa, zip-code, hecho-determinado siguiendo un patrón, tipos de sentimiento manejados). Posteriormente se usan algoritmos de clasificación para procesar el documento con base en la aparición de estas entidades.OUTLIER DETECTION: Identificar aquellos dato que peuden rellar a ser significativamente diferentes del resto. Pueden clasificarse en: • Globales: bajo cualquier condición es siempre un outlier; por ejempli una

transacción de fraude.• Contextuales: cuando el dato es outlieer para un dataset especifico pero no para

12

Page 14: BigData 101 / Cursillo (Parte4)

otro; por ejemplo la estatura de una persona promedio en un equipo de la NBA puede verse como outlier

• Colectivos: cada elemento pasa desapercibido, pero en total son inconsistentes; por ejemplo cuando hay varios depósitos de lavado de dinero de cantidades inicialmente menores

Técnicas de outliers existen de diversos tipos :• Paramétrica: Usan una distribución estadística como referencia y los datos

normalizados (z) más o menos de 3 desviaciones estándar son considerados outliers

• No paramétrica: es apoyarse del rango intercuartil (IQR) para considerar como outlier a los datos que no se encuentran en este rango.

• Clustering/Unsupervised: la idea es aplicar una técnica de clustering para agrupar los datos que pertenencen a determinados grupos. Mediante un factor (CBLOF), se descartan aquelos bastante alejados de cada grupo para considerarlos outliers

• Clasificación/Supervised: Una técnica de clasificación puede servir para verificar cuáles son miembros de clada clase y descargar los que se quedan por fuera de todo grupo como outlier.

12


Recommended