Date post: | 13-Jan-2017 |
Category: |
Education |
Upload: | alex-rayon-jerez |
View: | 804 times |
Download: | 1 times |
PROGRAMA DE BIG DATA Y BUSINESS INTELLIGENCE
Análisis de Redes Sociales (SNA) y Text Mining
Alex Rayón [email protected]
@alrayon
Febrero, 2016. Madrid.
2
Índice de contenidos●Text mining●Análisis de Redes Sociales
3
Índice de contenidos●Text mining●Análisis de Redes Sociales
4
Text miningIntroducción
●Estudios recientes indican que, de media, el 80% de la información de una empresa está almacenada en forma de documentos
o Sin duda, este campo de estudio es muy amplio, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automática, entre otras, apoyan el text mining (o minería de texto)
5
● En ocasiones se confunde el text mining con la recuperación de la información (Information Retrieval, IR) [Hearst, 1999]
o Esta última, no obstante, consiste en la reacuperación automática de documentos relevantes mediante indexaciones de textos, clasificación, categorización, etc.
o Generalmente se utilizan palabras clave para encontrar una página relevante
o En cambio, el text mining se refiere a una examinar uan colección de documentos y descubrir información no contenida en ningún documento individual [Nasukawa, 2001]
Text miningIntroducción (II)
6
● Hay una enorme cantidad de información en texto
o Aparte de los libros, periódicos y enciclopedias en Internet, se generan enormes cantidades de información textual
Text mining¿Por qué?
Fuente: http://sandrolopezrivera.blogspot.com.es/2011_02_01_archive.html
7
Text miningPasos
1) Obtención y agrupación Texto
2) Pre procesamiento
3) Generación de atributos
4) Selección de atributos
5) Minería de datos
6) Interpretación y evaluación
8
Text miningPasos: 1) Obtención y agrupación del texto
●Los textos se encuentran en documentos dispersos como páginas web, informes, actualizaciones de status, etc.
●El primer paso, así, consiste en la obtención de estos datos y su agrupamiento para comenzar a trabajar
9
Text miningPasos: 2) Pre-procesamiento
●Eliminar el ruidoo Texto deliberadamente equivocado (SPAM)o Textos ambiguoso Texto erróneoo Palabras que no tienen poder discriminatorio (STOP
WORDS)o Ruido en el formato (tags, links)o Multiplicidad de idiomaso Sinónimos, palabras con varios significadoso Frases típicas
10
Text miningPasos: 2) Pre-procesamiento (II)
11
Text miningPasos: 2) Pre-procesamiento (III)
●Convertir el documento en un vector de palabras: tokenization
Fuente: http://escritura.proyectolatin.org/topicos-avanzados-de-bases-de-datos/cap3-sistemas-de-recuperacion-de-informacion-sri/
12
Text miningPasos: 2) Pre-procesamiento (IV)
● Con WEKA:o Se puede importar los datos en CSVo Hay que eliminar los caracteres: , ; : “ ‘ % ()o Aplicar primero el filtro NominalToStringo Aplicar el filtro StringToWordDetector
13
Text miningPasos: 3) Generación de atributos
●Representación del textoo Bag of Words
Fuente: http://www.docstoc.com/docs/25215223/Bag-of-Words-Classification
14
Text miningPasos: 3) Generación de atributos (II)
●Representación del textoo Bag of Words
Fuente: http://en.wikipedia.org/wiki/Bag-of-words_model
15
Text miningPasos: 4) Selección de atributos
●¿Qué palabras tienen la mejor capacidad discriminatoria?
●Se puede usar un clasificadoro Latent Semantic Analysis
§ Es una teoría y un método para extraer y representar el significado de las palabras dentro de un contexto utilizando técnicas estadísticas sobre un cuerpo de texto grande
16
Text miningPasos: 4) Selección de atributos (II)
● En WEKAo Ir a “Select attributes”o Seleccionar “Latent Semantic Analysis”o Starto Guardar el nuevo dataset
17
Text miningPasos: 5) Minería de datos
●Se puede usar cualquiera de las técnicas vistas en el apartado de descubrimiento de conocimiento
o Clasificacióno Descubrimiento estructuraso Reglas de asociación
18
Text miningPasos: 6)Interpretación y evaluación
● Interpretaro Descubrimiento estructuras
●Evaluar los resultadoso Clasificacióno Reglas de asociación
●Sacar conclusiones o iterar sobre los pasos anteriores
19
Text miningHerramientas
20
Text miningHerramientas (II)
21
Text miningAplicaciones prácticas
22
Índice de contenidos●Text mining●Análisis de Redes Sociales
23
Análisis Redes Sociales¿Qué es?
●NO es solo Análisis de Social Mediao Puede ser parte
●Sociología + Matemáticaso Actores que interactúano Teoría de Grafos
●Estudio numérico y representación gráfica
24
Análisis Redes Sociales¿Qué es? (II)
Fuente: http://www.soc.duke.edu/~jmoody77/chains.pdf
25
Análisis Redes Sociales¿Qué se estudia?
●Redes egocéntricaso Actor principal con sus relaciones, hasta el grado n
(“amigos de amigos de amigos”)●Redes completas
o Número de nodos determinado por una característica concreta: son los que son (UE)
●Grandes redeso Redes con muchos nodos en las que en general el
investigador corta el límite
26
Análisis Redes SocialesElementos
● Actoreso Los nodos de la red no tienen por qué ser
necesariamente personas, pueden ser países, o incluso actividades
o Depende de lo que se esté investigando●Vínculos
o Los vínculos que unen a los actores se definen por sus propiedades o características de la relación
27
Análisis Redes SocialesElementos (II)
Fuente: http://www.economiapersonal.com.ar/2014/06/14/red-social/
28
Análisis Redes SocialesCaracterísticas
●Basado en relaciones y vínculos entre actores●Recogida sistemática de datos empíricos del tipo
de relación estudiada entre cada par de actoreso Representado por gráficos
●Se apoya en el uso de las matemáticas, principalmente la teoría matemática de grafos y/o en modelos informáticos
29
Análisis Redes SocialesTeoría de Grafos
●Surge en el siglo XVIII con Euler (1707-1803)o El problema de los puentes de Konigsberg
●Resolución de problemas que pueden ser modelados mediante un grafo y resueltos mediante algoritmos específicamente desarrollados para un grafo
Fuente: http://pequenoldn.librodenotas.com/matiaventuras/1130/7-puentes-para-un-solo-paseo
30
Análisis Redes SocialesTeoría de Grafos (II)
● La historia del metro de Londres tiene mucha relación con la Teoría de Grafoso Más concretamente, con la Inmersión de Grafos
(Graph Drawing)o Permite explicar de forma sencilla la representación
(inmersión) de un grafo● Para un mismo conjunto de vértices y una misma lista
de conexiones entre ellos, puede haber trazados con o sin cruces entre las líneas.
● Depende del dibujo que se haga del grafo, de la inmersión que se elija, se pueden destacar, y por lo tanto aprovechar, una característica u otra del grafo
31
Análisis Redes SocialesTeoría de Grafos (III)
● Los primeros mapas del metro de Londres eran geográficos
o Dibujar sobre un plano de la ciudad los recorridos de las distintas líneas
● Harry Beck, ingeniero electrónico empleado en el metro de Londres, se percató en 1931 de que al usuario no le interesaba conocer el recorrido del metro bajo tierra
o Simplemente le interesaba conocer la posición relativa de las líneas y estaciones para realizar los trasbordos que necesitase
Fuente: http://lizlangstaff.blogspot.com.es/2011/10/harry-beck.html
31
32
Análisis Redes SocialesTeoría de Grafos (IV)
● Más que un diseño geográfico, resultaría más útil un diseño topológicoo Menos curvas y direcciones en las líneaso De broma, hizo su primer diseño basado en los
utilizados en circuitos eléctricos● En 1936, entre otros cambios, eliminó curvas y sólo
permitió ángulos de 45º y 90º ● En 1940, se incorporaron ángulos de 60º también, idea
que se desechó por enturbiar la claridad del plano
33
Análisis Redes SocialesTeoría de Grafos (V)
Fuente: http://www.planlondres.com/transports-londoniens/plan-du-metro-de-londres-40.html
34
Análisis Redes SocialesTeoría de Grafos (VI)
●¿Por qué?o Proporciona vocabulario precisoo Herramientas cuantitativas
●Grafoo “Un grafo (G) es un conjunto de vértices o nodos (N) y
líneas (L) que unen pares de nodos.”o Nodos: actores
§ Pueden poseer atributos (sexo, grupo étnico, etc.)o Líneas: vínculos
§ Puede haber diferentes tipos/características (amistad, influencia)
§ A → B§ A <-> B
35
Análisis Redes SocialesTeoría de Grafos (VII)
Fuente: http://blog.visual.ly/movie-galaxies-uses-social-graph-organization-to-visualize-movie-interconnectedness/
36
Análisis Redes SocialesTeoría de Grafos (VIII)
●Mediciones: Nodoso Adyacencia / Incidencia
§ Dos nodos son adyacentes si están relacionados§ Una línea y un nodo son incidentes entre sí si el nodo
es uno de los que definen la líneao Grado
§ El grado de un nodo, designado d(n) es el número de líneas que son incidentes con él (nodos adyacentes)
37
Análisis Redes SocialesTeoría de Grafos (IX)
●Mediciones: Nodos (cont.)o Centralidad
§ La centralidad de un nodo ayuda a dilucidar su “importancia” en la red, aunque no la representa por completo
§ El grado es una medida de centralidad§ Distancia media geodésica al resto de nodos: cercanía§ Intermediación: medida de las veces que un nodo se
interpone entre la distancia geodésica de otros
38
Análisis Redes SocialesTeoría de Grafos (X)
●Mediciones: Nodos (cont.)o Centralidad
Fuente: http://historiapolitica.com/redhistoria/2013/02/8n-en-twitter/
39
Análisis Redes SocialesTeoría de Grafos (XI)
●Mediciones: Nodos (cont.)o Centralidad
40
Análisis Redes SocialesTeoría de Grafos (XII)
●Mediciones: Nodos (cont.)o Centralidad
41
Análisis Redes SocialesTeoría de Grafos (XIII)
●Mediciones: Nodos (cont.)o Centralidad
Fuente: http://slideplayer.es/slide/19335/
42
Análisis Redes SocialesTeoría de Grafos (XIV)
●Mediciones: Nodos (cont.)
43
Análisis Redes SocialesTeoría de Grafos (XV)
●Mediciones: Nodos (cont.)o Caminos
§ Un camino es una ruta que une dos nodos pasando por otros.
§ Hay diferentes tipos de caminos● walk● trail: walk en el que todas las líneas son distintas● path: trail que no repite nodos● semipath: en un grafo dirigido, path que ignora el sentido de las
uniones
44
Análisis Redes SocialesTeoría de Grafos (XVI)
●Mediciones: Nodos (cont.)o Caminos
Fuente: http://jariasf.wordpress.com/2012/03/19/camino-mas-corto-algoritmo-de-dijkstra/
45
Análisis Redes SocialesTeoría de Grafos (XVII)
● GPS Data on Beijing Cabs Reveals the Cause of Traffic Jamso Investigadores de la Microsoft Research
Asia han dividido la ciudad en regiones (figura contigua), analizando cómo los taxis se mueven a través de ellas
o Si se puede tomar un camino directo entrea A y B, y un taxista toma un camino alternativa... ¿qué pasa?
o Algoritmo aplicable a ciudades con mucha densidad de taxis (Mexico City, Bangkok, Tokyo, New York, Buenos Aires y Moscow)
46
Análisis Redes SocialesTeoría de Grafos (XVIII)
●Mediciones: Nodos (cont.)o Conexión
§ Débilmente conectados: semicamino§ Unilateralmente conectados
● Path de a a b pero no a la inversa
§ Fuertemente conectados: unilateralmente conectados en ambos sentidos
§ Recursivamente conectados: orden de nodos idéntico pero inverso
47
Análisis Redes SocialesTeoría de Grafos (XIX)
●Mediciones: Nodos (cont.)o Distancia geodésica
§ Longitud del path más corto entre dos nodos§ Si no son alcanzables entre sí, infinita o indefinida
Fuente: http://wiki.uniandes.edu.co/RedesJuegosAltruismo/tiki-index.php?page=JULIAN_FELIPE_CA%C3%91ON_CARVAJAL
48
Análisis Redes SocialesTeoría de Grafos (XX)
●Mediciones: Grafoo Densidad
§ Proporción entre líneas existentes y líneas posibles§ Líneas posibles
● Grafo no orientado: g (g-1) / 2● Grafo orientado: g (g-1)
o Subgrafo§ Un grafo G2 es subgrafo de G1 si G1 contiene G2
49
Análisis Redes SocialesTeoría de Grafos (XXI)
●Mediciones: Grafoo Densidad
50
Análisis Redes SocialesTeoría de Grafos (XXII)
●Mediciones: Grafoo Diámetro
§ Distancia geodésica más alta entre dos nodoso Punto de corte
§ Nodo que, al eliminarlo rompe el grafo
51
Análisis Redes SocialesTeoría de Grafos (XXIII)
●Representación de los datoso Matriz de adyacenciao Lista de aristaso Lista de adyacencia
52
Análisis Redes SocialesTeoría de Grafos (XXIV)
● Matriz de adyacencia
52
53
Análisis Redes SocialesTeoría de Grafos (XXV)
● Lista de aristaso 2, 3o 2, 4o 3, 2o 3, 4o 4, 5o 5, 2o 5, 1
54
Análisis Redes SocialesTeoría de Grafos (XXVI)
● Lista de adyacenciao Más útiles para redes poco densas
o grandeso Lista:
§ 1: § 2: 3 4 § 3: 2 4§ 4: 5§ 5: 1 2
55
Análisis Redes SocialesTeoría de Grafos (XXVII)
● Softwareo NodeXL
o Gephio R / Python
56
Análisis Redes SocialesAplicaciones prácticas
57
Análisis Redes SocialesAplicaciones prácticas (II)
57
Copyright (c) 2016 University of DeustoThis work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/3.0/
Alex Rayón JerezFebrero 2016
PROGRAMA DE BIG DATA Y BUSINESS INTELLIGENCE
Análisis de Redes Sociales (SNA) y Text Mining
Alex Rayón [email protected]
@alrayon
Febrero, 2016. Madrid.