+ All Categories
Home > Education > Análisis de Redes Sociales (Social Network Analysis) y Text Mining

Análisis de Redes Sociales (Social Network Analysis) y Text Mining

Date post: 13-Jan-2017
Category:
Upload: alex-rayon-jerez
View: 804 times
Download: 1 times
Share this document with a friend
59
PROGRAMA DE BIG DATA Y BUSINESS INTELLIGENCE Análisis de Redes Sociales (SNA) y Text Mining Alex Rayón Jerez [email protected] @alrayon Febrero, 2016. Madrid.
Transcript
Page 1: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

PROGRAMA DE BIG DATA Y BUSINESS INTELLIGENCE

Análisis de Redes Sociales (SNA) y Text Mining

Alex Rayón [email protected]

@alrayon

Febrero, 2016. Madrid.

Page 2: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

2

Índice de contenidos●Text mining●Análisis de Redes Sociales

Page 3: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

3

Índice de contenidos●Text mining●Análisis de Redes Sociales

Page 4: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

4

Text miningIntroducción

●Estudios recientes indican que, de media, el 80% de la información de una empresa está almacenada en forma de documentos

o Sin duda, este campo de estudio es muy amplio, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automática, entre otras, apoyan el text mining (o minería de texto)

Page 5: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

5

● En ocasiones se confunde el text mining con la recuperación de la información (Information Retrieval, IR) [Hearst, 1999]

o Esta última, no obstante, consiste en la reacuperación automática de documentos relevantes mediante indexaciones de textos, clasificación, categorización, etc.

o Generalmente se utilizan palabras clave para encontrar una página relevante

o En cambio, el text mining se refiere a una examinar uan colección de documentos y descubrir información no contenida en ningún documento individual [Nasukawa, 2001]

Text miningIntroducción (II)

Page 6: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

6

● Hay una enorme cantidad de información en texto

o Aparte de los libros, periódicos y enciclopedias en Internet, se generan enormes cantidades de información textual

Text mining¿Por qué?

Fuente: http://sandrolopezrivera.blogspot.com.es/2011_02_01_archive.html

Page 7: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

7

Text miningPasos

1) Obtención y agrupación Texto

2) Pre procesamiento

3) Generación de atributos

4) Selección de atributos

5) Minería de datos

6) Interpretación y evaluación

Page 8: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

8

Text miningPasos: 1) Obtención y agrupación del texto

●Los textos se encuentran en documentos dispersos como páginas web, informes, actualizaciones de status, etc.

●El primer paso, así, consiste en la obtención de estos datos y su agrupamiento para comenzar a trabajar

Page 9: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

9

Text miningPasos: 2) Pre-procesamiento

●Eliminar el ruidoo Texto deliberadamente equivocado (SPAM)o Textos ambiguoso Texto erróneoo Palabras que no tienen poder discriminatorio (STOP

WORDS)o Ruido en el formato (tags, links)o Multiplicidad de idiomaso Sinónimos, palabras con varios significadoso Frases típicas

Page 10: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

10

Text miningPasos: 2) Pre-procesamiento (II)

Page 11: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

11

Text miningPasos: 2) Pre-procesamiento (III)

●Convertir el documento en un vector de palabras: tokenization

Fuente: http://escritura.proyectolatin.org/topicos-avanzados-de-bases-de-datos/cap3-sistemas-de-recuperacion-de-informacion-sri/

Page 12: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

12

Text miningPasos: 2) Pre-procesamiento (IV)

● Con WEKA:o Se puede importar los datos en CSVo Hay que eliminar los caracteres: , ; : “ ‘ % ()o Aplicar primero el filtro NominalToStringo Aplicar el filtro StringToWordDetector

Page 13: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

13

Text miningPasos: 3) Generación de atributos

●Representación del textoo Bag of Words

Fuente: http://www.docstoc.com/docs/25215223/Bag-of-Words-Classification

Page 14: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

14

Text miningPasos: 3) Generación de atributos (II)

●Representación del textoo Bag of Words

Fuente: http://en.wikipedia.org/wiki/Bag-of-words_model

Page 15: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

15

Text miningPasos: 4) Selección de atributos

●¿Qué palabras tienen la mejor capacidad discriminatoria?

●Se puede usar un clasificadoro Latent Semantic Analysis

§ Es una teoría y un método para extraer y representar el significado de las palabras dentro de un contexto utilizando técnicas estadísticas sobre un cuerpo de texto grande

Page 16: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

16

Text miningPasos: 4) Selección de atributos (II)

● En WEKAo Ir a “Select attributes”o Seleccionar “Latent Semantic Analysis”o Starto Guardar el nuevo dataset

Page 17: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

17

Text miningPasos: 5) Minería de datos

●Se puede usar cualquiera de las técnicas vistas en el apartado de descubrimiento de conocimiento

o Clasificacióno Descubrimiento estructuraso Reglas de asociación

Page 18: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

18

Text miningPasos: 6)Interpretación y evaluación

● Interpretaro Descubrimiento estructuras

●Evaluar los resultadoso Clasificacióno Reglas de asociación

●Sacar conclusiones o iterar sobre los pasos anteriores

Page 19: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

19

Text miningHerramientas

Page 20: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

20

Text miningHerramientas (II)

Page 21: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

21

Text miningAplicaciones prácticas

Page 22: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

22

Índice de contenidos●Text mining●Análisis de Redes Sociales

Page 23: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

23

Análisis Redes Sociales¿Qué es?

●NO es solo Análisis de Social Mediao Puede ser parte

●Sociología + Matemáticaso Actores que interactúano Teoría de Grafos

●Estudio numérico y representación gráfica

Page 24: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

24

Análisis Redes Sociales¿Qué es? (II)

Fuente: http://www.soc.duke.edu/~jmoody77/chains.pdf

Page 25: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

25

Análisis Redes Sociales¿Qué se estudia?

●Redes egocéntricaso Actor principal con sus relaciones, hasta el grado n

(“amigos de amigos de amigos”)●Redes completas

o Número de nodos determinado por una característica concreta: son los que son (UE)

●Grandes redeso Redes con muchos nodos en las que en general el

investigador corta el límite

Page 26: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

26

Análisis Redes SocialesElementos

● Actoreso Los nodos de la red no tienen por qué ser

necesariamente personas, pueden ser países, o incluso actividades

o Depende de lo que se esté investigando●Vínculos

o Los vínculos que unen a los actores se definen por sus propiedades o características de la relación

Page 27: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

27

Análisis Redes SocialesElementos (II)

Fuente: http://www.economiapersonal.com.ar/2014/06/14/red-social/

Page 28: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

28

Análisis Redes SocialesCaracterísticas

●Basado en relaciones y vínculos entre actores●Recogida sistemática de datos empíricos del tipo

de relación estudiada entre cada par de actoreso Representado por gráficos

●Se apoya en el uso de las matemáticas, principalmente la teoría matemática de grafos y/o en modelos informáticos

Page 29: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

29

Análisis Redes SocialesTeoría de Grafos

●Surge en el siglo XVIII con Euler (1707-1803)o El problema de los puentes de Konigsberg

●Resolución de problemas que pueden ser modelados mediante un grafo y resueltos mediante algoritmos específicamente desarrollados para un grafo

Fuente: http://pequenoldn.librodenotas.com/matiaventuras/1130/7-puentes-para-un-solo-paseo

Page 30: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

30

Análisis Redes SocialesTeoría de Grafos (II)

● La historia del metro de Londres tiene mucha relación con la Teoría de Grafoso Más concretamente, con la Inmersión de Grafos

(Graph Drawing)o Permite explicar de forma sencilla la representación

(inmersión) de un grafo● Para un mismo conjunto de vértices y una misma lista

de conexiones entre ellos, puede haber trazados con o sin cruces entre las líneas.

● Depende del dibujo que se haga del grafo, de la inmersión que se elija, se pueden destacar, y por lo tanto aprovechar, una característica u otra del grafo

Page 31: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

31

Análisis Redes SocialesTeoría de Grafos (III)

● Los primeros mapas del metro de Londres eran geográficos

o Dibujar sobre un plano de la ciudad los recorridos de las distintas líneas

● Harry Beck, ingeniero electrónico empleado en el metro de Londres, se percató en 1931 de que al usuario no le interesaba conocer el recorrido del metro bajo tierra

o Simplemente le interesaba conocer la posición relativa de las líneas y estaciones para realizar los trasbordos que necesitase

Fuente: http://lizlangstaff.blogspot.com.es/2011/10/harry-beck.html

31

Page 32: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

32

Análisis Redes SocialesTeoría de Grafos (IV)

● Más que un diseño geográfico, resultaría más útil un diseño topológicoo Menos curvas y direcciones en las líneaso De broma, hizo su primer diseño basado en los

utilizados en circuitos eléctricos● En 1936, entre otros cambios, eliminó curvas y sólo

permitió ángulos de 45º y 90º ● En 1940, se incorporaron ángulos de 60º también, idea

que se desechó por enturbiar la claridad del plano

Page 33: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

33

Análisis Redes SocialesTeoría de Grafos (V)

Fuente: http://www.planlondres.com/transports-londoniens/plan-du-metro-de-londres-40.html

Page 34: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

34

Análisis Redes SocialesTeoría de Grafos (VI)

●¿Por qué?o Proporciona vocabulario precisoo Herramientas cuantitativas

●Grafoo “Un grafo (G) es un conjunto de vértices o nodos (N) y

líneas (L) que unen pares de nodos.”o Nodos: actores

§ Pueden poseer atributos (sexo, grupo étnico, etc.)o Líneas: vínculos

§ Puede haber diferentes tipos/características (amistad, influencia)

§ A → B§ A <-> B

Page 35: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

35

Análisis Redes SocialesTeoría de Grafos (VII)

Fuente: http://blog.visual.ly/movie-galaxies-uses-social-graph-organization-to-visualize-movie-interconnectedness/

Page 36: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

36

Análisis Redes SocialesTeoría de Grafos (VIII)

●Mediciones: Nodoso Adyacencia / Incidencia

§ Dos nodos son adyacentes si están relacionados§ Una línea y un nodo son incidentes entre sí si el nodo

es uno de los que definen la líneao Grado

§ El grado de un nodo, designado d(n) es el número de líneas que son incidentes con él (nodos adyacentes)

Page 37: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

37

Análisis Redes SocialesTeoría de Grafos (IX)

●Mediciones: Nodos (cont.)o Centralidad

§ La centralidad de un nodo ayuda a dilucidar su “importancia” en la red, aunque no la representa por completo

§ El grado es una medida de centralidad§ Distancia media geodésica al resto de nodos: cercanía§ Intermediación: medida de las veces que un nodo se

interpone entre la distancia geodésica de otros

Page 38: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

38

Análisis Redes SocialesTeoría de Grafos (X)

●Mediciones: Nodos (cont.)o Centralidad

Fuente: http://historiapolitica.com/redhistoria/2013/02/8n-en-twitter/

Page 39: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

39

Análisis Redes SocialesTeoría de Grafos (XI)

●Mediciones: Nodos (cont.)o Centralidad

Page 40: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

40

Análisis Redes SocialesTeoría de Grafos (XII)

●Mediciones: Nodos (cont.)o Centralidad

Page 41: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

41

Análisis Redes SocialesTeoría de Grafos (XIII)

●Mediciones: Nodos (cont.)o Centralidad

Fuente: http://slideplayer.es/slide/19335/

Page 42: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

42

Análisis Redes SocialesTeoría de Grafos (XIV)

●Mediciones: Nodos (cont.)

Page 43: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

43

Análisis Redes SocialesTeoría de Grafos (XV)

●Mediciones: Nodos (cont.)o Caminos

§ Un camino es una ruta que une dos nodos pasando por otros.

§ Hay diferentes tipos de caminos● walk● trail: walk en el que todas las líneas son distintas● path: trail que no repite nodos● semipath: en un grafo dirigido, path que ignora el sentido de las

uniones

Page 44: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

44

Análisis Redes SocialesTeoría de Grafos (XVI)

●Mediciones: Nodos (cont.)o Caminos

Fuente: http://jariasf.wordpress.com/2012/03/19/camino-mas-corto-algoritmo-de-dijkstra/

Page 45: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

45

Análisis Redes SocialesTeoría de Grafos (XVII)

● GPS Data on Beijing Cabs Reveals the Cause of Traffic Jamso Investigadores de la Microsoft Research

Asia han dividido la ciudad en regiones (figura contigua), analizando cómo los taxis se mueven a través de ellas

o Si se puede tomar un camino directo entrea A y B, y un taxista toma un camino alternativa... ¿qué pasa?

o Algoritmo aplicable a ciudades con mucha densidad de taxis (Mexico City, Bangkok, Tokyo, New York, Buenos Aires y Moscow)

Page 46: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

46

Análisis Redes SocialesTeoría de Grafos (XVIII)

●Mediciones: Nodos (cont.)o Conexión

§ Débilmente conectados: semicamino§ Unilateralmente conectados

● Path de a a b pero no a la inversa

§ Fuertemente conectados: unilateralmente conectados en ambos sentidos

§ Recursivamente conectados: orden de nodos idéntico pero inverso

Page 47: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

47

Análisis Redes SocialesTeoría de Grafos (XIX)

●Mediciones: Nodos (cont.)o Distancia geodésica

§ Longitud del path más corto entre dos nodos§ Si no son alcanzables entre sí, infinita o indefinida

Fuente: http://wiki.uniandes.edu.co/RedesJuegosAltruismo/tiki-index.php?page=JULIAN_FELIPE_CA%C3%91ON_CARVAJAL

Page 48: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

48

Análisis Redes SocialesTeoría de Grafos (XX)

●Mediciones: Grafoo Densidad

§ Proporción entre líneas existentes y líneas posibles§ Líneas posibles

● Grafo no orientado: g (g-1) / 2● Grafo orientado: g (g-1)

o Subgrafo§ Un grafo G2 es subgrafo de G1 si G1 contiene G2

Page 49: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

49

Análisis Redes SocialesTeoría de Grafos (XXI)

●Mediciones: Grafoo Densidad

Page 50: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

50

Análisis Redes SocialesTeoría de Grafos (XXII)

●Mediciones: Grafoo Diámetro

§ Distancia geodésica más alta entre dos nodoso Punto de corte

§ Nodo que, al eliminarlo rompe el grafo

Page 51: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

51

Análisis Redes SocialesTeoría de Grafos (XXIII)

●Representación de los datoso Matriz de adyacenciao Lista de aristaso Lista de adyacencia

Page 52: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

52

Análisis Redes SocialesTeoría de Grafos (XXIV)

● Matriz de adyacencia

52

Page 53: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

53

Análisis Redes SocialesTeoría de Grafos (XXV)

● Lista de aristaso 2, 3o 2, 4o 3, 2o 3, 4o 4, 5o 5, 2o 5, 1

Page 54: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

54

Análisis Redes SocialesTeoría de Grafos (XXVI)

● Lista de adyacenciao Más útiles para redes poco densas

o grandeso Lista:

§ 1: § 2: 3 4 § 3: 2 4§ 4: 5§ 5: 1 2

Page 55: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

55

Análisis Redes SocialesTeoría de Grafos (XXVII)

● Softwareo NodeXL

o Gephio R / Python

Page 56: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

56

Análisis Redes SocialesAplicaciones prácticas

Page 57: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

57

Análisis Redes SocialesAplicaciones prácticas (II)

57

Page 58: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

Copyright (c) 2016 University of DeustoThis work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/3.0/

Alex Rayón JerezFebrero 2016

Page 59: Análisis de Redes Sociales (Social Network Analysis) y Text Mining

PROGRAMA DE BIG DATA Y BUSINESS INTELLIGENCE

Análisis de Redes Sociales (SNA) y Text Mining

Alex Rayón [email protected]

@alrayon

Febrero, 2016. Madrid.


Recommended