Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y...

Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing

Rafael Bello Pérez

Departamento de Ciencias de la Computación

Universidad Central de Las Villas

[email protected]

Con soporte de conferencias de

Dr. Francisco Herrera Triguero

Dpto. Ciencias de la Computación e I.A., Universidad de Granada

España

Grupo de investigación SCI2Shttp://sci2s.ugr.es

mailto:[email protected]

Business analytics

Business analytics (BA) es la exploración metódica e iterativa de los datos de una organización basada en análisis estadístico; es usado por las empresas para tomar decisiones basada en los datos.

Davenport, Thomas H.; Harris, Jeanne G.. Competing on analytics: the new science of winning. Boston, Mass.: Harvard Business School Press. ISBN 978-1-4221-0332-6. 2007.Beller, Michael J.; Alan Barnett. "Next Generation Business Analytics". Lightship Partners LLC. 2009.Bartlett, Randy. A Practitioner’s Guide To Business Analytics: Using Data Analysis Tools to Improve Your Organization’s Decision Making and Strategy. McGraw-Hill. ISBN 978-0071807593. 2013.

Business analytics vs Business intelligence

BI responde a preguntas como Que sucedió? Cuando? Quién? Cuánto?BA responde a preguntas como Por qué sucedió? Sucederá otra vez? Que sucederá si se cambia X?============================================BI incluye la elaboración de reportes, monitoreo automatizado, OLAP (online analytical processing), etc..BA incluye análisis estadístico cuantitativo, minería de datos, modelación predictiva, pruebas multivariadas.============================================BI tradicionalmente se focaliza en usar un conjunto consistente de métricas para medir el desempeño alcanzado y para guiar los planes de negocio basado en los datos del negocio.BA se focaliza en desarrollar nuevos indicios y comprender el desempeño alcanzado por el negocio basado en datos y métodos de análisis, incluyendo modelos explicativos y predictivos para soportar la toma de decisiones por los humanos o de forma totalmente automatizada.

Business analytics vs Business intelligence

Como resultado:

Cada vez más las aplicaciones de BI incluyen los facilidades de BA.

Business analytics: nuevos entornos Las empresas deben adaptarse a las nuevas preferencias de los clientes, o mejor aún, anticiparse a ellas.Los análisis de audiencia proporcionan pistas sobre futuras tendencias del mercado, indican las oportunidades que deben tomarse y muestran cómo se desarrollan las expectativas del cliente.Los directivos de las empresas necesitan disponer de la información que han dejado tras de sí los usuarios de Internet para prever el desarrollo de futuros productos, y precisamente esta información, proporcionada por Business Analytics, les permitirá que tomen las decisiones correctas sobre la estrategia de su empresa.

Guardar datos sobre el soporte en línea y las redes sociales corporativas proporciona a las empresas una fuente de información básica para su actividad, rendimiento y clientes; esto respalda el hecho de que los datos online forman parte de Business Analytics.

Grandes volúmenes de datos

Business analytics: nuevos entornos

Grandes volúmenes de datos

Big data

Business analytics y Big data

Business analytics Big data

Según algunos enfoques:Independientemente de cuán grande sean los datos que usted está usando para hacer BA, existe una persona monitoreando el proceso y tomando decisiones después de posiblemente discutir con un equipo de expertos.

En un verdadero entorno de big data, los humanos se mantienen apartados del trabajo de las maquinas, a las que la dejan hacer.

Business analytics y Big data

Big data analyticsBDA es el proceso de examinar grandes conjuntos de datos conteniendo una variedad de tipos de datos (mezcla de datos estructurados, semi estructurados y no estructurados) para descubrir patrones ocultos, correlaciones desconocidas, tendencias del mercado, preferencias de los consumidores y otras informaciones útiles para el negocio.

Estos hallazgos analíticos pueden conducir a mejorar la eficiencia operacional, las ventajas competitivas sobre la competencia e incrementar la eficacia del negocio.

Big data analytics refiere el proceso de coleccionar, organizar y analizar grandes conjuntos de datos (big data) para descubrir patrones y otra información útil.

Big data analytics

El objetivo primario del BDA es ayudar a las compañías a tomar decisiones de negocio más informadas a partir del empleo de científico de datos, expertos en modelos predictivos y otros profesionales para analizar grandes volúmenes de datos en diferentes formatos que no son considerados en las aplicaciones convencionales de BI (los datos semi o no estructurados no encajan bien los tradicionales sistemas de data warehouse basados en bases de datos relacionales).

Big data analytics

El objetivo primario del BDA es ayudar a las compañías a tomar decisiones de negocio más informadas a partir del empleo de científico de datos, expertos en modelos predictivos y otros profesionales para analizar grandes volúmenes de datos en diferentes formatos que no son considerados en las aplicaciones convencionales de BI (los datos semi o no estructurados no encajan bien los tradicionales sistemas de data warehouse basados en bases de datos relacionales).

BDA tiene lugar donde BA y el BI resultan insuficientes

4 entornos de trabajo

BI reactivo: ofrece los reportes de negocio estándares, reportes ad hoc, OLAP y otras alertas basadas en métodos analíticos que consideran el pasado de forma estática lo que limita el número de situaciones que se pueden tratar. Big data BI reactivo: los reportes se generan a partir de grandes conjuntos de datos, pero las decisiones se toman de forma reactiva.Big analytics proactivo: comprende la toma de decisiones mirando hacia adelante considerando modelación predictiva, minería de texto, optimización, pronostico y análisis estadístico; se pueden identificar tendencias, determinar condiciones para tomar decisiones; pero big analytics no se puede ejecutar sobre big data debido al marco computacional tradicional que utiliza.Big data analytics proactivo: usando big data analytics se puede procesar grandes volúmenes de información para transformar las decisiones en el negocio, y haciéndolo de forma proactiva permite enfrentar el futuro con conocimiento y una percepción mejor de las cosas.

Minería de Datos

Somos Ricos en Datos, pero Pobres en información

Data mining- buscar conocimiento (patrones interesantes) en los datos.

Que hacer con los Datos

Motivación

El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar datos, sino por la capacidad de gestionar, analizar, sintetizar, visualizar, y descubrir el conocimiento de los datos recopilados de manera oportuna y en una forma escalable

El problema de la explosión de información:

existencia de herramientas para la recolección de información madurez de la tecnología de bases de datos bajo precio del hardware

cantidades gigantescas de datos almacenados en bases de datos, data warehouses y otros tipos de almacenes de información

Somos ricos en datos pero pobres en conocimiento

La Minería de Datos es una forma de

aprender del pasado para tomar mejores decisiones

en el futuro

Minería de Datos

Nuevas necesidades de análisis datos

¿Para qué se utiliza el ‘conocimiento’ obtenido?

hacer predicciones sobre nuevos datos explicar los datos existentes resumir una base de datos masiva para facilitar la toma

de decisiones visualizar datos altamente dimensionales, extrayendo

estructura local simplificada, …

¿Qué es la Minería de Datos?

Informalmente se asocia Minería de Datos con KDD

Problema de KDD

Datos Fuente

Datos Preprocesados

Modelos

Conocimiento e Implantación

Comprensión del Problema y de los Datos

Preprocesamiento de Datos

Minería de Datos

Interpretación y Evaluación

Etapas en un proceso de KDD

¿Qué es la Minería de Datos?

Aplicaciones empresariales / industrialesToma de decisiones en banca, seguros, finanzas,

marketing, control de calidad, retención de clientes, predicción, políticas de acción (sanidad, etc.), …

Aplicaciones en investigación científicaMedicina, astronomía, geografía, genética,

bioquímica, meteorología, etc.

Aplicaciones en Internet/Redes SocialesMinería de textos y de datos en la web

Minería de Datos. Áreas de aplicación

18

Big Data

Datos son el centro de la

futura sociedad de la

economía del

conocimiento

19

No hay una definición estándar

Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento de datos tradicionales

“Big Data” son datos cuyo

volumen, diversidad y complejidad

requieren nueva arquitectura,

técnicas, algoritmos y análisis

para gestionar y extraer valor y

conocimiento oculto en ellos ...

¿Qué es Big Data?

20

¿Qué es Big Data?

Las 3 V’s de Big Data

BD

[1] Data-intensive applications, challenges, techniques and technologies: A survey on Big DataC.L. Philip Chen, Chun-Yang ZhangInformation Sciences 275 (2014) 314–347[2] Eric Savitz, Gartner: Top 10 Strategic Technology Trends for 2013, October 2012. <http://www.forbes.com/sites/ericsavitz/2012/10/23/gartner-top-10-strategic-technology-trends-for-2013/>.[3] Eric Savitz, Gartner: 10 Critical Tech Trends for the Next Five Years, October 2012. <http://www.forbes.com/sites/ericsavitz/2012/10/22/gartner-10-critical-tech-trends-for-the-next-five-years/>.

No hay dudas de que la competitividad en la productividad de los negocios y las tecnologías seguramente van a converger a las exploraciones en Big data[1].

BD aparece listada en:

Top 10 Strategic Technology Trends For 2013 [2]Top 10 Critical Tech Trends For The Next Five Years [3]

BD

Data-intensive applications, challenges, techniques and technologies: A survey on Big DataC.L. Philip Chen, Chun-Yang Zhang, Information Sciences 275 (2014) 314–347

Richard T. Kouzes, Gordon A. Anderson, Stephen T. Elbert, Ian Gorton, Deborah K. Gracio, The changing paradigm of data-intensive computing, Computer 42 (1) (2009) 26–34.

BD representa una oportunidad:

Tomar decisiones basadas en el uso intensivo de los datos.

BD representa un reto:

Hay que manejar inconsistencias, datos incompletos, escalabilidad, corriente continua de datos, problemas de seguridad.

Se requieren nuevas tecnologías para el almacenamiento, operaciones de entrada/salida de datos y procesamiento.

BD

Data-intensive applications, challenges, techniques and technologies: A survey on Big DataC.L. Philip Chen, Chun-Yang Zhang, Information Sciences 275 (2014) 314–347

Richard T. Kouzes, Gordon A. Anderson, Stephen T. Elbert, Ian Gorton, Deborah K. Gracio, The changing paradigm of data-intensive computing, Computer 42 (1) (2009) 26–34.

BD obliga a:

Trabajar con mucha informacion privada y romper con los enfoques clasicos de seguridad de los datos.

Manipular enormes cantidades de datos no estructurados.

Mucho intercambio y cooperacion internacional.

Romper con el enfoque relacional de las bases de datos.

Buscar nuevas alternativas para el procesamiento paralelo.

24

El volumen de datoscrece exponencialmente Crecimiento x 44 de 2009 a 2020 De 0.8 zettabytes a 35ZB

Crecimiento exponencial en los datos generados/almacenados

1ª:Volumen

¿Qué es Big Data? 3 V’s de Big Data

25

Los DATOS se generan muy rápido y necesitan ser procesados rápidamente

Online Data Analytics Decisiones tardías oportunidades perdidasA diferencia del clásico data warehouses que generalmente “almacena” data, big data es más dinámico, las decisiones tomadas usando BD pueden afectar los próximos datos.

Ejemplos: E-Promociones: Basadas en la posición actual e historial de

compra envío de promociones en el momento de comercios cercanos a la posición

Monitorización/vigilancia sanitaria: Monitorización sensorial de las actividades del cuerpo cualquier medida anormal requiere una reacción inmediata

2ª:Velocidad


26

Varios formatos y estructuras:

Texto, numéricos, imágenes, audio, video, secuencias, series temporales …

Una sola aplicación puede generar muchos tipos de datos

Extracción de conocimiento Todos estos tipos de datos necesitan ser analizados

conjuntamente

Extracción de conocimiento Todos estos tipos de datos necesitan ser analizados

conjuntamente

3ª:Variedad


27

¿Qué es Big Data?

Big data incluye datos estructurados con datos no estructurados, imágenes, vídeos …

28

4ªV

¿Qué es Big Data?

Veracidad

Veracidad4ª V

29

¿Qué es Big Data?

5ªV = Valor

Aproximaciones

y tecnologías

innovativas

5 V’s --> Valor

30

Big Data. Aplicaciones

Astronomía Telefonía

Procesamiento deinformación WEB

Tráfico en Internet

Transacciones de tarjetas de crédito

Genómica

31

Tratamiento computacional

MapReduce: Paradigma de Programación para Big Data (Google)

Plataforma Hadoop (Open access)

Librería Mahout para Big Data. Otras librerías

32

Escalabilidad de grandes cantidades de datos Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días Exploración en un clúster de 1000 nodos = 33 minutos

Solución Divide-Y-Vencerás

MapReduce– Modelo de programación de datos paralela

– Concepto simple, elegante, extensible para múltiples aplicaciones

• Creado por Google (2004)– Procesa 20 PB de datos por día (2004)

• Popularizado por el proyecto de codigo abierto Hadoop– Usado por Yahoo!, Facebook, Amazon, …

MapReduce

33

Características División del problema en subproblemas que puedan ser

resueltos con los recursos computacionales existentes. Distribuir los subproblemas en un cluster de nodos de

trabajo. Resolver los problemas por separado y en paralelo. Combinar las soluciones encontradas a los

subproblemas para resolver el problema original. Concreción en dos pasos: Map step and Reduce step. Esencia: transferir código de programa a los nodos

de datos en lugar de transferir los datos a través de la red (supera el cuello de botella de la transferencia de datos en

aplicaciones distribuidas).

MapReduce

MapReduce

MapReduce es el entorno más popular para Big Data

Basado en la estructura Valor-llave.

Dos operaciones:1. Función Map : Procesa

bloques de información2. Función Reduce function:

Fusiona los resultados previos de acuerdo a su llave.

+ Una etapa intermedia de agrupamiento por llave

J. Dean, S. Ghemawat, MapReduce: Simplified data processing on large clusters, Communications of the ACM 51 (1) (2008) 107-113.

mapmap map map

Shuffling: group values by keys

reduce reduce reduce

map (k, v) → list (k’, v’)reduce (k’, list(v’)) → v’’

(k , v)(k , v)(k , v) (k , v)

(k’, v’)(k’, v’)(k’, v’)(k’, v’)

k’, list(v’)k’, list(v’)k’, list(v’)

v’’v’’v’’

35

Problema: encontrar el costo promedio por año a partir de una gran lista de registros de costos.

Cada registro puede contener valores para varios atributos, pero al menos incluye el año y el costo.

Función Map: extrae a partir de cada registro los pares <año,costo> y genera estos como salida.

Etapa Shuffle: agrupa los pares <año, costo> por el correspondiente año, creando una lista de costos por año <año, list(cost)>.

Etapa Reduce: computa el promedio de todos los costos contenidos en la lista de cada año.

MapReduce

Un ejemplo

36

Hadoop

Storm

MapReduce: implementaciones

Variantes

37

Hadoop

http://hadoop.apache.org/

38

Map ReduceLayer

HDFSLayer

Task tracker

Task tracker

Jobtracker

Jobtracker

Task tracker

Task tracker

NamenodeNamenode

Data nodeData node

Data nodeData node

http://hadoop.apache.org/

Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop

Creado por Doug Cutting (chairman of board of directors of the Apache Software Foundation, 2010)

Hadoop

Desarrollos

Enfoque InMemoryHDFS Hadoop + SPARK

Ecosistema Apache Spark

Futura versión de Mahout con Spark

40

Enfoque multidisciplinario para descubrir conocimiento

• Estadísticas, • Aprendizaje automático (machine learning),• Redes neuronales artificiales,• Reconocimiento de patrones,• Métodos de optimización,• Análisis de redes sociales, • Procesamiento de señales,• Visualización de datos.

41

Mahout

Cuatro grandes áreas de aplicación

Agrupamiento

Sistemas de Recomendaciones

Clasificación

Asociación

42

Mahout ¿Qué algoritmos puedo encontrar para Hadoop?

Analizamos 10 algoritmos muy conocidos

Hadoop

Palit, I., Reddy, C.K., 2012. Scalable and parallel boosting with mapReduce. IEEE TKDE 24 (10), pp. 1904-1916.

(Amazon EC2 cloud, CGL-MapReduce: (modelos iterativos de MapReduce)

Decision trees (C4.5, Cart)(MReC4.5)K-MeansSVMApriorikNNNaïve BayesEM (Expectation Maximization)PageRankAdaboost

No disponibles

MapReduce

Generation 1st Generation

2nd Generation 3nd Generation

Examples SAS, R, Weka, SPSS, KEEL

Mahout, Pentaho, Cascading

Spark, Haloop, GraphLab, Pregel, Giraph, ML over Storm

Scalability Vertical Horizontal (over Hadoop)

Horizontal (Beyond Hadoop)

Algorithms Available

Huge collection of algorithms

Small subset: sequential logistic regression, linear SVMs, Stochastic Gradient Descendent, k-means clustering, Random forest, etc.

Much wider: CGD, ALS, collaborative filtering, kernel SVM, matrix factorization, Gibbs sampling, etc.

Algorithms Not Available

Practically nothing

Vast no.: Kernel SVMs, Multivariate Logistic Regression, Conjugate Gradient Descendent, ALS, etc.

Multivariate logistic regression in general form, k-means clustering, etc. – Work in progress to expand the set of available algorithms

Fault-Tolerance

Single point of failure

Most tools are FT, as they are built on top of Hadoop

FT: HaLoop, SparkNot FT: Pregel, GraphLab, Giraph

44

Granular computing“… there is an assumption that divide and conquer method can be used to improve the existed knowledge reduction algorithms in rough set theory and granular computing. It may be a good way to solve the problem of huge data mining.”

Huge Data Mining Based on Rough Set Theory and Granular Computing. Feng Hu ; Wang, Guoyin. Proc. De Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT '08. IEEE/WIC/ACM International Conference on (Volume:3 ), pp. 655 – 658. ISBN: 978-0-7695-3496-1, IEEE Press. Sydney, Australia.

Una alternativa para BD

45

Granular computing“Soft Computing being regarded as a plethora of technologies of fuzzy sets (or Granular Computing), neurocomputing and evolutionary optimization brings forward a number of unique features that might be instrumental to the development of concepts and algorithms to deal with big data.”

Information Granularity, Big Data, and Computational Intelligence. Witold Pedrycz, Shyi-Ming Chen (Eds). ISBN: 9783319082530, Springer, p. 444. 2014.


46

Granular computing“Granular computing (GrC) is an emerging computation theory to build an efficient computational model for complex applications with huge amounts of data, information and knowledge.”

2014 IEEE International Conference on Granular Computing, Oct 22-24, 2014, Noboribetsu, Hokkaido, JAPAN.


Granular computing y Big data

La computación granular es una de alternativas para tratar a Big data.

Big data grandes volúmenes de datos

Computación granular abstracción reducción de datos

Granular computing Big data

Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. C.L. Philip Chen, Chun-Yang Zhang. Information Sciences 275 (2014) 314–347

Descubrimiento de conocimiento

Problema/Datos Brutos

Datospara Análisis

DatosPreprocesados

Patrones/Modelos

Conocimiento

Selección

Preprocesamiento

Minería de Datos

InterpretaciónEvaluación

Procesamiento de datos: Disponer de datos de calidad previos al uso de algoritmos de extracción de conocimiento.

preprocesamiento

Preprocesamiento de DatosPreprocesamiento de Datos

Granulación de la información

Nuevo!

Reducción de Datos

Selección deCaracterísticas

Selección de Instancias

AgrupamientoCompactación

Discretización

PREPROCESAMIENTO de Datos: MEJORAR CALIDAD DE LOS DATOS

Computación granular (granular computing)

Termino usado para cubrir cualquier teoría, metodología, técnicas y herramientas que hacen uso de gránulos (subconjuntos del universo) en la solución de problemas.

La granulación facilita transformar los datos en conocimiento.

Yao, Y.Y., Granular computing: basic issues and possible solutions,Proceedings of the 5th Joint Conference on Information Sciences, 186-189, 2000.Yao, Y.Y., Information granulation and rough set approximation, Inter-national Journal of Intelligent Systems, 16, 87-104, 2001.Yao, Y.Y., Probabilistic Approaches to Rough Sets. Expert Systems, Vol. 20, No. 5, 287-297, 2003.

Granular computing The term granular computing is first used by this speaker in 1996-97 to label a subset of Zadeh’s granular mathematics as his research topic in BISC.

(Zadeh, L.A. (1998) Some reflections on soft computing, granular

computing and their roles in the conception, design and utilization of information/intelligent systems, Soft Computing, 2, 23-25.)


Granulación del universo descomposición del universo en familias de subconjuntos (agrupamientos de los objetos en gránulos).

Granulo conjunto de objetos inseparables, similares.

Granulo grupos, clases, intervalos, clusters

Los elementos dentro de un granulo se consideran como un todo, en lugar de individualmente.

Zadeh, L.A. Towards a theory of fuzzy information granulation and itscentrality in human reasoning and fuzzy logic, Fuzzy Sets and Systems,19, 111-127, 1997.


Granulo intención descripción propiedades del granulo.

Granulo extensión elementos que conforman la descripción

Grupo de objetos Granulo

Vecindad espacial, closeness, cohesión, etc.

Granulación: métodos

• Cómo juntar objetos para formar un granulo?

• Métodos de construcción gránulos, vistas granuladas, y jerarquías.

Computación granular

Diferentes niveles de granulación.

Comprensión del problema difiere dependiendo del nivel de la granulación.

Ejemplos de granulación:

Partición. Cubrimiento.

Tipos de granulación

A partition

Granule A

Granule B

f, g, h i, j, k

Granule Cl, m, n

Cubrimiento

Given a granulation(has overlapping)

Neighborhood A

Neighborhood B

f, g, h

i, j, k, l

Neighborhood C

m, n

Computación con Gránulos

Mappings:Las conexiones entre diferentes perspectivas de

granularidad pueden ser definidas como mappings.

Granularidad condicional Vs

Granularidad de decisión

Computación granular

Granular computing incluye metodologías computacionales basadas en:

• Lógica borrosa (fuzzy logic), • Computación con palabras (computing with words), • Computación con intervalos (interval computing), • Conjuntos aproximados (rough sets), etc.

Feature Subset Selection using Granular InformationShounak Roychowdhury0-7803-7078-3/24M1 IEEE, pp 2041-2044

Fuzzy Sets - 1965 Lotfi Zadeh, Berkely

Fuzzy sets son conjuntos cuyos elementos tienen grados de membresía, como una extensión de teoría de conjuntos clásica.

Big Data: Selected Computational Intelligence approaches

Fuzzy (F)-Granulation:

1

0.5

Feature j

Mem

ber

ship

val

ue

low medium high

cLcM cH

L M

function

Variable lingüística

Agresividad

Membership (Degree of

Truth)1.0

0.0

-1 1 0 0.5

Medio AltoBajo

Computación granular con FS

example: rule set

R : if X is small then Y is small

if X is medium then Y is large

if X is large then Y is small

1

medium large

0

small

vLAZ 09-12-00

La estructura básica de un SIB

Rough SetsRough Sets

UncertaintyHandling

GranularComputing

(Using lower & upper approximations) (Using information granules)

Computación granular con RS

Granulación en RST:

• clase de equivalencia es un granulo.• partición es una granulación del universo.

Particionamiento del universo según los rasgos de condición Conditional granules.

Particionamiento del universo según el rasgo de decisión Decision granules.

Granular Rough Theory: A representation semantics oriented theory of roughness. Bo Chen, Ming Sun, Mingtian ZhouApplied Soft Computing 9 (2009) 786–805

EJEMPLOS DE GRANULOS

GC={P2,P5} GD={P1, P2, P3, P6}

Paciente Dolor de cabeza

Dolor muscular

Temperatura

Gripe

P1 no si alta Si

P2 si no alta Si

P3 si si muy alta Si

P4 no si normal No

P5 si no alta No

P6 no si muy alta Si

EJEMPLOS DE GRANULOS Ai(x)Ai(y) |Ai(x)-Ai(y)|1 GC={P2,P4} GD={P1, P2, P4}

Paciente Presión Peso Volumen Energía

P1 18 100 78 78

P2 31 89 67 78.9

P3 8 90 65 56

P4 30.9 89.3 66.2 79

P5 2 8 9 11

P6 50 67 66 87

d A U,DS

La Teoría de Conjuntos Aproximados (Rough Sets Theory, RST) fue introducida por Z. Pawlak en 1982.

Pawlak, Z. (1982). "Rough Sets." International journal of Computer and Information Sciences 11: 341-356.

Donde denota la clase de x de acuerdo a la relación de inseparabilidad B.

Bx][

)()( yaxa ii

Los objetos (x,y) son inseparables si tiene igual valor para un subconjunto de rasgos.

B RE

Ejemplo:temperatura = 37.8 grados puede ser considerada igual a otra de 37.9 grados, al medir la temperatura corporal de dos personas.

d A U,DS

Alternativas

Slowinski, R. and D. Vanderpooten (1997). Similarity relation as a basis for rough approximations. Advances in Machine Intelligence & Soft-Computing. IV: 17-33.Pawlak, Z. and A. Skowron (2007). "Rough sets: Some extensions." Information Sciences 177: 28-40.

dominios

Aproximaciones Inferior y SuperiorEjemplo de DS

X1R X2R

U Headache Temp. FluU1 Yes Normal NoU2 Yes High YesU3 Yes Very-high YesU4 No Normal NoU5 NNNooo HHHiiiggghhh NNNoooU6 No Very-high YesU7 NNNooo HHHiiiggghhh YYYeeesssU8 No Very-high No

Aproximaciones Inferior y Superior

R = {Headache, Temp.}U/R = { {u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}}

X1 = {u | Flu(u) = yes} = {u2,u3,u6,u7}X2 = {u | Flu(u) = no} = {u1,u4,u5,u8}

RX1 = {u2, u3}

= {u2, u3, u6, u7, u8, u5}

RX2 = {u1, u4}

= {u1, u4, u5, u8, u7, u6}

X1R

X2R

u1

u4u3

X1 X2

u5u7u2

u6 u8

Reducto.

Dado un sistema de información S=(U,A), donde U es el universo y A es el conjunto de atributos, un reducto de este es un conjunto mínimo de atributos BA tal que IA = IB.

Aplicabilidad de la RST en el Aprendizaje automático

a) Análisis de los atributos a considerar. Selección de los atributos. Análisis de la dependencia entre atributos. Reducción de atributos. Calculo de la importancia de un atributo. Calculo de la calidad de un Training set.

b) Formulación del conocimiento descubierto. Descubrimiento de reglas causales. Cálculo de la certidumbre de las reglas causales.

Big Data + Granular computing (fuzzy)

On the use of MapReduce to build Linguistic Fuzzy Rule BasedClassification Systems for Big Data

Fuzzy Rule Based Classification Systems (FRBCSs) son un método efectivo para la clasificación afectado por el crecimiento exponencial del espacio de búsqueda (caso BD)

CI approaches

Fuzzy Rule Based Classification Systems en Big Data

Alternativas para grandes datos:

Distribuir la creación de la base de reglas.Paralelización del método de construcción de las reglas.

Modificar para BD

Modelos existentes no adecuados para BD.

Y.Jin,Fuzzy modeling of high-dimensional systems: complexity reduction and interpretability improvement, IEEE Trans. Fuzzy Syst. 8(2) (2000) 212–221

CI approaches

Chi-FRBCS-BigData

Diseño basado en MapReduce. Usa dos procesos diferentes de MapReduce

Fase 1: Construir la Fuzzy Rule Base Fase 2: Estimar las clases de los ejemplos

pertenecientes al big data Dos versiones las cuales difieren en la función

Reduce Chi-FRBCS-BigData-Max Chi-FRBCS-BigData-Average

V. López, S. Río, J.M. Benítez, F. Herrera, On the use of MapReduce to build Linguistic Fuzzy Rule Based Classification Systems for Big Data. Fuzz-IEEE Conference, 2014.


Building the RB with Chi-FRBCS-BigData

Train set map1

Train set mapn

…

Train set map2

RB1

RB2

RBn

…

Mappers RB generation

Original train set

RBR

Final RB generation

RBR

DB

Final KB

INITIAL MAP REDUCE FINAL

La clave del enfoque de particionamiento de datos de MapReduce es usualmente la fase reduce: Dos alternativas de reducers (Max vs average weights)


ROUGH SETS y BIG DATAQué hacer cuando el tamaño del sistema de decisión es extremadamente grande para computar con eficiencia los conceptos de la RST y aplicar los métodos basados en ellos para el descubrimiento de conocimiento?

Complejidad computacional de encontrar las

aproximaciones: O(lm2),

Costo computacional de encontrar un reducto:

acotado por l2m2.

l es el cantidad de atributos que describen los objetos

m es la cantidad de objetos en el universo.

ROUGH SETS y BIG DATA

COMPUTAR LA RST BASADO EN MAPREDUCE.

HADOOP FILE SYSTEM AND FUNDAMENTAL CONCEPT OF MAPREDUCE INTERIOR AND CLOSURE ROUGH SET APPROXIMATIONSInternational Journal of Advanced Research in Computer and Communication EngineeringVol. 2, Issue 10, pp 3960-3963, October 2013

ROUGH SETS y BIG DATA

Diseñar algoritmos paralelos para computar;•Clases equivalencias,•Clases de decisión,•Asociaciones entre las clases de equivalencia y las clases de decisión. •Aproximaciones.

A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223

ROUGH SETS y MapReduceACCIONES PARA COMPUTAR ROUGH SETS EN EL CONTEXTO DE BIGDATA

Dado un sistema información S(U, A{d}):

•Particionar el universo U.•A partir de cada subconjunto construir las clases de equivalencia usando la función Map.•Estas clases de equivalencias se pueden combinar si ellas tienen la misma información respecto a los atributos de condición en A.•A partir de cada subconjunto construir las clases de decisión de acuerdo al rasgo de decisión d.•Estas clases de decisión se pueden combinar si ellas corresponden al mismo valor de decisión.

Estos pasos se pueden ejecutar en paralelo.


ROUGH SETS y MAPREDUCEDado el sistema de decisión S = (U,C D).

Creación de subsistemas {S1, S2, …, Sm}, donde Si = (Ui,C D) U=UiConstrucción de clases de equivalencia para cada subsistema Si, i {1, 2, . . .,m}, Ui/B, B C

Teorema:Para cada subsistema se pueden computar las clases de equivalencia independientemente. Las clases de equivalencia de diferentes subsistemas se pueden unir si su información es la misma.Por eso, las clases de equivalencias del sistema de decisión S se pueden computar en paralelo.

U/B= {E1,E2, . . .,Et} Ui/B={Ei1; Ei2; . . . ; Eipi}. Ej= {F Eall : FB= EjB}


Agregación de clases de Agregación de clases de equivalenciaequivalencia

Computo de las aproximaciones con MAPREDUCE

Dado el sistema de decisión S = (U,C D). Si = (Ui, C D) U=UiU/B= {E1,E2, . . .,Et} Ui/B={Ei1; Ei2; . . . ; Eip i}.U/D = {D1,D2, . . .,Dr}, i {1, 2, . . .,m}, Ui/D={Di1; Di2; . . . ; Diqi}.

•Las clases de decisión y de equivalencia pueden ser calculadas en paralelo según MapReduce.•Las asociaciones entre las clases de equivalencia y las clases de decisión también se pueden computar en paralelo.•Las aproximaciones inferior y superior se computan mediante las asociaciones entre las clases de equivalencia y las clases de decisión.•Las aproximaciones obtenidas en paralelo son las mismas obtenidas por el método serial.

TODO DEMOSTRADO EN TEOREMAS DEL ARTICULO:


RST + MAPREDUCE en MLBasado en la implementación de RST sobre MapReduce publicado en:

A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223.

Se han desarrollado aplicaciones para el descubrimiento de conocimiento:

J. Zhang, T. Li, and Y. Pan, “Parallel rough set based knowledge acquisition using mapreduce from big data,” in Proceedings of the 1st International Workshop on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications, ser. BigMine ’12. New York, NY, USA: ACM, 2012, pp. 20–27.

PLAR: Parallel Large-scale Attribute Reduction on Cloud SystemsJunbo Zhang,Tianrui Li_, Senior Member, IEEE, and Yi Pan, Senior Member, IEEE

RST + MAPREDUCE en selección de rasgosAlgoritmo paralelo para la reducción del sistema de informacion

Input: A decision table S = ∪Si DIVISION EN SUBSISTEMAS Output: reduction of S

1. Computar reducción Redi a partir de los subsistemas Si.2. Agregar los atributos resultantes en AttrSet (en ∪Redi).3. Eliminar los rasgos redundantes.

Attribute Reduction for Massive Data Based on Rough Set Theory and MapReduce. Yong Yang, Zhengrong Chen, Zhu Liang, and Guoyin Wang. LNAI 6401, pp. 672–678, 2010.

Otros métodos de descubrimiento de conocimiento usando RS en Big data

Parallel rough set based knowledge acquisition using MapReduce from big data.Junbo Zhang, Tianrui Li, Yi Pan. Proceedings of the 1st International Workshop on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications, pp. 20-27. ACM Press. ISBN: 978-1-4503-1547-0. 2012.

An agent model for incremental RS-based rule induction: a big data analysis in sales promotion. Yu-Neng Fan, Ching-Chin Chern. 46th Hawaii International Conference on System Sciences. © 2012 IEEE DOI 10.1109/HICSS.2013.79 pp. 985-994.

91

Desafíos en Big Data

Comentarios Finales

http://www.kdnuggets.com/2013/12/3-stages-big-data.htmlBy Gregory Piatetsky, Dec 8, 2013.

En muchas nuevas aplicaciones – reconocimiento facial, comprensión del habla, recomendaciones, detección de fraudes – mas datos no produce mejores resultados

Para ayudar a esclarecer los diferentes significados de "Big Data", el Dr. Piatetsky propuso considerar 3 etapas para Big Data.

92

http://economia.elpais.com/economia/2013/09/27/actualidad/1380283725_938376.html

Comentarios Finales

La demanda de profesionales formados en Ciencia de Datos y Big Data es enorme.

Se estima que la conversión de datos en información útil generará un mercado de 132.000 millones de dólares en 2015 y que se crearán más de 4.4 millones de empleos.

España necesitará para 2015 más de 60.000 profesionales con formación en Ciencia de Datos y Big Data.

Oportunidades en Big Data

Una demanda creciente de profesionales en “Big Data” y “Ciencia de Datos”

http://www.informaticahabana.cu/

III International Conference on Informatics and

Computer Sciences (CICCI 2016)For further information please

contact Dra. Yailén Martínez, [email protected].

https://www.facebook.com/CICCI.Informatica.Cuba

Date post:	23-Jan-2016
Category:	Documents
Upload:	esteban-montoya-flores
View:	218 times
Download:	0 times

Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y...

Documents