+ All Categories
Home > Documents > Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y...

Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y...

Date post: 23-Jan-2016
Category:
Upload: esteban-montoya-flores
View: 218 times
Download: 0 times
Share this document with a friend
Popular Tags:
93
Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas Cuba [email protected] Con soporte de conferencias de Dr. Francisco Herrera Triguero Dpto. Ciencias de la Computación e I.A., Universidad de Granada España Grupo de investigación SCI 2 S http://sci2s.ugr.es
Transcript
Page 1: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing

Rafael Bello Pérez

Departamento de Ciencias de la Computación

Universidad Central de Las Villas

[email protected]

Con soporte de conferencias de

Dr. Francisco Herrera Triguero

Dpto. Ciencias de la Computación e I.A., Universidad de Granada

España

Grupo de investigación SCI2Shttp://sci2s.ugr.es

Page 2: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Business analytics

Business analytics (BA) es la exploración metódica e iterativa de los datos de una organización basada en análisis estadístico; es usado por las empresas para tomar decisiones basada en los datos.

Davenport, Thomas H.; Harris, Jeanne G.. Competing on analytics: the new science of winning. Boston, Mass.: Harvard Business School Press. ISBN 978-1-4221-0332-6. 2007.Beller, Michael J.; Alan Barnett. "Next Generation Business Analytics". Lightship Partners LLC. 2009.Bartlett, Randy. A Practitioner’s Guide To Business Analytics: Using Data Analysis Tools to Improve Your Organization’s Decision Making and Strategy. McGraw-Hill. ISBN 978-0071807593. 2013.

Page 3: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Business analytics vs Business intelligence

BI responde a preguntas como Que sucedió? Cuando? Quién? Cuánto?BA responde a preguntas como Por qué sucedió? Sucederá otra vez? Que sucederá si se cambia X?============================================BI incluye la elaboración de reportes, monitoreo automatizado, OLAP (online analytical processing), etc..BA incluye análisis estadístico cuantitativo, minería de datos, modelación predictiva, pruebas multivariadas.============================================BI tradicionalmente se focaliza en usar un conjunto consistente de métricas para medir el desempeño alcanzado y para guiar los planes de negocio basado en los datos del negocio.BA se focaliza en desarrollar nuevos indicios y comprender el desempeño alcanzado por el negocio basado en datos y métodos de análisis, incluyendo modelos explicativos y predictivos para soportar la toma de decisiones por los humanos o de forma totalmente automatizada.

Page 4: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Business analytics vs Business intelligence

Como resultado:

Cada vez más las aplicaciones de BI incluyen los facilidades de BA.

Page 5: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Business analytics: nuevos entornos Las empresas deben adaptarse a las nuevas preferencias de los clientes, o mejor aún, anticiparse a ellas.Los análisis de audiencia proporcionan pistas sobre futuras tendencias del mercado, indican las oportunidades que deben tomarse y muestran cómo se desarrollan las expectativas del cliente.Los directivos de las empresas necesitan disponer de la información que han dejado tras de sí los usuarios de Internet para prever el desarrollo de futuros productos, y precisamente esta información, proporcionada por Business Analytics, les permitirá que tomen las decisiones correctas sobre la estrategia de su empresa.

Guardar datos sobre el soporte en línea y las redes sociales corporativas proporciona a las empresas una fuente de información básica para su actividad, rendimiento y clientes; esto respalda el hecho de que los datos online forman parte de Business Analytics.

Grandes volúmenes de datos

Page 6: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Business analytics: nuevos entornos

Grandes volúmenes de datos

Big data

Page 7: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Business analytics y Big data

Business analytics Big data

Según algunos enfoques:Independientemente de cuán grande sean los datos que usted está usando para hacer BA, existe una persona monitoreando el proceso y tomando decisiones después de posiblemente discutir con un equipo de expertos.

En un verdadero entorno de big data, los humanos se mantienen apartados del trabajo de las maquinas, a las que la dejan hacer.

Page 8: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Business analytics y Big data

Big data analyticsBDA es el proceso de examinar grandes conjuntos de datos conteniendo una variedad de tipos de datos (mezcla de datos estructurados, semi estructurados y no estructurados) para descubrir patrones ocultos, correlaciones desconocidas, tendencias del mercado, preferencias de los consumidores y otras informaciones útiles para el negocio.

Estos hallazgos analíticos pueden conducir a mejorar la eficiencia operacional, las ventajas competitivas sobre la competencia e incrementar la eficacia del negocio.

Big data analytics refiere el proceso de coleccionar, organizar y analizar grandes conjuntos de datos (big data) para descubrir patrones y otra información útil.

Page 9: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Big data analytics

El objetivo primario del BDA es ayudar a las compañías a tomar decisiones de negocio más informadas a partir del empleo de científico de datos, expertos en modelos predictivos y otros profesionales para analizar grandes volúmenes de datos en diferentes formatos que no son considerados en las aplicaciones convencionales de BI (los datos semi o no estructurados no encajan bien los tradicionales sistemas de data warehouse basados en bases de datos relacionales).

Page 10: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Big data analytics

El objetivo primario del BDA es ayudar a las compañías a tomar decisiones de negocio más informadas a partir del empleo de científico de datos, expertos en modelos predictivos y otros profesionales para analizar grandes volúmenes de datos en diferentes formatos que no son considerados en las aplicaciones convencionales de BI (los datos semi o no estructurados no encajan bien los tradicionales sistemas de data warehouse basados en bases de datos relacionales).

BDA tiene lugar donde BA y el BI resultan insuficientes

Page 11: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

4 entornos de trabajo

BI reactivo: ofrece los reportes de negocio estándares, reportes ad hoc, OLAP y otras alertas basadas en métodos analíticos que consideran el pasado de forma estática lo que limita el número de situaciones que se pueden tratar. Big data BI reactivo: los reportes se generan a partir de grandes conjuntos de datos, pero las decisiones se toman de forma reactiva.Big analytics proactivo: comprende la toma de decisiones mirando hacia adelante considerando modelación predictiva, minería de texto, optimización, pronostico y análisis estadístico; se pueden identificar tendencias, determinar condiciones para tomar decisiones; pero big analytics no se puede ejecutar sobre big data debido al marco computacional tradicional que utiliza.Big data analytics proactivo: usando big data analytics se puede procesar grandes volúmenes de información para transformar las decisiones en el negocio, y haciéndolo de forma proactiva permite enfrentar el futuro con conocimiento y una percepción mejor de las cosas.

Page 12: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Minería de Datos

Somos Ricos en Datos, pero Pobres en información

Data mining- buscar conocimiento (patrones interesantes) en los datos.

Que hacer con los Datos

Page 13: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Motivación

El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar datos, sino por la capacidad de gestionar, analizar, sintetizar, visualizar, y descubrir el conocimiento de los datos recopilados de manera oportuna y en una forma escalable

El problema de la explosión de información:

existencia de herramientas para la recolección de información madurez de la tecnología de bases de datos bajo precio del hardware

cantidades gigantescas de datos almacenados en bases de datos, data warehouses y otros tipos de almacenes de información

Somos ricos en datos pero pobres en conocimiento

Page 14: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

La Minería de Datos es una forma de

aprender del pasado para tomar mejores decisiones

en el futuro

Minería de Datos

Page 15: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Nuevas necesidades de análisis datos

¿Para qué se utiliza el ‘conocimiento’ obtenido?

hacer predicciones sobre nuevos datos explicar los datos existentes resumir una base de datos masiva para facilitar la toma

de decisiones visualizar datos altamente dimensionales, extrayendo

estructura local simplificada, …

¿Qué es la Minería de Datos?

Page 16: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Informalmente se asocia Minería de Datos con KDD

Problema de KDD

Datos Fuente

Datos Preprocesados

Modelos

Conocimiento e Implantación

Comprensión del Problema y de los Datos

Preprocesamiento de Datos

Minería de Datos

Interpretación y Evaluación

Etapas en un proceso de KDD

¿Qué es la Minería de Datos?

Page 17: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Aplicaciones empresariales / industrialesToma de decisiones en banca, seguros, finanzas,

marketing, control de calidad, retención de clientes, predicción, políticas de acción (sanidad, etc.), …

Aplicaciones en investigación científicaMedicina, astronomía, geografía, genética,

bioquímica, meteorología, etc.

Aplicaciones en Internet/Redes SocialesMinería de textos y de datos en la web

Minería de Datos. Áreas de aplicación

Page 18: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

18

Big Data

Datos son el centro de la

futura sociedad de la

economía del

conocimiento

Page 19: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

19

No hay una definición estándar

Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento de datos tradicionales

“Big Data” son datos cuyo

volumen, diversidad y complejidad

requieren nueva arquitectura,

técnicas, algoritmos y análisis

para gestionar y extraer valor y

conocimiento oculto en ellos ...

¿Qué es Big Data?

Page 20: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

20

¿Qué es Big Data?

Las 3 V’s de Big Data

Page 21: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

BD

[1] Data-intensive applications, challenges, techniques and technologies: A survey on Big DataC.L. Philip Chen, Chun-Yang ZhangInformation Sciences 275 (2014) 314–347[2] Eric Savitz, Gartner: Top 10 Strategic Technology Trends for 2013, October 2012. <http://www.forbes.com/sites/ericsavitz/2012/10/23/gartner-top-10-strategic-technology-trends-for-2013/>.[3] Eric Savitz, Gartner: 10 Critical Tech Trends for the Next Five Years, October 2012. <http://www.forbes.com/sites/ericsavitz/2012/10/22/gartner-10-critical-tech-trends-for-the-next-five-years/>.

No hay dudas de que la competitividad en la productividad de los negocios y las tecnologías seguramente van a converger a las exploraciones en Big data[1].

BD aparece listada en:

Top 10 Strategic Technology Trends For 2013 [2]Top 10 Critical Tech Trends For The Next Five Years [3]

Page 22: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

BD

Data-intensive applications, challenges, techniques and technologies: A survey on Big DataC.L. Philip Chen, Chun-Yang Zhang, Information Sciences 275 (2014) 314–347

Richard T. Kouzes, Gordon A. Anderson, Stephen T. Elbert, Ian Gorton, Deborah K. Gracio, The changing paradigm of data-intensive computing, Computer 42 (1) (2009) 26–34.

BD representa una oportunidad:

Tomar decisiones basadas en el uso intensivo de los datos.

BD representa un reto:

Hay que manejar inconsistencias, datos incompletos, escalabilidad, corriente continua de datos, problemas de seguridad.

Se requieren nuevas tecnologías para el almacenamiento, operaciones de entrada/salida de datos y procesamiento.

Page 23: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

BD

Data-intensive applications, challenges, techniques and technologies: A survey on Big DataC.L. Philip Chen, Chun-Yang Zhang, Information Sciences 275 (2014) 314–347

Richard T. Kouzes, Gordon A. Anderson, Stephen T. Elbert, Ian Gorton, Deborah K. Gracio, The changing paradigm of data-intensive computing, Computer 42 (1) (2009) 26–34.

BD obliga a:

Trabajar con mucha informacion privada y romper con los enfoques clasicos de seguridad de los datos.

Manipular enormes cantidades de datos no estructurados.

Mucho intercambio y cooperacion internacional.

Romper con el enfoque relacional de las bases de datos.

Buscar nuevas alternativas para el procesamiento paralelo.

Page 24: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

24

El volumen de datoscrece exponencialmente Crecimiento x 44 de 2009 a 2020 De 0.8 zettabytes a 35ZB

Crecimiento exponencial en los datos generados/almacenados

1ª:Volumen

¿Qué es Big Data? 3 V’s de Big Data

Page 25: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

25

Los DATOS se generan muy rápido y necesitan ser procesados rápidamente

Online Data Analytics Decisiones tardías oportunidades perdidasA diferencia del clásico data warehouses que generalmente “almacena” data, big data es más dinámico, las decisiones tomadas usando BD pueden afectar los próximos datos.

Ejemplos: E-Promociones: Basadas en la posición actual e historial de

compra envío de promociones en el momento de comercios cercanos a la posición

Monitorización/vigilancia sanitaria: Monitorización sensorial de las actividades del cuerpo cualquier medida anormal requiere una reacción inmediata

2ª:Velocidad

¿Qué es Big Data? 3 V’s de Big Data

Page 26: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

26

Varios formatos y estructuras:

Texto, numéricos, imágenes, audio, video, secuencias, series temporales …

Una sola aplicación puede generar muchos tipos de datos

Extracción de conocimiento Todos estos tipos de datos necesitan ser analizados

conjuntamente

Extracción de conocimiento Todos estos tipos de datos necesitan ser analizados

conjuntamente

3ª:Variedad

¿Qué es Big Data? 3 V’s de Big Data

Page 27: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

27

¿Qué es Big Data?

Big data incluye datos estructurados con datos no estructurados, imágenes, vídeos …

Page 28: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

28

4ªV

¿Qué es Big Data?

Veracidad

Veracidad4ª V

Page 29: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

29

¿Qué es Big Data?

5ªV = Valor

Aproximaciones

y tecnologías

innovativas

5 V’s --> Valor

Page 30: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

30

Big Data. Aplicaciones

Astronomía Telefonía

Procesamiento deinformación WEB

Tráfico en Internet

Transacciones de tarjetas de crédito

Genómica

Page 31: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

31

Tratamiento computacional

MapReduce: Paradigma de Programación para Big Data (Google)

Plataforma Hadoop (Open access)

Librería Mahout para Big Data. Otras librerías

Page 32: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

32

Escalabilidad de grandes cantidades de datos Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días Exploración en un clúster de 1000 nodos = 33 minutos

Solución Divide-Y-Vencerás

MapReduce– Modelo de programación de datos paralela

– Concepto simple, elegante, extensible para múltiples aplicaciones

• Creado por Google (2004)– Procesa 20 PB de datos por día (2004)

• Popularizado por el proyecto de codigo abierto Hadoop– Usado por Yahoo!, Facebook, Amazon, …

MapReduce

Page 33: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

33

Características División del problema en subproblemas que puedan ser

resueltos con los recursos computacionales existentes. Distribuir los subproblemas en un cluster de nodos de

trabajo. Resolver los problemas por separado y en paralelo. Combinar las soluciones encontradas a los

subproblemas para resolver el problema original. Concreción en dos pasos: Map step and Reduce step. Esencia: transferir código de programa a los nodos

de datos en lugar de transferir los datos a través de la red (supera el cuello de botella de la transferencia de datos en

aplicaciones distribuidas).

MapReduce

Page 34: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

MapReduce

MapReduce es el entorno más popular para Big Data

Basado en la estructura Valor-llave.

Dos operaciones:1. Función Map : Procesa

bloques de información2. Función Reduce function:

Fusiona los resultados previos de acuerdo a su llave.

+ Una etapa intermedia de agrupamiento por llave

J. Dean, S. Ghemawat, MapReduce: Simplified data processing on large clusters, Communications of the ACM 51 (1) (2008) 107-113.

mapmap map map

Shuffling: group values by keys

reduce reduce reduce

map (k, v) → list (k’, v’)reduce (k’, list(v’)) → v’’

(k , v)(k , v)(k , v) (k , v)

(k’, v’)(k’, v’)(k’, v’)(k’, v’)

k’, list(v’)k’, list(v’)k’, list(v’)

v’’v’’v’’

Page 35: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

35

Problema: encontrar el costo promedio por año a partir de una gran lista de registros de costos.

Cada registro puede contener valores para varios atributos, pero al menos incluye el año y el costo.

Función Map: extrae a partir de cada registro los pares <año,costo> y genera estos como salida.

Etapa Shuffle: agrupa los pares <año, costo> por el correspondiente año, creando una lista de costos por año <año, list(cost)>.

Etapa Reduce: computa el promedio de todos los costos contenidos en la lista de cada año.

MapReduce

Un ejemplo

Page 36: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

36

Hadoop

Storm

MapReduce: implementaciones

Variantes

Page 37: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

37

Hadoop

http://hadoop.apache.org/

Page 38: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

38

Map ReduceLayer

HDFSLayer

Task tracker

Task tracker

Jobtracker

Jobtracker

Task tracker

Task tracker

NamenodeNamenode

Data nodeData node

Data nodeData node

http://hadoop.apache.org/

Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop

Creado por Doug Cutting (chairman of board of directors of the Apache Software Foundation, 2010)

Hadoop

Page 39: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Desarrollos

Enfoque InMemoryHDFS Hadoop + SPARK

Ecosistema Apache Spark

Futura versión de Mahout con Spark

Page 40: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

40

Enfoque multidisciplinario para descubrir conocimiento

• Estadísticas, • Aprendizaje automático (machine learning),• Redes neuronales artificiales,• Reconocimiento de patrones,• Métodos de optimización,• Análisis de redes sociales, • Procesamiento de señales,• Visualización de datos.

Page 41: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

41

Mahout

Cuatro grandes áreas de aplicación

Agrupamiento

Sistemas de Recomendaciones

Clasificación

Asociación

Page 42: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

42

Mahout ¿Qué algoritmos puedo encontrar para Hadoop?

Analizamos 10 algoritmos muy conocidos

Hadoop

Palit, I., Reddy, C.K., 2012. Scalable and parallel boosting with mapReduce. IEEE TKDE 24 (10), pp. 1904-1916.

(Amazon EC2 cloud, CGL-MapReduce: (modelos iterativos de MapReduce)

Decision trees (C4.5, Cart)(MReC4.5)K-MeansSVMApriorikNNNaïve BayesEM (Expectation Maximization)PageRankAdaboost

No disponibles

MapReduce

Page 43: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Generation 1st Generation

2nd Generation 3nd Generation

Examples SAS, R, Weka, SPSS, KEEL

Mahout, Pentaho, Cascading

Spark, Haloop, GraphLab, Pregel, Giraph, ML over Storm

Scalability Vertical Horizontal (over Hadoop)

Horizontal (Beyond Hadoop)

Algorithms Available

Huge collection of algorithms

Small subset: sequential logistic regression, linear SVMs, Stochastic Gradient Descendent, k-means clustering, Random forest, etc.

Much wider: CGD, ALS, collaborative filtering, kernel SVM, matrix factorization, Gibbs sampling, etc.

Algorithms Not Available

Practically nothing

Vast no.: Kernel SVMs, Multivariate Logistic Regression, Conjugate Gradient Descendent, ALS, etc.

Multivariate logistic regression in general form, k-means clustering, etc. – Work in progress to expand the set of available algorithms

Fault-Tolerance

Single point of failure

Most tools are FT, as they are built on top of Hadoop

FT: HaLoop, SparkNot FT: Pregel, GraphLab, Giraph

Page 44: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

44

Granular computing“… there is an assumption that divide and conquer method can be used to improve the existed knowledge reduction algorithms in rough set theory and granular computing. It may be a good way to solve the problem of huge data mining.”

Huge Data Mining Based on Rough Set Theory and Granular Computing. Feng Hu ; Wang, Guoyin. Proc. De Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT '08. IEEE/WIC/ACM International Conference on  (Volume:3 ), pp. 655 – 658. ISBN: 978-0-7695-3496-1, IEEE Press. Sydney, Australia.

Una alternativa para BD

Page 45: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

45

Granular computing“Soft Computing being regarded as a plethora of technologies of fuzzy sets (or Granular Computing), neurocomputing and evolutionary optimization brings forward a number of unique features that might be instrumental to the development of concepts and algorithms to deal with big data.”

Information Granularity, Big Data, and Computational Intelligence. Witold Pedrycz, Shyi-Ming Chen (Eds). ISBN: 9783319082530, Springer, p. 444. 2014.

Una alternativa para BD

Page 46: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

46

Granular computing“Granular computing (GrC) is an emerging computation theory to build an efficient computational model for complex applications with huge amounts of data, information and knowledge.”

2014 IEEE International Conference on Granular Computing, Oct 22-24, 2014, Noboribetsu, Hokkaido, JAPAN.

Una alternativa para BD

Page 47: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Granular computing y Big data

La computación granular es una de alternativas para tratar a Big data.

Big data grandes volúmenes de datos

Computación granular abstracción reducción de datos

Granular computing Big data

Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. C.L. Philip Chen, Chun-Yang Zhang. Information Sciences 275 (2014) 314–347

Page 48: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Descubrimiento de conocimiento

Problema/Datos Brutos

Datospara Análisis

DatosPreprocesados

Patrones/Modelos

Conocimiento

Selección

Preprocesamiento

Minería de Datos

InterpretaciónEvaluación

Procesamiento de datos: Disponer de datos de calidad previos al uso de algoritmos de extracción de conocimiento.

Page 49: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

preprocesamiento

Preprocesamiento de DatosPreprocesamiento de Datos

Granulación de la información

Nuevo!

Page 50: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Reducción de Datos

Selección deCaracterísticas

Selección de Instancias

AgrupamientoCompactación

Discretización

PREPROCESAMIENTO de Datos: MEJORAR CALIDAD DE LOS DATOS

Page 51: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Computación granular (granular computing)

Termino usado para cubrir cualquier teoría, metodología, técnicas y herramientas que hacen uso de gránulos (subconjuntos del universo) en la solución de problemas.

La granulación facilita transformar los datos en conocimiento.

Yao, Y.Y., Granular computing: basic issues and possible solutions,Proceedings of the 5th Joint Conference on Information Sciences, 186-189, 2000.Yao, Y.Y., Information granulation and rough set approximation, Inter-national Journal of Intelligent Systems, 16, 87-104, 2001.Yao, Y.Y., Probabilistic Approaches to Rough Sets. Expert Systems, Vol. 20, No. 5, 287-297, 2003.

Page 52: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Granular computing The term granular computing is first used by this speaker in 1996-97 to label a subset of Zadeh’s granular mathematics as his research topic in BISC.

(Zadeh, L.A. (1998) Some reflections on soft computing, granular

computing and their roles in the conception, design and utilization of information/intelligent systems, Soft Computing, 2, 23-25.)

Page 53: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Computación granular (granular computing)

Granulación del universo descomposición del universo en familias de subconjuntos (agrupamientos de los objetos en gránulos).

Granulo conjunto de objetos inseparables, similares.

Granulo grupos, clases, intervalos, clusters

Los elementos dentro de un granulo se consideran como un todo, en lugar de individualmente.

Zadeh, L.A. Towards a theory of fuzzy information granulation and itscentrality in human reasoning and fuzzy logic, Fuzzy Sets and Systems,19, 111-127, 1997.

Page 54: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Computación granular (granular computing)

Granulo intención descripción propiedades del granulo.

Granulo extensión elementos que conforman la descripción

Grupo de objetos Granulo

Vecindad espacial, closeness, cohesión, etc.

Page 55: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Granulación: métodos

• Cómo juntar objetos para formar un granulo?

• Métodos de construcción gránulos, vistas granuladas, y jerarquías.

Page 56: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Computación granular

Diferentes niveles de granulación.

Comprensión del problema difiere dependiendo del nivel de la granulación.

Ejemplos de granulación:

Partición. Cubrimiento.

Page 57: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Tipos de granulación

A partition

Granule A

Granule B

f, g, h i, j, k

Granule Cl, m, n

Page 58: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Cubrimiento

Given a granulation(has overlapping)

Neighborhood A

Neighborhood B

f, g, h

i, j, k, l

Neighborhood C

m, n

Page 59: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Computación con Gránulos

Mappings:Las conexiones entre diferentes perspectivas de

granularidad pueden ser definidas como mappings.

Granularidad condicional Vs

Granularidad de decisión

Page 60: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Computación granular

Granular computing incluye metodologías computacionales basadas en:

• Lógica borrosa (fuzzy logic), • Computación con palabras (computing with words), • Computación con intervalos (interval computing), • Conjuntos aproximados (rough sets), etc.

Feature Subset Selection using Granular InformationShounak Roychowdhury0-7803-7078-3/24M1 IEEE, pp 2041-2044

Page 61: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Fuzzy Sets - 1965 Lotfi Zadeh, Berkely

Fuzzy sets son conjuntos cuyos elementos tienen grados de membresía, como una extensión de teoría de conjuntos clásica.

Big Data: Selected Computational Intelligence approaches

Page 62: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Fuzzy (F)-Granulation:

1

0.5

Feature j

Mem

ber

ship

val

ue

low medium high

cLcM cH

L M

function

Page 63: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Variable lingüística

Agresividad

Membership (Degree of

Truth)1.0

0.0

-1 1 0 0.5

Medio AltoBajo

Page 64: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Computación granular con FS

example: rule set

R : if X is small then Y is small

if X is medium then Y is large

if X is large then Y is small

1

medium large

0

small

vLAZ 09-12-00

Page 65: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

La estructura básica de un SIB

Page 66: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Rough SetsRough Sets

UncertaintyHandling

GranularComputing

(Using lower & upper approximations) (Using information granules)

Page 67: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Computación granular con RS

Granulación en RST:

• clase de equivalencia es un granulo.• partición es una granulación del universo.

Particionamiento del universo según los rasgos de condición Conditional granules.

Particionamiento del universo según el rasgo de decisión Decision granules.

Granular Rough Theory: A representation semantics oriented theory of roughness. Bo Chen, Ming Sun, Mingtian ZhouApplied Soft Computing 9 (2009) 786–805

Page 68: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

EJEMPLOS DE GRANULOS

GC={P2,P5} GD={P1, P2, P3, P6}

Paciente Dolor de cabeza

Dolor muscular

Temperatura

Gripe

P1 no si alta Si

P2 si no alta Si

P3 si si muy alta Si

P4 no si normal No

P5 si no alta No

P6 no si muy alta Si

Page 69: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

EJEMPLOS DE GRANULOS Ai(x)Ai(y) |Ai(x)-Ai(y)|1 GC={P2,P4} GD={P1, P2, P4}

Paciente Presión Peso Volumen Energía

P1 18 100 78 78

P2 31 89 67 78.9

P3 8 90 65 56

P4 30.9 89.3 66.2 79

P5 2 8 9 11

P6 50 67 66 87

Page 70: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

d A U,DS

La Teoría de Conjuntos Aproximados (Rough Sets Theory, RST) fue introducida por Z. Pawlak en 1982.

Pawlak, Z. (1982). "Rough Sets." International journal of Computer and Information Sciences 11: 341-356.

Page 71: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Donde denota la clase de x de acuerdo a la relación de inseparabilidad B.

Bx][

)()( yaxa ii

Los objetos (x,y) son inseparables si tiene igual valor para un subconjunto de rasgos.

B RE

Page 72: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Ejemplo:temperatura = 37.8 grados puede ser considerada igual a otra de 37.9 grados, al medir la temperatura corporal de dos personas.

d A U,DS

Alternativas

Slowinski, R. and D. Vanderpooten (1997). Similarity relation as a basis for rough approximations. Advances in Machine Intelligence & Soft-Computing. IV: 17-33.Pawlak, Z. and A. Skowron (2007). "Rough sets: Some extensions." Information Sciences 177: 28-40.

dominios

Page 73: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Aproximaciones Inferior y SuperiorEjemplo de DS

X1R X2R

U Headache Temp. FluU1 Yes Normal NoU2 Yes High YesU3 Yes Very-high YesU4 No Normal NoU5 NNNooo HHHiiiggghhh NNNoooU6 No Very-high YesU7 NNNooo HHHiiiggghhh YYYeeesssU8 No Very-high No

Page 74: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Aproximaciones Inferior y Superior

R = {Headache, Temp.}U/R = { {u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}}

X1 = {u | Flu(u) = yes} = {u2,u3,u6,u7}X2 = {u | Flu(u) = no} = {u1,u4,u5,u8}

RX1 = {u2, u3}

= {u2, u3, u6, u7, u8, u5}

RX2 = {u1, u4}

= {u1, u4, u5, u8, u7, u6}

X1R

X2R

u1

u4u3

X1 X2

u5u7u2

u6 u8

Page 75: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Reducto.

Dado un sistema de información S=(U,A), donde U es el universo y A es el conjunto de atributos, un reducto de este es un conjunto mínimo de atributos BA tal que IA = IB.

Page 76: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Aplicabilidad de la RST en el Aprendizaje automático

a) Análisis de los atributos a considerar. Selección de los atributos. Análisis de la dependencia entre atributos. Reducción de atributos. Calculo de la importancia de un atributo. Calculo de la calidad de un Training set.

b) Formulación del conocimiento descubierto. Descubrimiento de reglas causales. Cálculo de la certidumbre de las reglas causales.

Page 77: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Big Data + Granular computing (fuzzy)

On the use of MapReduce to build Linguistic Fuzzy Rule BasedClassification Systems for Big Data

Fuzzy Rule Based Classification Systems (FRBCSs) son un método efectivo para la clasificación afectado por el crecimiento exponencial del espacio de búsqueda (caso BD)

CI approaches

Page 78: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Fuzzy Rule Based Classification Systems en Big Data

Alternativas para grandes datos:

Distribuir la creación de la base de reglas.Paralelización del método de construcción de las reglas.

Modificar para BD

Modelos existentes no adecuados para BD.

Y.Jin,Fuzzy modeling of high-dimensional systems: complexity reduction and interpretability improvement, IEEE Trans. Fuzzy Syst. 8(2) (2000) 212–221

CI approaches

Page 79: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Chi-FRBCS-BigData

Diseño basado en MapReduce. Usa dos procesos diferentes de MapReduce

Fase 1: Construir la Fuzzy Rule Base Fase 2: Estimar las clases de los ejemplos

pertenecientes al big data Dos versiones las cuales difieren en la función

Reduce Chi-FRBCS-BigData-Max Chi-FRBCS-BigData-Average

V. López, S. Río, J.M. Benítez, F. Herrera, On the use of MapReduce to build Linguistic Fuzzy Rule Based Classification Systems for Big Data. Fuzz-IEEE Conference, 2014.

Big Data + Granular computing (fuzzy)

Page 80: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Building the RB with Chi-FRBCS-BigData

Train set map1

Train set mapn

Train set map2

RB1

RB2

RBn

Mappers RB generation

Original train set

RBR

Final RB generation

RBR

DB

Final KB

INITIAL MAP REDUCE FINAL

La clave del enfoque de particionamiento de datos de MapReduce es usualmente la fase reduce: Dos alternativas de reducers (Max vs average weights)

Big Data + Granular computing (fuzzy)

Page 81: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

ROUGH SETS y BIG DATAQué hacer cuando el tamaño del sistema de decisión es extremadamente grande para computar con eficiencia los conceptos de la RST y aplicar los métodos basados en ellos para el descubrimiento de conocimiento?

Complejidad computacional de encontrar las

aproximaciones: O(lm2),

Costo computacional de encontrar un reducto:

acotado por l2m2.

l es el cantidad de atributos que describen los objetos

m es la cantidad de objetos en el universo.

Page 82: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

ROUGH SETS y BIG DATA

COMPUTAR LA RST BASADO EN MAPREDUCE.

HADOOP FILE SYSTEM AND FUNDAMENTAL CONCEPT OF MAPREDUCE INTERIOR AND CLOSURE ROUGH SET APPROXIMATIONSInternational Journal of Advanced Research in Computer and Communication EngineeringVol. 2, Issue 10, pp 3960-3963, October 2013

Page 83: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

ROUGH SETS y BIG DATA

Diseñar algoritmos paralelos para computar;•Clases equivalencias,•Clases de decisión,•Asociaciones entre las clases de equivalencia y las clases de decisión. •Aproximaciones.

A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223

Page 84: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

ROUGH SETS y MapReduceACCIONES PARA COMPUTAR ROUGH SETS EN EL CONTEXTO DE BIGDATA

Dado un sistema información S(U, A{d}):

•Particionar el universo U.•A partir de cada subconjunto construir las clases de equivalencia usando la función Map.•Estas clases de equivalencias se pueden combinar si ellas tienen la misma información respecto a los atributos de condición en A.•A partir de cada subconjunto construir las clases de decisión de acuerdo al rasgo de decisión d.•Estas clases de decisión se pueden combinar si ellas corresponden al mismo valor de decisión.

Estos pasos se pueden ejecutar en paralelo.

A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223

Page 85: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

ROUGH SETS y MAPREDUCEDado el sistema de decisión S = (U,C D).

Creación de subsistemas {S1, S2, …, Sm}, donde Si = (Ui,C D) U=UiConstrucción de clases de equivalencia para cada subsistema Si, i {1, 2, . . .,m}, Ui/B, B C

Teorema:Para cada subsistema se pueden computar las clases de equivalencia independientemente. Las clases de equivalencia de diferentes subsistemas se pueden unir si su información es la misma.Por eso, las clases de equivalencias del sistema de decisión S se pueden computar en paralelo.

U/B= {E1,E2, . . .,Et} Ui/B={Ei1; Ei2; . . . ; Eipi}. Ej= {F Eall : FB= EjB}

A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223

Page 86: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Agregación de clases de Agregación de clases de equivalenciaequivalencia

Page 87: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Computo de las aproximaciones con MAPREDUCE

Dado el sistema de decisión S = (U,C D). Si = (Ui, C D) U=UiU/B= {E1,E2, . . .,Et} Ui/B={Ei1; Ei2; . . . ; Eip i}.U/D = {D1,D2, . . .,Dr}, i {1, 2, . . .,m}, Ui/D={Di1; Di2; . . . ; Diqi}.

•Las clases de decisión y de equivalencia pueden ser calculadas en paralelo según MapReduce.•Las asociaciones entre las clases de equivalencia y las clases de decisión también se pueden computar en paralelo.•Las aproximaciones inferior y superior se computan mediante las asociaciones entre las clases de equivalencia y las clases de decisión.•Las aproximaciones obtenidas en paralelo son las mismas obtenidas por el método serial.

TODO DEMOSTRADO EN TEOREMAS DEL ARTICULO:

A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223

Page 88: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

RST + MAPREDUCE en MLBasado en la implementación de RST sobre MapReduce publicado en:

A parallel method for computing rough set approximations. Junbo Zhang, Tianrui Li, Da Ruan, Zizhe Gao, Chengbing Zhao. Information Sciences 194 (2012) 209–223.

Se han desarrollado aplicaciones para el descubrimiento de conocimiento:

J. Zhang, T. Li, and Y. Pan, “Parallel rough set based knowledge acquisition using mapreduce from big data,” in Proceedings of the 1st International Workshop on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications, ser. BigMine ’12. New York, NY, USA: ACM, 2012, pp. 20–27.

PLAR: Parallel Large-scale Attribute Reduction on Cloud SystemsJunbo Zhang,Tianrui Li_, Senior Member, IEEE, and Yi Pan, Senior Member, IEEE

Page 89: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

RST + MAPREDUCE en selección de rasgosAlgoritmo paralelo para la reducción del sistema de informacion

Input: A decision table S = ∪Si DIVISION EN SUBSISTEMAS Output: reduction of S

1. Computar reducción Redi a partir de los subsistemas Si.2. Agregar los atributos resultantes en AttrSet (en ∪Redi).3. Eliminar los rasgos redundantes.

Attribute Reduction for Massive Data Based on Rough Set Theory and MapReduce. Yong Yang, Zhengrong Chen, Zhu Liang, and Guoyin Wang. LNAI 6401, pp. 672–678, 2010. 

Page 90: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

Otros métodos de descubrimiento de conocimiento usando RS en Big data

Parallel rough set based knowledge acquisition using MapReduce from big data.Junbo Zhang, Tianrui Li, Yi Pan. Proceedings of the 1st International Workshop on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications, pp. 20-27. ACM Press. ISBN: 978-1-4503-1547-0. 2012.

An agent model for incremental RS-based rule induction: a big data analysis in sales promotion. Yu-Neng Fan, Ching-Chin Chern. 46th Hawaii International Conference on System Sciences. © 2012 IEEE DOI 10.1109/HICSS.2013.79 pp. 985-994. 

Page 91: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

91

Desafíos en Big Data

Comentarios Finales

http://www.kdnuggets.com/2013/12/3-stages-big-data.htmlBy Gregory Piatetsky, Dec 8, 2013.

En muchas nuevas aplicaciones – reconocimiento facial, comprensión del habla, recomendaciones, detección de fraudes – mas datos no produce mejores resultados

Para ayudar a esclarecer los diferentes significados de "Big Data", el Dr. Piatetsky propuso considerar 3 etapas para Big Data.

Page 92: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

92

http://economia.elpais.com/economia/2013/09/27/actualidad/1380283725_938376.html

Comentarios Finales

La demanda de profesionales formados en Ciencia de Datos y Big Data es enorme.

Se estima que la conversión de datos en información útil generará un mercado de 132.000 millones de dólares en 2015 y que se crearán más de 4.4 millones de empleos.

España necesitará para 2015 más de 60.000 profesionales con formación en Ciencia de Datos y Big Data.

Oportunidades en Big Data

Una demanda creciente de profesionales en “Big Data” y “Ciencia de Datos”

Page 93: Analizando tendencias actuales en el análisis de datos: combinando Business analytics, Big data y Granular computing Rafael Bello Pérez Departamento de.

http://www.informaticahabana.cu/

III International Conference on Informatics and

Computer Sciences (CICCI 2016)For further information please

contact Dra. Yailén Martínez, [email protected].

https://www.facebook.com/CICCI.Informatica.Cuba


Recommended