Big data lead colmex

Post on 11-Apr-2017

1,163 views 2 download

transcript

@abxda

¿Qué es Big Data?

@abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

@abxda

¿Qué es Big Data?

@abxda

Según Gartner:Big data is high-volume, high-velocity and high-variety information assets

that demand cost-effective, innovative forms of information

processing for enhanced insight and decision making.

http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf @abxda

¿Qué es Big Data?

Diciembre 2004

Octubre 2003

@abxda

¿Qué es Big Data?

2006> 100,000 Artículos

2007@abxda

Hadoop (2006 - 2008)

@abxda

Hadoop (2006 - 2008)

@abxda

¿Qué es Big Data? (2009 – 2016…)

@abxda

Matei Zaharia Ion Stoica

(2009 – 2016…)

@abxda

(2013)

@abxda

Big Data en las Oficinas Nacionales de Estadística

http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184

Comisión Económica de las Naciones Unidas para Europa

@abxda

• It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept.• Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose.

Big Data en las Oficinas Nacionales de Estadística

@abxda

• 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing.• To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills)

Big Data en las Oficinas Nacionales de Estadística

@abxda

@abxda

Experto encomputación ydesarrollo avanzados(Big Data)

Experto enModelado

Estadístico

Experto enel dominio de

datos

Unicornio

Zonapeligrosa!

Investigacióntradicional

Machinelearning

CIENCIADE

DATOS

http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html @abxda

Equipo Big Data• Expertos en el Dominio de los Datos, Especialistas en el área de

interés.(Economistas, Expertos en percepción remota, Psiquiatras, etc…)• Científicos de Datos, expertos en integracion de soluciones Big

Data (MapReduce, Scala, Machine Learning, Spark, R, Estadística).• Estadisticos, expertos en modelado estadistico, enfoque en

aprendizaje estadístico (R).• Desarrolladores de Software, expertos en desarrollo de software

(JavaScript, Arquitecturas de Software, Patrones de Diseño, Api’s REST).• Diseñadores Gráficos, expertos en presentación de información

(HTML5, CSS3, JavaScript, Twitter Bootstrap).• Administradores de Sistemas, expertos en arquitecturas de

computo, infraestructura. Desde redes a clusters de computadoras (Linux).

#sgvirtual

@abxda

Internet de las cosas

Internet de las personas

Internet de las ideas

Internet del todo

Datos Crudoshdfs://

Información(Significado)

TomarDecisiones

Actuar

¿quién?¿cuántos?

¿por qué?

¿qué?¿Dónde?

Análisis de DatosEstadística Machine Learning

Estratificaciones

Análisis de Regresión

Muestreo

Mucho más…Análisis de Redes (Grafos)

Minería de Datos

Velocidad

Varie

dad

VolumenCiencia de Datos

(Transforma/Modela)Cómputo Distribuido y Paralelo

ArquitecturaBig Data/Ciencia de Datos

@abxda

%Acceso a Internet, %Pc, %Telefono Celular, %Automovil

En la misma Pc de 4 Procesadores:(2013)

Software Tiempo Manzanas

Big Data (Spark)

8 Seg. 1’221,180

Tradicional (R)

8 Seg. 2,666

https://spark.apache.org/

2013

@abxda

Twitter como fuente de Big Data (Primer Proyecto Piloto)Para medir el pulso emotivo de México …y mucho más …

@abxda

Hydra

Octubre 2013INEGI

@abxda

Visualización de la Base de Datos

200 Millones de Tuits400 Gb800 Mb Diarios

@abxda

Visualización de la Base de Datos

~100 Millones de Tuits

@abxda

Frecuencia de Tuiteo

# Tuits

Frecuencia por hora del día

~1,000,000 Tuiteros generaron ~ 100 Millones de Tuits

Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros

@abxda

Equipo de Trabajo

Dr. Oscar S. Siordia osanchez@centrogeo.edu.mx

Dr. Mario Graffmario.graff@infotec.com.mx Dra. Daniela Moctezuma

dmoctezuma@centrogeo.edu.mx

Dr. Elio Villaseñorelio.villaseñor@infotec.com.mx

Dr. Eric Tellezeric.tellez@infotec.com.mx

Dr. Sabino Mirandasabino.miranda@infotec.com.mx

Dr. Gerardo Leyvagerardo.leyva@inegi.org.mx

Dr. Alfredo Bustosalfredo.bustos@inegi.org.mx

Mtro. Abel Coronadoabel.coronado@inegi.org.mx

Ing. Silvia FraustroSilvia.fraustro@inegi.org.mx Y el apoyo de:

Dr. Juan Muñoz LópezJuan.munoz@inegi.org.mx

Ing. Ricardo OlveraRicardo.olvera@inegi.org.mx

Y en la parte de visualización:Lic. Marco IbarraMarco.ibarra@inegi.org.mx

@abxda

@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

Horarios de Tuiteo cerca de algún sector

@abxda

4.9 M de Polígonos de Voronoi (DENUE)

@abxda

Big Spatial Join (4.9 M DENUE +60 M Tweets)

@abxda

SpatialSpark (Nov. 2015)

@abxda

SpatialSpark: Open Source

@abxda

DENUE - Twitter

@abxda

Siguientes Pasos

• Colaboraciones Internacionales con ONU, para explorar el uso de Big Data en el calculo de los Indicadores de Desarrollo Sostenible.• Ampliar los trabajos a mas Fuentes de Big Data:

Datos de Telefonía Móvil, Imágenes de Satélite, etc.• Salud Mental en Adolescentes con Data2x y

Instituto Nacional de Psiquiatría• Producto del Ánimo Tuitero en Tiempo Real

@abxda

Preguntas

@abxda

abel.coronado@inegi.org.mx@abxda