+ All Categories
Home > Documents > Introducción a Big Data - SPRI

Introducción a Big Data - SPRI

Date post: 01-Oct-2021
Category:
Upload: others
View: 2 times
Download: 0 times
Share this document with a friend
33
www.consultec.es Introducción a Big Data
Transcript
Page 1: Introducción a Big Data - SPRI

www.consultec.es  

Introducción a Big Data

Page 2: Introducción a Big Data - SPRI

www.consultec.es  

Quiénes somos?

Gorka  Armen+a  Developer  

[email protected]  @joruus  

Iñaki  Elcoro  Developer  

[email protected]  @iceoverflow  

Page 3: Introducción a Big Data - SPRI

Índice

1.  Introducción 2.  ¿Qué no es Big Data? 3.  ¿Qué es Big Data? 4.  Utilidades 5.  Ejemplo real: Walmart 6.  Características Técnicas 7.  Markets de Datos 8.  Hadoop 9.  Microsoft HDInsight 10. Demo

Page 4: Introducción a Big Data - SPRI

www.consultec.es  

Introducción

“Big Data” es desde hacer un par de años una de las grandes tendencias dentro del mundo de la tecnología y del marketing, uno de esos “buzzwords” que en un momento dado empiezan a propagarse y aparecer por todo internet, las grandes empresas se interesan por ello, se crea una industria alrededor y, de repente, todo el mundo sabe lo que es Big Data. O no …

BIG DATA

Page 5: Introducción a Big Data - SPRI

www.consultec.es  

¿Qué no es Big Data?

Antes de empezar, lo primero es desengañarnos.

•  Big Data no es una base de datos enorme

•  Big Data no es un data warehouse enorme

•  Big Data no es una nueva forma de Business Intelligence

•  Big Data no es llevar las base de datos a la nube

Page 6: Introducción a Big Data - SPRI

www.consultec.es  

¿Qué es Big Data? - Situación actual

Bases  de  Datos  

Relacionales  

Bases  de  Datos  

Analí+cas  (Data  

Warehouse)  

Archivos  (XML,  Logs,  …)  

ERP/CRM  

Redes  Sociales  

Base  de  Datos  NoSQL  

APIs  

Sensores  

RFID  

Información  generada  por  apps  móviles  

Y  mucho  más.      

Y  lo  que  está  por  venir  …  

Big  Data  

GPS  

Internet  de  las  Cosas  

Información  generada  por  máquinas  

eMails  

Page 7: Introducción a Big Data - SPRI

www.consultec.es  

¿Qué es Big Data? - Definiciones

Definiciones encontradas en internet

•  Información que tiene un orden de magnitud más grande de lo que

estamos acostumbrados.

•  Información que es muy grande y no se ajusta a las estructuras de las

bases de datos actuales.

•  Es un conjunto de datos cuyo tamaño está más allá de la capacidad de la

mayoría de los software utilizados para capturar, gestionar y procesar la

información dentro de un lapso tolerable de tiempo.

Page 8: Introducción a Big Data - SPRI

www.consultec.es  

¿Qué es Big Data? - Las 3 Vs

Volume: grandes volúmenes de información •  Se está pasando de hablar en Gigabytes o Terabytes a tamaños de datos de

Petabytes, Exabytes o Zettabytes. Volúmenes que se nos escapan.

Page 9: Introducción a Big Data - SPRI

www.consultec.es  

¿Qué es Big Data? - Las 3 Vs

Variety: información de tipos muy diversos •  Ya no solo tenemos información estructurada en Bases de Datos o Archivos.

Ahora empezamos a tener información con tipos diferentes y totalmente desestructurada.

Page 10: Introducción a Big Data - SPRI

www.consultec.es  

¿Qué es Big Data? - Las 3 Vs

Velocity: velocidad con la que se genera la información •  La velocidad a la que se genera esta información hace imposible gestionarla

con sistemas de base de datos convencionales. Las empresas y las personas ya no quieren estar al día, quieren “estar al segundo”.

Page 11: Introducción a Big Data - SPRI

www.consultec.es  

¿Qué es Big Data? – Retos actuales

•  Dar sentido al gran volumen de datos

•  Necesitamos las herramientas adecuadas para dar sentido de la abrumadora cantidad de datos generados por la disminución de los costos de hardware y de las fuentes de datos “complejas”.

•  La comprensión de una variedad cada vez mayor de datos

•  Debemos poder analizar datos tanto relacionales como no relacionales. Más del 85% de los datos capturados son desestructurados.

•  Habilitación de análisis en tiempo real de los datos

•  Los nuevos grandes generadores de datos (Twitter, Facebook, …) están produciendo volúmenes de datos sin precedentes y en tiempo real, lo que no se puede analizar eficazmente mediante procesos por lotes normales.

Page 12: Introducción a Big Data - SPRI

www.consultec.es  

Experiencia  Contexto  

¿Qué es Big Data? - Entendimiento: de los datos a la sabiduría

Sabiduría  

Conocimiento  

Información  

Datos  

Relaciones  

Patrones  

Principios  

Page 13: Introducción a Big Data - SPRI

www.consultec.es  

Utilidades

Toma de decisiones El valor del Big Data no es la información, sino la nueva forma de toma de decisiones basada en evidencias y datos empíricos.

Tomar decisiones en base a datos empíricos y tendencias Tomar decisiones en base a corazonadas, instinto o experiencias pasadas

Page 14: Introducción a Big Data - SPRI

www.consultec.es  

Utilidades

Transparencia Compartir y hacer accesible grandes volúmenes de datos a las partes interesadas y de manera oportuna puede crear un enorme valor y aumentar la eficiencia.

Page 15: Introducción a Big Data - SPRI

www.consultec.es  

Utilidades

Experimentación Una vez recopilados los datos que nos interesan, la experimentación y la exploración de los mismos puede mostrarnos información que a primera vista nunca hubiésemos encontrado o que nunca se nos hubiese ocurrido buscar.

Page 16: Introducción a Big Data - SPRI

www.consultec.es  

Utilidades

Innovación Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crear nuevos modelos de negocio.

Page 17: Introducción a Big Data - SPRI

www.consultec.es  

Ejemplo real: Walmart

•  Walmart es una multinacional de grandes almacenes

•  Es la segunda mayor empresa del mundo por ingresos

Page 18: Introducción a Big Data - SPRI

www.consultec.es  

Ejemplo real: Walmart

•  Algunos datos:

•  200 millones de clientes a la semana

•  10700 tiendas

•  27 países

•  2 millones de trabajadores

•  1,5 millones de transacciones por hora

•  Varios Terabytes de información generada en tiempo real

•  Base de datos de 3 Petabytes

Page 19: Introducción a Big Data - SPRI

www.consultec.es  

Ejemplo real: Walmart

Guardando todas las compras de todos los clientes se dieron cuenta que en época de huracanes los Walmart de las zonas afectadas vendían más cajas de Pop-Tarts que en otras épocas. Se indicó a los gerentes de las tiendas que en esas épocas pusiesen los Pop-Tarts en la entrada de las tiendas. Resultado: Aumento extraordinario de las ventas ¿A quién se le hubiese ocurrido cruzar los datos de ventas con los datos meteorológicos o con los calendarios de huracanes?

Page 20: Introducción a Big Data - SPRI

www.consultec.es  

Ejemplo real: Walmart

Hanna twitea:

“I love Salt!”. En unos segundos el Tweet llega a los sistemas de Walmart, se analiza y unos minutos más tarde le llega a una amiga suya el siguiente email:

“Buenos días! Nos pediste que te avisásemos cuando fuese el cumpleaños de Hanna. Pues ya está aquí y acaba de tweetear algo bueno sobre la película “Salt” de Angelina Jolie. ¿Quieres regalarle algo relacionado con ello? Tenemos algunas sugerencias que hacerte …”

Page 21: Introducción a Big Data - SPRI

www.consultec.es  

Ejemplo real: Walmart

Social Genome Base de conocimiento que captura entidades y relaciones del mundo social. Obtiene entidades de su base de datos, de otros datos tanto públicos como privados y de redes sociales.

Page 22: Introducción a Big Data - SPRI

www.consultec.es  

Ejemplo real: Walmart

Social Genome Se identifican las entidades “interesantes” y las relacionan entre sí, consiguiendo toda la información de la que son capaces. Es un sistema vivo, en constante evolución.

•  Una persona interesada en un tema

•  Una persona que asiste a un evento

•  Un evento sobre un tema

•  Una asociación entre empresa y producto

Page 23: Introducción a Big Data - SPRI

www.consultec.es  

Ejemplo real: Walmart

Resumiendo

Page 24: Introducción a Big Data - SPRI

www.consultec.es  

Características Técnicas

Arquitectura

•  Alta escalabilidad

•  Procesamiento paralelo

•  Baja latencia

•  Datos no estructurados y estructurados

•  NoSQL

•  By-pass de datos

Page 25: Introducción a Big Data - SPRI

www.consultec.es  

Características Técnicas

Key-Value Pair

•  La forma más sencilla de almacenamiento de datos en un entorno de Big Data y NoSQL

•  Los datos no están controlados por el sistema, por lo tanto los desarrolladores deberán pensar muy bien donde y como almacenan los datos

Page 26: Introducción a Big Data - SPRI

www.consultec.es  

Markets de Datos

Además de las fuentes de datos que tengamos en nuestra organización: bases de datos, emails, logs, documentos, etc … Podemos acceder a grandes volúmenes de datos (Data Sets) en los markets. Hay gratuitos y de pago.

Page 27: Introducción a Big Data - SPRI

www.consultec.es  

Hadoop

Es una plataforma diseñada para almacenar y analizar grandes volúmenes de datos de diferentes tipos. Basada en Google Map/Reduce y Google Filesystem.

•  Map/Reduce:

•  Map: trabajos desarrollados por nosotros. Se distribuyen las tareas en diferentes nodos y se ejecutan en paralelo. Esto genera una información intermedia.

•  Reduce: fusiona la información intermedia y se la ofrece al usuario.

•  HDFS (Hadoop Distributed File System):

•  Sistema de archivos distribuidos, con replicación automática y optimizado para lectura. Cada fichero se partición y se distribuye en todos los servidores.

Page 28: Introducción a Big Data - SPRI

www.consultec.es  

Hadoop

Otros proyectos alrededor de Hadoop

•  Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL (“SQL”).

•  Pig: Lenguaje de script para consulta y análisis de la información. Desarrollado por Yahoo!.

•  Sqoop: Framework para la integración de bases de datos relacionales.

•  Flume: Servicio para recolectar, agregar y mover grandes volúmenes de datos de eventos/logs.

•  …

Page 29: Introducción a Big Data - SPRI

www.consultec.es  

Microsoft HDInsight

•  Servicio basado en Hadoop.

•  Dos versiones: •  Windows Azure HDInsight (on-demand) •  HDInsight Server (on-premise)

Page 30: Introducción a Big Data - SPRI

www.consultec.es  

Microsoft HDInsight

•  Acceso a todo tipo de usuarios, incluidos desarrolladores y profesionales IT. Fácil instalación, administración y configuración.

•  Integración con herramientas conocidas como Excel, PowerPivot, PowerView, SQL Server Analysis Services o Reporting Services.

•  .NET SDK para Hadoop (a través e NuGet): •  Map/Reduce •  LINQ to Hive •  WebHDFS Client

Page 31: Introducción a Big Data - SPRI

www.consultec.es  

DEMO

Page 32: Introducción a Big Data - SPRI

www.consultec.es  

Gracias!

Page 33: Introducción a Big Data - SPRI

www.consultec.es  

¿Dudas?

Gorka  Armen+a  Developer  

[email protected]  @joruus  

Iñaki  Elcoro  Developer  

[email protected]  @iceoverflow  


Recommended