Data warehousing con hadoop y el paradigma map reduce

Data Warehousing con Hadoop y el paradigma MapReduce

Ismel Martínez Díaz

Motivación y Antecedentes de Hadoop• Alto volúmenes de datos• Variedad de formatos• Alta velocidad de generación de datos

• Sistemas de bases de datos distribuidos• Programación funcional

Historia• Creador: Doug Cutting• 2002 Nutch• 2004 GFS y MapReduce• 2006 – 2008 Hadoop (HDFS y MapReduce)• Actualidad: CloudEra y HortonWorks (Hive, Pig, HBase, etc)

Hadoop• Proyecto Open Source• Procesamiento de grandes cantidades de datos• Computación distribuida• Escalable, fiable, eficiente y económico

HDFS• Fallos en el hardware y uso de heartbeats• Millones de archivos y espacio de nombres único• Portabilidad• Escribir una vez, leer varias• Archivos divididos en bloques y replicación.• Acceso directo a los datos y validación.

MapReduce• Programación funcional para la computación distribuida.

HDFS y MapReduce• Útil• Sencillo• Pensamiento funcional y distribuido

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormat

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

OutputFormar

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

OutputFormar

InputFiles

split

split

split

OutputFile

TaskTracker

TaskTracker

regionregion

regionregion

Ejemplo

HDFS y MapReduce

Ecosistema Hadoop

Servicios profesionales

RDBMS y Hadoop

RDBMS y Hadoop

Data Warehousing con Hadoop

Data Warehousing con Hadoop

Hive

Gracias

Date post:	13-Apr-2017
Category:	Technology
Upload:	ismel-diaz
View:	15 times
Download:	5 times

Data warehousing con hadoop y el paradigma map reduce

Technology