Date post: | 13-Apr-2017 |
Category: |
Technology |
Upload: | ismel-diaz |
View: | 15 times |
Download: | 5 times |
Data Warehousing con Hadoop y el paradigma MapReduce
Ismel Martínez Díaz
Motivación y Antecedentes de Hadoop• Alto volúmenes de datos• Variedad de formatos• Alta velocidad de generación de datos
• Sistemas de bases de datos distribuidos• Programación funcional
Historia• Creador: Doug Cutting• 2002 Nutch• 2004 GFS y MapReduce• 2006 – 2008 Hadoop (HDFS y MapReduce)• Actualidad: CloudEra y HortonWorks (Hive, Pig, HBase, etc)
Hadoop• Proyecto Open Source• Procesamiento de grandes cantidades de datos• Computación distribuida• Escalable, fiable, eficiente y económico
HDFS• Fallos en el hardware y uso de heartbeats• Millones de archivos y espacio de nombres único• Portabilidad• Escribir una vez, leer varias• Archivos divididos en bloques y replicación.• Acceso directo a los datos y validación.
MapReduce• Programación funcional para la computación distribuida.
HDFS y MapReduce• Útil• Sencillo• Pensamiento funcional y distribuido
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
OutputFormar
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
OutputFormar
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
OutputFormar
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
Cliente JobTracker
TaskTracker
map
InputFormat
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
MapTask
OutputFormar
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
OutputFormar
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
Cliente JobTracker
TaskTracker
map
InputFormar
combine()reduce()
regionregion
ram TaskTracker
read
sort
reduce()
OutputFormar
InputFiles
split
split
split
OutputFile
TaskTracker
TaskTracker
regionregion
regionregion
Ejemplo
HDFS y MapReduce
Ecosistema Hadoop
Servicios profesionales
RDBMS y Hadoop
RDBMS y Hadoop
Data Warehousing con Hadoop
Data Warehousing con Hadoop
Hive
Gracias