Windows Azure Connecy -...

transcript

HDInsight Big Data, al estilo Microsoft

• SQL/BI Team Lead palvarez@plainconcepts.com http://geeks.ms/blogs/palvarez @PabloDoval

PABLO DOVAL

Big Data

Categoría Metrica Mayor base de datos 100 TB Tabla mas grande 1.5 trillones de filas Mayor conjunto de datos en una sola aplicación 92 PB Mayor número de transacciones/seg. (en 1 servidor) 130,000

Subsistema de E/S más rápido (SQLIO: lecturas en serie de 64k)

18 GB/s.

Menor latencia en cubo Latencia en ms.

Carga de 1TB de datos 30 minutos Mayor cubo MOLAP 24 TB

ALGUNAS ESTADÍSTICAS DE SQL SERVER

Fast Track

ARQUITECTURA DE REFERENCIA

•••

Diseño Hardware: • Especificación concreta de servidores,

almacenamiento y red. • Recursos Balanceados y Equilibrados • Servidores y Almacenamiento de última

generación

•••••

• RDBMS distribuido, paralelo, “Shared-nothing” • Particionado de consultas y datos • Proporciona una vista única de un cluster de SQL Servers

• Appliance • Software + hardware • HP, Dell, NEC

• Optimizado para DW • Bulk loads (1.2 – 2.0 TB/hora) • Scans (700 TB en 3 horas)

• Escala de 0 Terabytes al rango de petabytes

PARALELL DATA WAREHOUSE

ARQUITECTURA (I)

Computación

Nodos de Control (Activo / Pasivo)

Nodo de Reserva

SQL Drivers Cliente (ODBC, OLE-

DB, ADO.NET)

Monitorización

Interfaz ETL

Solución de Backup

ARQUITECTURA (II)

Compute Nodes Compute Nodes

Nodo de Computación

Query Tool

MS BI (AS, RS)

Nodo de Control

3rd Party Tools DWSQL

Landing Zone

Internet Explorer

SQL Server

DW Authentication

DW Configuration

DW Schema TempDB

SQL Server User Data

Data Movement Service

Data Movement

Service

Data Movement Service

PDW Engine

Admin Console Data Access

(OLEDB, ODBC, ADO.NET, JDBC)

SISTEMA TRADICIONAL

RESUMEN

Hadoop NO es lo mismo que Big Data

Big Data es: una solución para almacenar y procesar Datos NO estructurados Y Datos estructurados conjuntamente

Big Data • NO es una Base de Datos

ENORME • NO es un Data

Warehouse ENORME

Hadoop

Open Source data management with scale-out storage & processing

APACHE HADOOP

MapReduce

• Divide las tareas entre procesadores ‘cercanos’ a los datos

• Compone los resultados

• Almacenamiento distribuido

• Auto-reparable • Redundante • Nodo maestro

(NameNode)

• Escalable – Cantidades masivas de datos (Pb) – Escalado (casi) lineal Almacenamiento Redundante – Failover entre nodos y racks

• Flexible – Cualquier tipo de datos, en cualquier formato – El esquema se aplica en lectura

• Económico – Empleo de hardware no especifico

CARACTERÍSTICAS

ECOSISTEMA HADOOP

Almacenamiento Distribuido (HDFS)

Procesado Distribuido (Map Reduce)

RDBMS vs HADOOP

• Sistema de Ficheros distribuido • Construido sobre Hardware no específico – Ficheros replicados para soportar fallos – Deteccion y Recuperación automática • Optimizado para procesos por lotes (batch) – Lista de úbicaciones expuesta para minimizar trafico – Proporciona un ancho de banda agregado muy

elevado • Funciona en multiples OS (FS lógico)

ARQUITECTURA HDFS

Name Node

Secondary Name Node NameSpace

Block Management

Data Node Data Node Data Node Data Node

• Systema de Ficheros Lógico • Metadatos

– Organización en ficheros y directorios – Permisos POSIX

• Ficheros – Divididos en bloques de tamaño uniforme (64 MB por

defecto) – Distribuidos a lo largo de todo el clúster

• Consciente de rack

ORGANIZACIÓN DE LOS DATOS

Tres componentes principales: • Name Node:

– Gestiona los Data Nodes – Guarda metadatos para todos los ficheros y bloques

• Data Nodes: – Almacenan los bloques de datos – Se distribuyen por la topología de racks

• Clientes: – Hablan directamente con el Name Node, y después con los

Data Nodes necesarios.

CLUSTER HDFS

ACCESO A LOS FICHEROS

NameSpace

Block Management

Data Node

Name Node JVM

Distributed FS

Client Code

FS Data Output Stream

HDFS Demos

• Generalmente se hacia por lotes – Automatizado como Jobs de CRON

• No se necesita definir el schema a la hora de escribir los datos

MOVIENDO DATOS DENTRO DEL CLUSTER

• SSIS • WebHDFS • FlumeNG • Sqoop

OTROS MECANISMOS

MapReduce

• Un framework • Procesado y Analisis de ‘big data’

– Pensado para grandes conjuntos de datos

• Computacion de datos locales • Procesado paralelo • Gestiona automáticamente los fallos • Java

¿QUE ES MAP REDUCE?

ARQUITECTURA DE MAPREDUCE

Input Format

Map Partitioner

Sort Reduce Output Format

MapReduce

MAPREDUCE

.NET Integration

• Dos métodos principales: – Interfaz de Streaming – .NET SDK for Hadoop

HADOOP Y WINDOWS

STREAMING

• Se trata de un .jar normal…

SINTAXIS

> Hadoop jar contrib/streaming/hadoop-x.x-streaming.jar -input inputfile -output outputfile -mapper myScript.py -file myScript.py -reducer c:/Windows/system32/sort.exe

• API para HDInsight – API C# que hace de wrapper sobre la interfaz de

streaming

• Otras cosas finas… ;) – LINQ to Hive – WebHDFS client – WebHCat cliente

.NET SDK FOR HADOOP

CONSULTAS

• Extension de Hadoop para simplificar las consultas sobre los datos

• Dos componentes principales:

– Lenguaje de procesado de datos (Pig Latin) – Compilador y runtime de scripts pig latin

• Sub-proyecto de Apache Hadoop para construir Data Warehouse sobre el clúster.

• Permite: – Definir una estructura tabular sobre los datos – Consultar estos datos mediante HiveQL

• … es un RDBMS – Usa una BD para los metadatos, pero los datos reales

se almacenan en HDFS

• … está diseñado para sistemas OLTP – Olvidémonos de consultas en tiempo real – Olvidémonos de actualización de filas

HIVE NO…

MICROSOFT Y HADOOP

BIG DATA CON MICROSOFT

CASO DE ÉXITO

• SCADA Historical Analysis and Reporting Platform

• Plataforma: – SCADA: Local, Central y Móvil – Datos Históricos: Gran volumen y gran velocidad – Reporting – Análisis

Mongo Export

Hadoop DWH

Source1

Loader

Origen 2

Loader

Source 2

Loader

Origen 4 Loader

Source 3 Loader

Origen 6

Loader

Source7

Loader

SHARP (ALMACENAMIENTO)

DWH Microsoft

Office

Reporting Services

OLAP Tabular

Power View

Power Pivot

Cloud?

Events

Production Centers Central

SHARP (ANÁLISIS Y REPORTING)

APROXIMACIÓN

Prueba de Concepto

Ecosistema Microsoft

Infrastructura On-Premise

PowerPivot

Power View

HERRAMIENTAS

IMPLEMENTACIÓN

Hadoop

Map Reduc

Load Service

Azure Storage

SSRS PowerView

UN VISTAZO…

DWH Microsoft

Office

Reporting Services

OLAP Tabular

Power View

Events

LO QUE ESTA POR LLEGAR…

MEJORAS A HIVE: 100X (STINGER)

MEJORAS A HIVE: TEZ

VARIAS GRANULARIDADES: SQL Y HADOOP

Export

• Recordando Sqoop:

• Sqoop with PDW…

Sqoop Map/

Reduce Job

SQL ServerSQL Server SQL Server

… SQL Server

Hadoop Cluster

POLYBASE

SQL HDFS

SQL Server

T-SQL Queries

Improv. to HigHer Resolution Data

… SQL Server

Hadoop Cluster

Polybase

GRACIAS!!

Windows Azure Connecy -...

Documents