Post on 24-Sep-2020
transcript
• SQL/BI Team Lead palvarez@plainconcepts.com http://geeks.ms/blogs/palvarez @PabloDoval
PABLO DOVAL
Categoría Metrica Mayor base de datos 100 TB Tabla mas grande 1.5 trillones de filas Mayor conjunto de datos en una sola aplicación 92 PB Mayor número de transacciones/seg. (en 1 servidor) 130,000
Subsistema de E/S más rápido (SQLIO: lecturas en serie de 64k)
18 GB/s.
Menor latencia en cubo Latencia en ms.
Carga de 1TB de datos 30 minutos Mayor cubo MOLAP 24 TB
ALGUNAS ESTADÍSTICAS DE SQL SERVER
ARQUITECTURA DE REFERENCIA
•••
Diseño Hardware: • Especificación concreta de servidores,
almacenamiento y red. • Recursos Balanceados y Equilibrados • Servidores y Almacenamiento de última
generación
•••••
• RDBMS distribuido, paralelo, “Shared-nothing” • Particionado de consultas y datos • Proporciona una vista única de un cluster de SQL Servers
• Appliance • Software + hardware • HP, Dell, NEC
• Optimizado para DW • Bulk loads (1.2 – 2.0 TB/hora) • Scans (700 TB en 3 horas)
• Escala de 0 Terabytes al rango de petabytes
PARALELL DATA WAREHOUSE
ARQUITECTURA (I)
Computación
Dua
l Inf
inib
and
Nodos de Control (Activo / Pasivo)
Nodo de Reserva
Dua
l Fib
er C
hann
el
SQL
SQL
SQL
SQL
SQL
SQL
SQL
SQL
SQL Drivers Cliente (ODBC, OLE-
DB, ADO.NET)
Monitorización
Interfaz ETL
Solución de Backup
ARQUITECTURA (II)
Compute Nodes Compute Nodes
Nodo de Computación
Query Tool
MS BI (AS, RS)
Nodo de Control
3rd Party Tools DWSQL
Landing Zone
Internet Explorer
SQL Server
DW Authentication
DW Configuration
DW Schema TempDB
SQL Server User Data
Data Movement Service
Data Movement
Service
Data Movement Service
PDW Engine
IIS
Admin Console Data Access
(OLEDB, ODBC, ADO.NET, JDBC)
SISTEMA TRADICIONAL
RESUMEN
Hadoop NO es lo mismo que Big Data
Big Data es: una solución para almacenar y procesar Datos NO estructurados Y Datos estructurados conjuntamente
Big Data • NO es una Base de Datos
ENORME • NO es un Data
Warehouse ENORME
Open Source data management with scale-out storage & processing
APACHE HADOOP
MapReduce
• Divide las tareas entre procesadores ‘cercanos’ a los datos
• Compone los resultados
HDFS
• Almacenamiento distribuido
• Auto-reparable • Redundante • Nodo maestro
(NameNode)
• Escalable – Cantidades masivas de datos (Pb) – Escalado (casi) lineal Almacenamiento Redundante – Failover entre nodos y racks
• Flexible – Cualquier tipo de datos, en cualquier formato – El esquema se aplica en lectura
• Económico – Empleo de hardware no especifico
CARACTERÍSTICAS
ECOSISTEMA HADOOP
Almacenamiento Distribuido (HDFS)
Procesado Distribuido (Map Reduce)
RDBMS vs HADOOP
• Sistema de Ficheros distribuido • Construido sobre Hardware no específico – Ficheros replicados para soportar fallos – Deteccion y Recuperación automática • Optimizado para procesos por lotes (batch) – Lista de úbicaciones expuesta para minimizar trafico – Proporciona un ancho de banda agregado muy
elevado • Funciona en multiples OS (FS lógico)
HDFS
ARQUITECTURA HDFS
Name Node
Secondary Name Node NameSpace
Block Management
Data Node Data Node Data Node Data Node
• Systema de Ficheros Lógico • Metadatos
– Organización en ficheros y directorios – Permisos POSIX
• Ficheros – Divididos en bloques de tamaño uniforme (64 MB por
defecto) – Distribuidos a lo largo de todo el clúster
• Consciente de rack
ORGANIZACIÓN DE LOS DATOS
Tres componentes principales: • Name Node:
– Gestiona los Data Nodes – Guarda metadatos para todos los ficheros y bloques
• Data Nodes: – Almacenan los bloques de datos – Se distribuyen por la topología de racks
• Clientes: – Hablan directamente con el Name Node, y después con los
Data Nodes necesarios.
CLUSTER HDFS
ACCESO A LOS FICHEROS
NameSpace
Block Management
Data Node
Name Node JVM
Distributed FS
Client Code
FS Data Output Stream
Pig
Hive
HBase
1
2
3
4
5 6
• Generalmente se hacia por lotes – Automatizado como Jobs de CRON
• No se necesita definir el schema a la hora de escribir los datos
MOVIENDO DATOS DENTRO DEL CLUSTER
• SSIS • WebHDFS • FlumeNG • Sqoop
OTROS MECANISMOS
• Un framework • Procesado y Analisis de ‘big data’
– Pensado para grandes conjuntos de datos
• Computacion de datos locales • Procesado paralelo • Gestiona automáticamente los fallos • Java
¿QUE ES MAP REDUCE?
HBase
ARQUITECTURA DE MAPREDUCE
Input Format
Node
HDFS
Map Partitioner
Node
Sort Reduce Output Format
MapReduce
MAPREDUCE
• Dos métodos principales: – Interfaz de Streaming – .NET SDK for Hadoop
HADOOP Y WINDOWS
STREAMING
• Se trata de un .jar normal…
SINTAXIS
> Hadoop jar contrib/streaming/hadoop-x.x-streaming.jar -input inputfile -output outputfile -mapper myScript.py -file myScript.py -reducer c:/Windows/system32/sort.exe
• API para HDInsight – API C# que hace de wrapper sobre la interfaz de
streaming
• Otras cosas finas… ;) – LINQ to Hive – WebHDFS client – WebHCat cliente
.NET SDK FOR HADOOP
• Extension de Hadoop para simplificar las consultas sobre los datos
• Dos componentes principales:
– Lenguaje de procesado de datos (Pig Latin) – Compilador y runtime de scripts pig latin
PIG
• Sub-proyecto de Apache Hadoop para construir Data Warehouse sobre el clúster.
• Permite: – Definir una estructura tabular sobre los datos – Consultar estos datos mediante HiveQL
HIVE
• … es un RDBMS – Usa una BD para los metadatos, pero los datos reales
se almacenan en HDFS
• … está diseñado para sistemas OLTP – Olvidémonos de consultas en tiempo real – Olvidémonos de actualización de filas
HIVE NO…
CASO DE ÉXITO
• SCADA Historical Analysis and Reporting Platform
• Plataforma: – SCADA: Local, Central y Móvil – Datos Históricos: Gran volumen y gran velocidad – Reporting – Análisis
SHARP
DAT
DAT
DAT
DAT
DAT
DAT
Mongo Export
Hadoop DWH
Source1
Loader
Origen 2
Loader
Source 2
Loader
Origen 4 Loader
Source 3 Loader
MAGUS
Origen 6
Loader
DAT
Source7
Loader
DAT
SHARP (ALMACENAMIENTO)
DWH Microsoft
Office
Reporting Services
OLAP Tabular
OLAP Tabular
Power View
Power Pivot
Cloud?
Stre
amIn
sigh
t
Events
Production Centers Central
SHARP (ANÁLISIS Y REPORTING)
APROXIMACIÓN
Prueba de Concepto
Ecosistema Microsoft
Infrastructura On-Premise
PowerPivot
Power View
HERRAMIENTAS
IMPLEMENTACIÓN
DWH
Hadoop
HDFS
HIVE
Map Reduc
e
SSIS
Load Service
Azure Storage
SSRS PowerView
UN VISTAZO…
DWH Microsoft
Office
Reporting Services
OLAP Tabular
OLAP Tabular
Power View
Power
Pivot
Cloud
Stre
amIn
sigh
t
Events
Production Centers Central
CEP
Stre
amIn
sigh
t
Events
Production Centers Central
CEP
LO QUE ESTA POR LLEGAR…
MEJORAS A HIVE: 100X (STINGER)
MEJORAS A HIVE: TEZ
VARIAS GRANULARIDADES: SQL Y HADOOP
Export
• Recordando Sqoop:
VARIAS GRANULARIDADES: SQL Y HADOOP
• Sqoop with PDW…
VARIAS GRANULARIDADES: SQL Y HADOOP
Sqoop Map/
Reduce Job
SQL ServerSQL Server SQL Server
… SQL Server
VARIAS GRANULARIDADES: SQL Y HADOOP
SQL ServerSQL Server SQL Server
… SQL Server
Hadoop Cluster
Sqoop
POLYBASE
SQL HDFS
SQL Server
T-SQL Queries
Improv. to HigHer Resolution Data
SQL ServerSQL Server SQL Server
… SQL Server
Hadoop Cluster
Polybase