Infrastruktur & Datenarchitekturen für Big-Data-Szenarien
Hadoop & Co. Im Detail
Referent: Steffen Vierkorn
Agenda
10.00 – 10.30 Begrüßung & aktuelle Entwicklungen bei QUNIS
10.30 – 11.00QUNIS 360° – was war, was wird?
BI, Big Data, Cloud, Predictive & Advanced Analytics, Streaming…
11.00 – 11.30Microsoft Power BI: alle Daten, überall, jederzeit – die maximale Power für Ihr Unternehmen!
Daten integrieren, modellieren, visualisieren & veröffentlichen
TRACK I TRACK II
11.30 – 12.00BI & Big Data – auf die Kombination kommt es an! Nutzen aus
bestehenden Daten erhöhen & neue Datenquellen erschließen
Infrastruktur & Datenarchitekturen für Big-Data-Szenarien
Hadoop & Co. Im Detail
12.00 – 13.00 Mittagspause
13.00 – 13.30Business-Intelligence- & Big-Data-Strategie
Vorgehen und Herausforderungen bei der Strategieentwicklung
DWH Best Practices – das QUNIS Framework
80 Jahre Erfahrung bei der Modellierung & dem Betrieb von DWH
13.30 – 14.15
Business Intelligence on Top of SAP (Kundenvortrag)
DWH Automation –
Steigerung von Qualität, Effektivität und Transparenz in der DWH
Implementierung und dem Betrieb
Big Data zum Anfassen
Live Präsentation einer Streaminganalyse & Machine Learning
14.15 – 15.00 Kaffeepause
15.00 – 15.30In 30 Minuten zur Business-Intelligence-Lösung in der Cloud
Aufbau einer BI-Infrastruktur & Entwicklung von Reports – Live
15.30 – 16.00 Live on Stage: GAPTEQ
Premiere des ersten eigenen QUNIS Tools
16.00 – 16.30 Frage und Antwort
copyright by
Großes Interesse: Kontrolle über die Datenflut
Business Intelligence
Big Data
Quelle: Google Trends, Abfrage 01/2016
Internet of Things (IoT)
Industrie 4.0
Big Data ist auch beim Management vieler Unternehmen ein bedeutendes Thema
copyright by
Big Data – neuen Herausforderungen gewachsen!
Velocity
Variety
VolumeReal time
Near time
Batch
Transactions
Sensors
Files
Strukturiert
Unstrukturiert
PolystrukturiertBig Data bezeichnet
Methoden und Technologien
für die
hochskalierbare Erfassung,
Speicherung und Analyse
polystrukturierter Daten.
copyright by
Big Data Referenzarchitektur
Lambda-Architektur
Bere
ch
nu
ng
Batch Layer
Sämtliche Fakten in redundanter Ausführung
Berechnungen werden durchgeführt
Teilweise sehr hohe Latenz
Serving Layer
Ergebnisse der Berechnungen werden im Serving Layer gespeichert
Ziel: Reduzierung der Latenzen
Abfrage der gewünschten Informationen (externe Systeme)
Ist eine Berechnung fertig, werden alle Daten im Serving Layer ersetzt
Speed Layer
Ebenfalls alle relevanten neuen Daten
Gewünschte Berechnungen mit temporärer Speicherung
Wird wieder gelöscht, sobald Daten im Batch Layer verfügbar
Komplexe Komponente der Lambda-Architektur
Ein externes System wird dann die Ergebnisse aus Serving Layer und
Speed Layer kombinieren um eine aktuelle Sicht auf die Daten zu gewähren.
Neue Daten
(Big Data)
Speed Layer
(Realtime Views)
Batch Layer
(Alle relevanten Data)
Serving Layer
(Batch Views)
Visualisierung /
System
copyright by
Apache Hadoop
Ecosystem
copyright by
La
nd
ing
Zo
ne
CSV XLS Rel. DB Rel. DB
Data
La
ke
Poly-structured Data
DM
Corporate
DM
(3rd Party
App.)
CSV XLS …
Big Data Serving
(Batch)
Big Data Processing
(Batch)
Big Data
Exploration
DM
Corp.
Fro
nt e
nd
&
3rd
Pa
rty A
pp
.
DW: Data Warehouse, DM: Data Mart, Big Data: Hadoop or Cloud Services
DM
LocalDM
Local
Stage
DW Cleansing (Standard)
DW Core (Standard)
DW Cleansing
(local)
DW Core (local)
Structured Data
Big Data
Streaming
Cube Source System
Direct
Acce
ss
XL
S Rel. DBCube
XL
S
XL
S Rel. DBCube
XL
S
Kundenbeispiel: Data Lake – BI & Big Data in Kombination
ReportingDashboarding AnalysisAdvanced
AnalyticsSearch
3rd Party
Application3rd Party
Application
copyright by
Big Data & Advanced Analytics
Das Apache Hadoop Ecosystem
HDFS
Hadoop Distributed Filesystem
Date
nm
anagem
ent
YARN
Yet Another Resource Negotiator
Date
nzugriff
TEZ Slider
Batch Script SQL
HBase
(Phoenix)
Accumulo
NoSQL
Map
Reduce
v2
Pig Hive Storm
Stream
Solr
Suche
Spark
In-Memory
To
ols
Ambari
Hadoop Cluster Management, Monitoring und Tool Views
Data
Lifecycle
& G
overn
ance
Falcon
Atlas
Data
Work
flo
w
Sqoop
Flume
Kafka
NFS
WebHDFS
Sic
herh
eit
Ranger
Knox
Atlas
HDFS
Encryption
Work
flo
w
Cloudbreak
Zookeeper
Oozie
copyright by
HDFS
Hadoop Distributed File System
copyright by
Hadoop Distributed File System - HDFS
Die essentielle Basis
HDFS ist ein hochverfügbares Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten)
Es ist in hohem Maße fehlertolerant und entwickelt für den Betrieb auf Billig-Hardware
Dateien werden in Datenblöcke mit fester Länge zerlegt und redundant auf die Rechnerknoten verteilt. Dabei sind beides konfigurierbare
Größen
Ein Masterknoten, der sog. Name Node, bearbeitet eingehende Datenanfragen, organisiert die Ablage von Dateien in den Slaveknoten und
speichert anfallende Metadaten
HDFS unterstützt Dateisysteme mit mehreren 100 Mio. Dateien
HDFS setzt auf einem existierenden Dateisystem auf, z.B. dem gängigen ext4 (Fourth Extended Filesystem, Linux). Signifikanter
Unterschied ist die Blockgröße: 64 bis 128 MB, traditionell 1 bis 64 KB
copyright by
Spark
High-Speed In-Memory Verarbeitung
copyright by
High-Speed In-Memory Verarbeitung: Spark
Apache Spark ist ein Data Analytics Cluster Computing Framework
Es besitzt eine schnelle In-Memory Datenverarbeitungs-Engine für die hocheffiziente Ausführung von Streaming, Machine learning oder
SQL Prozessen, die schnellen, iterativen Zugriff auf Datensets benötigen
Spark wurde im Rahmen eines Forschungsprojekts am AMPLab der University of California in Berkeley in Scala entwickelt und ist seit 2010
unter einer Open Source Lizenz öffentlich verfügbar
Neben dem Spark Core, in dem die Basisfunktionalität bereitgestellt wird, bietet Spark einige mächtige Funktionsbibliotheken:
Spark SQL
Spark Streaming
MLlib
GraphX
Spark ist perfekt geeignet für die Anwendung basierend auf HDFS, ist jedoch nicht an das zweistufige MapReduce Modell gebunden - seine
Engine verspricht eine bis zu hundertfach bessere Performance
Features
copyright by
Big Data & Advanced Analytics in der Cloud
Microsoft Azure
copyright by
Cortana Analytics Suite
Vollständig verwaltete Suite für Big Data und erweiterte Analysen
Quelle: Microsoft
copyright by
Kundenbeispiel: IoT – Auswertung von Sensordaten
copyright by
Azure Data Lake Speicher
Ein riesiges Repository für Big Data Analytics-Workloads
Ein verteiltes Hadoop-Dateisystem für die Cloud, mit HDFS kompatibel und mit dem Hadoop-Ökosystem einsetzbar
Integriert in Azure Data Lake Analytics, HDInsight, Revolution-R Enterprise und für Anwendungen durch eine WebHDFS-kompatible REST-
Schnittstelle verfügbar
Unbegrenzter Speicher, keine Grenzwerte für Konten oder Dateien, Dateigrößen bis in den Petabytebereich
Massiver Lese- und Schreibdurchsatz, Leistungsoptimiert für Big Data Analysen
Unstrukturierte und strukturierte Daten in ihrem systemeigenen Format
Hohe Beständigkeit, Verfügbarkeit und Zuverlässigkeit
Azure Active Directory-Zugriffssteuerung
Quelle: Microsoft
copyright by
Azure SQL Data Warehouse
Cloudbasiertes Data Warehouse mit geprüfter SQL Server Qualität
Branchenweit erstes Data Warehouse-as-a-Service
Skalierung im Petabytebereich dank MPP (Massively Parallel Processing)
Unabhängige Skalierung von Compute- und Speicherressourcen innerhalb von Sekunden
Transact-SQL-Abfragen über relationale und nicht relationale Daten hinweg
Vollständige SQL Server-Funktionalität auf Unternehmensniveau
Nahtlose Integration mit Power BI, Machine Learning, HDInsight und Data Factory
Leistungs-/Nutzungsbasierte Abrechnung
DWU = Data Warehouse Unit, ist ein Microsoft-eigenes Maß für die Leistung des DWH (Serverressourcen, Anzahl Parallelitätsslots)
Beispiel: 400 DWU auf Server in Westeuropa aktuell 2,64 €/h
Bedarfsweises Skalieren – z.B. Entfernen DWUs am Wochenende, Erhöhen DWUs im Bedarfsfall
copyright by
Azure Machine Learning
Leistungsstarkes Werkzeug für Predictive Analytics
copyright by
Azure Machine Learning
Einfache Erzeugung von Web Services für die Integration in Anwendungen
copyright by
Azure Data Factory
Managed Service für die organisierte, skalierbare Datenverarbeitung
Erstellung, Planung, Orchestrierung, Verwaltung und Überwachung von Datenpipelines
Verbinden und Arbeiten mit lokalen sowie cloudbasierten Datenquellen
Automatisierte Verwaltung von Cloudressourcen
Visualisierung von Datenherkunft und Abhängigkeiten
Quelle: Microsoft
copyright by
Azure Stream Analytics
Der cloudbasierte Dienst ermöglicht die Echtzeitanalyse von Geräte-, Sensor-, Infrastruktur- und Anwendungsdatenströmen
Ermöglicht Echtzeit-Remoteverwaltung und –überwachung für IoT-Szenarien (Internet der Dinge)
Ermöglicht eine schnelle Entwicklung von Analysefunktionen für verteilte Systeme mit einfacher SQL-basierter Syntax
Sofortige Integration mit Event Hubs, um Millionen von Ereignissen pro Sekunden zu empfangen
Vergleich mehrerer Echtzeitstreams miteinander oder mit historischen Werten und Modellen zur Erkennung von Anomalien, die
Umwandlung eingehender Daten oder das Auslösen von Warnungen
Möglichkeit zur Einrichtung von Echtzeitdashboards
Skalierbar auf ein beliebiges Datenvolumen mit hohem Durchsatz, geringer Latenz und garantierter Resilienz
Echtzeitverarbeitung von Streams in der Cloud
Quelle: Microsoft
copyright by
Azure HDInsight
HDInsight verwendet die Hortonworks Data Platform (HDP)-Hadoop-Distribution
Ein Data Lake Dienst, skalierbar in den Petabytebereich
Einfache und schnelle Bereitstellung eines Apache Hadoop Clusters wahlweise unter Windows oder Linux
Möglichkeit der Integration lokaler Hadoop Cluster
Visualisierung der Daten via Excel
Integriert in Azure ML, Power BI und Data Factory
Entwicklung mit Java, .NET und vielen anderen Sprachen
Apache Hadoop Service in der Cloud
Quelle: Microsoft
QUNIS GmbH
Georg-Wiesböck-Ring 9
83115 Neubeuern
Phone: +49 8035 95790 0
E-Mail: [email protected]
WWW.QUNIS.DE
Phone: +49 8035 9579 22
E-Mail: [email protected]
STEFFEN VIERKORN
Geschäftsführer