Infrastruktur & Datenarchitekturen für Big-Data-Szenarien ...€¦ · HDInsight verwendet die...

Infrastruktur & Datenarchitekturen für Big-Data-Szenarien

Hadoop & Co. Im Detail

Referent: Steffen Vierkorn

Agenda

10.00 – 10.30 Begrüßung & aktuelle Entwicklungen bei QUNIS

10.30 – 11.00QUNIS 360° – was war, was wird?

BI, Big Data, Cloud, Predictive & Advanced Analytics, Streaming…

11.00 – 11.30Microsoft Power BI: alle Daten, überall, jederzeit – die maximale Power für Ihr Unternehmen!

Daten integrieren, modellieren, visualisieren & veröffentlichen

TRACK I TRACK II

11.30 – 12.00BI & Big Data – auf die Kombination kommt es an! Nutzen aus

bestehenden Daten erhöhen & neue Datenquellen erschließen

Infrastruktur & Datenarchitekturen für Big-Data-Szenarien

Hadoop & Co. Im Detail

12.00 – 13.00 Mittagspause

13.00 – 13.30Business-Intelligence- & Big-Data-Strategie

Vorgehen und Herausforderungen bei der Strategieentwicklung

DWH Best Practices – das QUNIS Framework

80 Jahre Erfahrung bei der Modellierung & dem Betrieb von DWH

13.30 – 14.15

Business Intelligence on Top of SAP (Kundenvortrag)

DWH Automation –

Steigerung von Qualität, Effektivität und Transparenz in der DWH

Implementierung und dem Betrieb

Big Data zum Anfassen

Live Präsentation einer Streaminganalyse & Machine Learning

14.15 – 15.00 Kaffeepause

15.00 – 15.30In 30 Minuten zur Business-Intelligence-Lösung in der Cloud

Aufbau einer BI-Infrastruktur & Entwicklung von Reports – Live

15.30 – 16.00 Live on Stage: GAPTEQ

Premiere des ersten eigenen QUNIS Tools

16.00 – 16.30 Frage und Antwort

copyright by

Großes Interesse: Kontrolle über die Datenflut

Business Intelligence

Big Data

Quelle: Google Trends, Abfrage 01/2016

Internet of Things (IoT)

Industrie 4.0

Big Data ist auch beim Management vieler Unternehmen ein bedeutendes Thema

http://www.google.de/imgres?imgurl=http://www.git-labor.de/sites/git-labor.de/files/images/special/35545039__original.jpg&imgrefurl=http://www.git-labor.de/forschung/literatur/big-data-dummies&h=378&w=300&tbnid=gKYPF0qcENbU-M:&docid=jDwSLq2D0PLiYM&ei=eu_mVeqxCMGqsQGks52IAw&tbm=isch&iact=rc&uact=3&dur=673&page=1&start=0&ndsp=78&ved=0CEoQrQMwDmoVChMI6taF3bDYxwIVQVUsCh2kWQcx

http://www.google.de/imgres?imgurl=http://www.git-labor.de/sites/git-labor.de/files/images/special/35545039__original.jpg&imgrefurl=http://www.git-labor.de/forschung/literatur/big-data-dummies&h=378&w=300&tbnid=gKYPF0qcENbU-M:&docid=jDwSLq2D0PLiYM&ei=eu_mVeqxCMGqsQGks52IAw&tbm=isch&iact=rc&uact=3&dur=673&page=1&start=0&ndsp=78&ved=0CEoQrQMwDmoVChMI6taF3bDYxwIVQVUsCh2kWQcx

copyright by

Big Data – neuen Herausforderungen gewachsen!

Velocity

Variety

VolumeReal time

Near time

Batch

Transactions

Sensors

Files

Strukturiert

Unstrukturiert

PolystrukturiertBig Data bezeichnet

Methoden und Technologien

für die

hochskalierbare Erfassung,

Speicherung und Analyse

polystrukturierter Daten.

copyright by

Big Data Referenzarchitektur

Lambda-Architektur

Bere

ch

nu

ng

Batch Layer

Sämtliche Fakten in redundanter Ausführung

Berechnungen werden durchgeführt

Teilweise sehr hohe Latenz

Serving Layer

Ergebnisse der Berechnungen werden im Serving Layer gespeichert

Ziel: Reduzierung der Latenzen

Abfrage der gewünschten Informationen (externe Systeme)

Ist eine Berechnung fertig, werden alle Daten im Serving Layer ersetzt

Speed Layer

Ebenfalls alle relevanten neuen Daten

Gewünschte Berechnungen mit temporärer Speicherung

Wird wieder gelöscht, sobald Daten im Batch Layer verfügbar

Komplexe Komponente der Lambda-Architektur

Ein externes System wird dann die Ergebnisse aus Serving Layer und

Speed Layer kombinieren um eine aktuelle Sicht auf die Daten zu gewähren.

Neue Daten

(Big Data)

Speed Layer

(Realtime Views)

Batch Layer

(Alle relevanten Data)

Serving Layer

(Batch Views)

Visualisierung /

System

copyright by

Apache Hadoop

Ecosystem

copyright by

La

nd

ing

Zo

ne

CSV XLS Rel. DB Rel. DB

Data

La

ke

Poly-structured Data

DM

Corporate

DM

(3rd Party

App.)

CSV XLS …

Big Data Serving

(Batch)

Big Data Processing

(Batch)

Big Data

Exploration

DM

Corp.

Fro

nt e

nd

&

3rd

Pa

rty A

pp

.

DW: Data Warehouse, DM: Data Mart, Big Data: Hadoop or Cloud Services

DM

LocalDM

Local

Stage

DW Cleansing (Standard)

DW Core (Standard)

DW Cleansing

(local)

DW Core (local)

Structured Data

Big Data

Streaming

Cube Source System

Direct

Acce

ss

XL

S Rel. DBCube

XL

S

XL

S Rel. DBCube

XL

S

Kundenbeispiel: Data Lake – BI & Big Data in Kombination

ReportingDashboarding AnalysisAdvanced

AnalyticsSearch

3rd Party

Application3rd Party

Application

copyright by

Big Data & Advanced Analytics

Das Apache Hadoop Ecosystem

HDFS

Hadoop Distributed Filesystem

Date

nm

anagem

ent

YARN

Yet Another Resource Negotiator

Date

nzugriff

TEZ Slider

Batch Script SQL

HBase

(Phoenix)

Accumulo

NoSQL

Map

Reduce

v2

Pig Hive Storm

Stream

Solr

Suche

Spark

In-Memory

To

ols

Ambari

Hadoop Cluster Management, Monitoring und Tool Views

Data

Lifecycle

& G

overn

ance

Falcon

Atlas

Data

Work

flo

w

Sqoop

Flume

Kafka

NFS

WebHDFS

Sic

herh

eit

Ranger

Knox

Atlas

HDFS

Encryption

Work

flo

w

Cloudbreak

Zookeeper

Oozie

copyright by

HDFS

Hadoop Distributed File System

copyright by

Hadoop Distributed File System - HDFS

Die essentielle Basis

HDFS ist ein hochverfügbares Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten)

Es ist in hohem Maße fehlertolerant und entwickelt für den Betrieb auf Billig-Hardware

Dateien werden in Datenblöcke mit fester Länge zerlegt und redundant auf die Rechnerknoten verteilt. Dabei sind beides konfigurierbare

Größen

Ein Masterknoten, der sog. Name Node, bearbeitet eingehende Datenanfragen, organisiert die Ablage von Dateien in den Slaveknoten und

speichert anfallende Metadaten

HDFS unterstützt Dateisysteme mit mehreren 100 Mio. Dateien

HDFS setzt auf einem existierenden Dateisystem auf, z.B. dem gängigen ext4 (Fourth Extended Filesystem, Linux). Signifikanter

Unterschied ist die Blockgröße: 64 bis 128 MB, traditionell 1 bis 64 KB

copyright by

Spark

High-Speed In-Memory Verarbeitung

copyright by

High-Speed In-Memory Verarbeitung: Spark

Apache Spark ist ein Data Analytics Cluster Computing Framework

Es besitzt eine schnelle In-Memory Datenverarbeitungs-Engine für die hocheffiziente Ausführung von Streaming, Machine learning oder

SQL Prozessen, die schnellen, iterativen Zugriff auf Datensets benötigen

Spark wurde im Rahmen eines Forschungsprojekts am AMPLab der University of California in Berkeley in Scala entwickelt und ist seit 2010

unter einer Open Source Lizenz öffentlich verfügbar

Neben dem Spark Core, in dem die Basisfunktionalität bereitgestellt wird, bietet Spark einige mächtige Funktionsbibliotheken:

Spark SQL

Spark Streaming

MLlib

GraphX

Spark ist perfekt geeignet für die Anwendung basierend auf HDFS, ist jedoch nicht an das zweistufige MapReduce Modell gebunden - seine

Engine verspricht eine bis zu hundertfach bessere Performance

Features

copyright by

Big Data & Advanced Analytics in der Cloud

Microsoft Azure

copyright by

Cortana Analytics Suite

Vollständig verwaltete Suite für Big Data und erweiterte Analysen

Quelle: Microsoft

copyright by

Kundenbeispiel: IoT – Auswertung von Sensordaten

copyright by

Azure Data Lake Speicher

Ein riesiges Repository für Big Data Analytics-Workloads

Ein verteiltes Hadoop-Dateisystem für die Cloud, mit HDFS kompatibel und mit dem Hadoop-Ökosystem einsetzbar

Integriert in Azure Data Lake Analytics, HDInsight, Revolution-R Enterprise und für Anwendungen durch eine WebHDFS-kompatible REST-

Schnittstelle verfügbar

Unbegrenzter Speicher, keine Grenzwerte für Konten oder Dateien, Dateigrößen bis in den Petabytebereich

Massiver Lese- und Schreibdurchsatz, Leistungsoptimiert für Big Data Analysen

Unstrukturierte und strukturierte Daten in ihrem systemeigenen Format

Hohe Beständigkeit, Verfügbarkeit und Zuverlässigkeit

Azure Active Directory-Zugriffssteuerung

Quelle: Microsoft

copyright by

Azure SQL Data Warehouse

Cloudbasiertes Data Warehouse mit geprüfter SQL Server Qualität

Branchenweit erstes Data Warehouse-as-a-Service

Skalierung im Petabytebereich dank MPP (Massively Parallel Processing)

Unabhängige Skalierung von Compute- und Speicherressourcen innerhalb von Sekunden

Transact-SQL-Abfragen über relationale und nicht relationale Daten hinweg

Vollständige SQL Server-Funktionalität auf Unternehmensniveau

Nahtlose Integration mit Power BI, Machine Learning, HDInsight und Data Factory

Leistungs-/Nutzungsbasierte Abrechnung

DWU = Data Warehouse Unit, ist ein Microsoft-eigenes Maß für die Leistung des DWH (Serverressourcen, Anzahl Parallelitätsslots)

Beispiel: 400 DWU auf Server in Westeuropa aktuell 2,64 €/h

Bedarfsweises Skalieren – z.B. Entfernen DWUs am Wochenende, Erhöhen DWUs im Bedarfsfall

copyright by

Azure Machine Learning

Leistungsstarkes Werkzeug für Predictive Analytics

copyright by

Azure Machine Learning

Einfache Erzeugung von Web Services für die Integration in Anwendungen

copyright by

Azure Data Factory

Managed Service für die organisierte, skalierbare Datenverarbeitung

Erstellung, Planung, Orchestrierung, Verwaltung und Überwachung von Datenpipelines

Verbinden und Arbeiten mit lokalen sowie cloudbasierten Datenquellen

Automatisierte Verwaltung von Cloudressourcen

Visualisierung von Datenherkunft und Abhängigkeiten

Quelle: Microsoft

copyright by

Azure Stream Analytics

Der cloudbasierte Dienst ermöglicht die Echtzeitanalyse von Geräte-, Sensor-, Infrastruktur- und Anwendungsdatenströmen

Ermöglicht Echtzeit-Remoteverwaltung und –überwachung für IoT-Szenarien (Internet der Dinge)

Ermöglicht eine schnelle Entwicklung von Analysefunktionen für verteilte Systeme mit einfacher SQL-basierter Syntax

Sofortige Integration mit Event Hubs, um Millionen von Ereignissen pro Sekunden zu empfangen

Vergleich mehrerer Echtzeitstreams miteinander oder mit historischen Werten und Modellen zur Erkennung von Anomalien, die

Umwandlung eingehender Daten oder das Auslösen von Warnungen

Möglichkeit zur Einrichtung von Echtzeitdashboards

Skalierbar auf ein beliebiges Datenvolumen mit hohem Durchsatz, geringer Latenz und garantierter Resilienz

Echtzeitverarbeitung von Streams in der Cloud

Quelle: Microsoft

copyright by

Azure HDInsight

HDInsight verwendet die Hortonworks Data Platform (HDP)-Hadoop-Distribution

Ein Data Lake Dienst, skalierbar in den Petabytebereich

Einfache und schnelle Bereitstellung eines Apache Hadoop Clusters wahlweise unter Windows oder Linux

Möglichkeit der Integration lokaler Hadoop Cluster

Visualisierung der Daten via Excel

Integriert in Azure ML, Power BI und Data Factory

Entwicklung mit Java, .NET und vielen anderen Sprachen

Apache Hadoop Service in der Cloud

Quelle: Microsoft

QUNIS GmbH

Georg-Wiesböck-Ring 9

83115 Neubeuern

Phone: +49 8035 95790 0

E-Mail: [email protected]

WWW.QUNIS.DE

Phone: +49 8035 9579 22

E-Mail: [email protected]

STEFFEN VIERKORN

Geschäftsführer

Date post:	14-Jul-2020
Category:	Documents
Upload:	others
View:	0 times
Download:	0 times

Infrastruktur & Datenarchitekturen für Big-Data-Szenarien ...€¦ · HDInsight verwendet die...

Documents