Date post: | 04-Jun-2018 |
Category: |
Documents |
Upload: | vuongduong |
View: | 222 times |
Download: | 0 times |
www.ise-informatik.de
Logical Data Warehouse
SQL mit Oracle DB und Hadoop
Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH
Ingo Reisky Senior Consultant
Opitz Consulting Deutschland GmbH
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 2
Enable
eXtreme
Performance. ISE Information Systems Engineering
Gegründet 1991
Mitarbeiteranzahl: 60
Hauptsitz in Gräfenberg, Niederlassungen in München und Nürnberg
Schwerpunkte:
Oracle Engineered Systems (Exadata / Exalogic / Exalytics)
Data Warehousing & Business Intelligence
Oracle DB – Migrationen, Optimierungen, Hochverfügbarkeit
Managed Service für Datenbanken, BI und Middlewareapplikationen
Oracle Partner Engineered Systems Award 2013
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 3
Enable
eXtreme
Performance.
Erstes und einziges Exastack Technology Center in
Deutschland in Nürnberg
ISE Oracle Technology Center
Coming soon ODA X5
© OPITZ CONSULTING Deutschland GmbH 2015 Seite 4
OPITZ CONSULTING Vorlage Powerpoint 2011; Version 1.3; 10.05.2011; TGA, KSH
1Pager • Layout ausschließlich für den
1Pager
• Einsatz ist bei Konferenzen,
ext. Veranstaltungen etc.
obligatorisch. Die Folie ist
Folie 2 (nach der Titelfolie)
• Der Inhalt darf nicht
verändert werden.
• Ausnahme: Der Block
Märkte darf situativ um
Partnerlogos
(ORACLE, etc.) ergänzt
werden
Mission
Wir entwickeln gemeinsam mit allen
Branchen Lösungen, die dazu führen,
dass sich diese Organisationen besser
entwickeln als ihr Wettbewerb.
Unsere Dienstleistung erfolgt
partnerschaftlich und ist auf eine
langjährige Zusammenarbeit angelegt.
Leistungsangebot
Business IT Alignment
Business Information Management
Business Process Management
Anwendungsentwicklung
SOA und System-Integration
IT-Infrastruktur-Management
Märkte
Branchenübergreifend
Über 600 Kunden
29%
Industrie / Versorger /
Telekommunikation
29%
Handel / Logistik /
Dienstleistungen
42%
Öffentliche Auftraggeber / Banken und
Versicherungen / Vereine und Verbände
Eckdaten
Gründung 1990
400 Mitarbeiter
9 Standorte
Vorstellung OPITZ CONSULTING
© OPITZ CONSULTING Deutschland GmbH 2015 Seite 5
OPITZ CONSULTING Vorlage Powerpoint 2011; Version 1.3; 10.05.2011; TGA, KSH
Titel und Inhalt: • Dies ist das Haupttemplate
für Inhaltsseiten.
• Titel: 1-2zeilig!
• Inhalt:
• 3-7 Punkte o 2-3
Hauptpunkte mit
Unterpunkten
• Max bis zur 3. Ebene
• Logo: optional. rechts des
Titels zwischen den letzten
beiden Rastern
• Fußzeile mit Haupttitel
füllen.
Wie OPITZ CONSULTING Big Data versteht
Wir helfen Kunden, die Möglichkeiten von Big Data zu verstehen
Business Cases in ihrem Unternehmen zu erkennen und ganzheitlich unter
Berücksichtigung bestehender Architekturen zu bewerten
Projekte zielorientiert aufzusetzen und erfolgreich durchzuführen
Business Cases anhand von Proof of Concepts zu verifizieren.
Big Data ist bei OPITZ CONSULTING eines der TOP 3
Zukunftsthemen!
Big Data = Alter Hut
• IT-Durchdringung der Geschäftswelt steigt seit Beginn
• Mooresche Gesetz gilt immer noch
OPITZ CONSULTING1990
• Database-focused Company
• große Datenmengen & komplexe Anforderungen
OPITZ CONSULTINGt+25
• Individuallösungen, wenn Standard nicht ausreicht
• Kontinuierliche Adaption neuer IT-Trends
Big Data = Chance
• Prozess- und Interessenstransparenz dank Maschine Data
• Wettbewerbsvorteile dank Kombination (Mobile+ Big Data + Cloud + Analytics)
25
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 6
Enable
eXtreme
Performance.
Matthias Fuchs
- Senior Consultant
Infrastructure&Database
- 10 Jahre Oracle-Erfahrung
- OCP, Exadata Certified
- Focus on DWH, Audit,
Security in Oracle DB and
Oracle Exa Systems
Bio
Ingo Reisky
- Senior Consultant im
Infrastructure Consulting
bei OPITZ CONSULTING
- Mitglied OC-CC Big Data
- Dipl.-Wirtschaftsingenieur
Univ. Karlsruhe (TH)
- OCP, LPIC-2, RHCT, …
- Fusion MW Spezialist:
Oracle Weblogic Server,
SOA Suite, Enterprise
Manager Cloud Control
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 7
Enable
eXtreme
Performance. Agenda
LDW - Logical Data Warehouse
Big Data SQL Infrastructure
Sqoop - der Anfang
Fallbeispiel aus Kundenprojekt
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 8
Enable
eXtreme
Performance.
LDW – Logical Data Warehouse
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 9
Enable
eXtreme
Performance. Logical Data Warehouse
Gartner Hype Cycle for Information Infrastructure, 2012,
“the Logical Data Warehouse (LDW) is a new data
management architecture for analytics which combines the
strengths of traditional repository warehouses with
alternative data management and access strategy. The
LDW will form a new best practices by the end of 2015.”
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 10
Enable
eXtreme
Performance.
Repository Management
Verschiedene Typen u.a. Metadaten
Konsolidierung
Data Virtualization
Virtuelle Daten Schicht
Distributed Processes
Aufruf externer Prozesse
z.B. Bilder oder Content Analyse, aber auch MapReduce
Cloud
Auditing statistics and performance Evaluation
Statistik über Performance
End User, Applikationen oder Verbindungen
SLA Management
Metadataset über erwartete Ausführungenzeiten etc.
Überwachung und ggf. Änderung der Ausführung
Taxonomy - Ontology resolution
a taxonomy “tree” in an ontological “forest”
Metadata Management
Gartner: Logical Data Warehouse
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 11
Enable
eXtreme
Performance.
Repository Management
Verschiedene Typen u.a. Metadaten
Konsolidierung
Data Virtualization
Virtuelle Daten Schicht
Distributed Processes
Aufruf externer Prozesse
z.B. Bilder oder Content Analyse, aber auch MapReduce
Cloud
Auditing statistics and performance Evaluation
Statistik über Performance
End User, Applikationen oder Verbindungen
SLA Management
Metadataset über erwartete Ausführungenzeiten etc.
Überwachung und ggf. Änderung der Ausführung
Taxonomy - Ontology resolution
a taxonomy “tree” in an ontological “forest”
Metadata Management
Gartner: Logical Data Warehouse
‚Data-to-insight cycle ' schneller
günstiges Framework um neue
Inhalte einzubeziehen
Höhere Flexibilität
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 12
Enable
eXtreme
Performance. Gartner: Übersicht
Aus Gartner Newsletter Logical Data Warehousing for Big Data
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 13
Enable
eXtreme
Performance.
Big Data SQL Infrastructure
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 14
Enable
eXtreme
Performance. Logische Implementation
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 15
Enable
eXtreme
Performance. First LDW Implementationen
SLA Management Audit Management
Virtual.
.
Hadoop
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 16
Enable
eXtreme
Performance.
Innovation: Oracle Big Data SQL
Erweitert Oracle SQL für Oracle DB, NoSQL und Hadoop!
Daten aus heterogenen Quellen
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 17
Enable
eXtreme
Performance. Big Data Sql - Übersicht
Oracle Big Data SQL
Cloudera
Hadoop
NOSQL
R Advanced
Analytics
Exadata
Advanced
Analytics
Advanced
Security
Connectors
ODI
Or BigData Lite VM
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 18
Enable
eXtreme
Performance. Big Data Systemübersicht
Storage Layer
Filesystem (HDFS)
Resource Management YARN + MapReduce
Processing Layer
Big Data SQL
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 19
Enable
eXtreme
Performance. Big Data und DB im LDW
ODI, BPM, SOA
Enterprise Metadata
Management
Oracle Big Data
Appliance
Repository Management
Data Virtualization
Distributed Processes
Auditing statistics and performance
SLA Management
Taxonomy - Ontology resolution
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 21
Enable
eXtreme
Performance.
Daten in Hadoop laden
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 22
Enable
eXtreme
Performance.
Sqoop = SQL- to - Hadoop
Paralleles kopieren von JDBC <-> HDFS
MapReduce jobs zum Daten laden/schreiben
Sqoop
DB
HDFS
Map
Reduce
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 23
Enable
eXtreme
Performance.
OraOOP Guy Harrison team Quest (Dell)
Ab version 1.4.5 (CDH 5.1)
Oracle direct path (non-buffered) IO for all reads
Auf mappers werden Anzahl Blöcke verteilt
Bei partitionierten Tabellen, kann der Mapper pro Partition arbeiten
Sqoop mit Oracle
ORACLE TABLE
HDFS
HADOOP MAPPER
ORACLE SESSION
HADOOP MAPPER
ORACLE SESSION
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 24
Enable
eXtreme
Performance. Sqoop 1 vs. Sqoop 2
Sqoop 1 Sqoop 2
Kerberos Security, RDBMS
connectors, transfer to hive
Jdbc Connection
Client startet Map jobs Service based, DB Treiber
auf dem Server
MAP only MAPReduce
Client mit connection
Details
Vorkonfigurierte
datasources
Durch quest Oracle direct
Treiber implementiert
Oracle direct connector
geplant 1.99.7
(aktuell1.99.5)
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 25
Enable
eXtreme
Performance.
Auszug aus Roadmap Sqoop 2, Version 1.99.7: https://cwiki.apache.org/confluence/display/SQOOP/Sqoop+2+Roadmap
“In this release, let’s focus on developing new connectors and
execution engines.
HBase connector
Hive connector
HCatalog connector (Or is this the same as Hive connector?)
MySQL fast connector
PostgreSQL fast connector
Oracle fast connector
Netezza connector
Teradata connector (?)
Spark execution engine”
Ausblick: Sqoop 2 Roadmap
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 26
Enable
eXtreme
Performance.
Oracle Data Integrator
Sqoop loads beide Richtungen
Integration Knowledge Modules
Oracle SQL Connector
External Table
Hive oder HDFS to Oracle
Oracle Loader for Hadoop
Load data to Oracle
Prepare data and load to Oracle
https://docs.oracle.com/cd/E57371_01/doc.41/e57352/start.htm#BDCUG261
Big Data Connector
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 27
Enable
eXtreme
Performance. Oracle SQLConnector
http://www.oracle.com/us/products/database/big-data-connectors/certifications/index.html
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 28
Enable
eXtreme
Performance.
Oracle Change Data Capture
Supported in 11.2 – but not recommended by Oracle
Desupported in 12.1
Oracle Golden Gate
1. RDBMS to HIVE
2. RDBMS to Flume
3. RDBMS to HDFS
Andere Hersteller:
(Dell) Quest SharePlex – Auslesen redologs
(VMWare) Continuent Tungsten – benutzt CDC im Hintergrund
Libelle
Real Time
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 29
Enable
eXtreme
Performance.
Noch mehr SQL auf Hadoop
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 30
Enable
eXtreme
Performance.
Zahlreiche Möglichkeiten, mit „R“ strukturierte Daten abzufragen
Verbindung mit R gegen Oracle DB
Package ROracle (mit Oracle Client/Instant Client)
http://www.oracle.com/technetwork/database/database-
technologies/r/roracle/overview/index.html
Verbindung mit R gegen Apache Hadoop oder Hive
Packages in RHadoop (R gegen HDFS, HBase, …): https://github.com/RevolutionAnalytics/RHadoop/wiki
RHIPE: Integrierte R- und Hadoop-Umgebung
Package RHive: HiveQL (HQL, ähnlich SQL) gegen Hive
R in der Oracle DB oder In Hive:
Advanced Analytics Option (AAO)
http://www.oracle.com/technetwork/database/options/advanced-
analytics/overview/index.html
R und SQL
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 31
Enable
eXtreme
Performance.
Apache Spark ist eine alternative Execution Engine für Hadoop
(neben MapReduce und Tez) oder Stand-alone: schnell!
Spark SQL: Modul für den Zugriff auf strukturierte Daten
Abfrage aus Spark als “Resilient Distributed Datasets” (RDD):
SchemaRDDs als einheitliches Interface, mit integrierten APIs für
Python, Scala und Java
Auch für die Abfrage aus Hive-Tabellen, Parquet- und JSON-Dateien
Enthält Server-Modus für JDBC- und ODBC-Verbindungen
Unterstützt Ausfalltoleranz während laufender Abfragen nach dem
RDD-Modell und skalliert auch für große Jobs: Eignung für interaktive
und langlaufende Abfragen (historische Daten)
Mehr unter: https://spark.apache.org/sql/
Spark SQL
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 32
Enable
eXtreme
Performance.
Fallbeispiel aus Kundenprojekt
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 33
Enable
eXtreme
Performance.
Ziel
Daten von Servicecalls (OSB) auswerten
Daten Historisieren
Feststellen von Anomalien
Mappen von Strukturierten und Unstrukturierten Daten
Tabellen/View und Datei Import
Auswertung mit ausgewählten Werkzeugen
Analyse von Infrastrukturdaten
HDFS
Analytic output
Weblogs
CC RDBMS
Flume SQOOP
YARN/MR
• R • Elasticsearch
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 34
Enable
eXtreme
Performance.
Wahl der Hadoop Distribution
Cloudera – Oracle supported
Ohne -> sehr aufwendig
Filedaten
Flume
Weblogic und Apache Logs
Gut dokumentiert im Netz
Ggf. Realtime Auswertung mit Elasticsearch or Solr
Hive
CDH 5.1
OCRFile Format
Vorbereitung
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 35
Enable
eXtreme
Performance.
Optimized Row Columnar File Format
light-weight indexes bereits im Fileformat
block-mode compression auf basis des Datentyps
Hive ORCFile
TPC-DS Scale 500 Dataset GB, Hortonworks
585
• Encoded Text
• CSV File
505
• RCFile
• Record Columnar File
221
• Parquet
• Columnar Storage Format, impala
131
• ORCFile
• Hive
Größenvergleich
über
verschiedene
Typen
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 36
Enable
eXtreme
Performance.
Teil 1 Datenladen
Teil 2
Create Big Data SQL Layer
Ablauf Datenintegration
DB
HDFS HIVE
Oracle Big Data SQL
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 37
Enable
eXtreme
Performance. Prozess Teil 1
DB
HDFS HIVE
• Start sqoop job to HDFS
• Create external table on
HDFS Files
• insert as select in hive ocr
data table
• Import parallel 1, da view daten
• Kein primary key, keine parallelen MapReduce Prozesse
• Direct read notwendig, da sonst tmp Tablespace zu klein
• Start mit sqoop2, ende mit sqoop1 inklusiv Optimierung
• ODI statt oozie
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 38
Enable
eXtreme
Performance.
Suche Tabelle in Hive aus DB
select table_name, input_format, Location from ALL_HIVE_tables
where table_name like '%oem%';
Prozess Teil 2
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 39
Enable
eXtreme
Performance.
Create Table in DB (nur in Test VM)
DDL mit CREATE_EXTDDL_FOR_HIVE erzeugen
DDL ausführen
Prozess Teil 2
dbms_hadoop.create_extddl_for_hive(
CLUSTER_ID=>'bigdatalite',
DB_NAME=>'default',
HIVE_TABLE_NAME=>'oem_data',
HIVE_PARTITION=>FALSE,
TABLE_NAME=>'oem_data',
PERFORM_DDL=>FALSE,
TEXT_OF_DDL=>DDLout
);
CREATE TABLE OEM_DATA ( target_name
VARCHAR2(4000), target_guid …..
key_value6 VARCHAR2(4000),
collection_timestamp VARCHAR2(4000))
ORGANIZATION EXTERNAL
(TYPE ORACLE_HIVE
DEFAULT DIRECTORY DEFAULT_DIR
ACCESS PARAMETERS (
com.oracle.bigdata.cluster=bigdatalite
com.oracle.bigdata.tablename=default.oem_
data)
) ;
DDL Erzeugen
DDL Ausführen
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 40
Enable
eXtreme
Performance. Ausführungsplan
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 41
Enable
eXtreme
Performance.
Daten für einen Tag
~ 239.634.928 Zeilen/12 Spalten
TXT Files
~100 G unkomprimiert
Ladezeit ca. 1h aus CC DB
OCR Files in hive
~ 27 M komprimiert
~ Ladezeit ca. 30 Minuten
Ergebnisse: Laden der Daten
Type Größe Select
count
Where
Oem_data BigDataSQL 2,8 MB
2,1 Mio
11s 8s
Oem_data local
kopiert
Oracle 558 MB
2,1 Mio
0,5s 0,5s
Oem_data Hive 57s 50s
Teil 1
Teil 2
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 42
Enable
eXtreme
Performance.
Only data retrieval (TABLE ACCESS FULL und Filter ) werden
offloaded!
Datenbearbeitung im DB Layer GROUP BY, ORDER BY, JOIN, PL/SQL etc
BigDataSQL 2.0 (Aggregation in Hadoop?)
Alternativ Connect über ODBC
Lastverteilung Big Data SQL
Tool Beschreibung Decompress
CPU
Filtering CPU Datatype
Conversion
Sqoop Hadoop Oracle Oracle
Oracle SQL
Connector
für HDFS
Text Dateien HDFS
oder DataPump
HDFS
Oracle Oracle
Big Data
SQL
12c
Exadata&BDA
Hadoop Hadoop Hadoop
ODBC Hadoop Hadoop Oracle
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 43
Enable
eXtreme
Performance. Zusammenfassung
Exadata €€€
DB/EMC €€€
Integration Layer
Exadata €
DB/EMC €
Hadoop
€
Vorher:
Nacher:
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 44
Enable
eXtreme
Performance.
Q & A