+ All Categories
Home > Documents > SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE...

SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE...

Date post: 04-Jun-2018
Category:
Upload: vuongduong
View: 222 times
Download: 0 times
Share this document with a friend
43
www.ise-informatik.de Logical Data Warehouse SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky Senior Consultant Opitz Consulting Deutschland GmbH
Transcript
Page 1: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Logical Data Warehouse

SQL mit Oracle DB und Hadoop

Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH

Ingo Reisky Senior Consultant

Opitz Consulting Deutschland GmbH

Page 2: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 2

Enable

eXtreme

Performance. ISE Information Systems Engineering

Gegründet 1991

Mitarbeiteranzahl: 60

Hauptsitz in Gräfenberg, Niederlassungen in München und Nürnberg

Schwerpunkte:

Oracle Engineered Systems (Exadata / Exalogic / Exalytics)

Data Warehousing & Business Intelligence

Oracle DB – Migrationen, Optimierungen, Hochverfügbarkeit

Managed Service für Datenbanken, BI und Middlewareapplikationen

Oracle Partner Engineered Systems Award 2013

Page 3: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 3

Enable

eXtreme

Performance.

Erstes und einziges Exastack Technology Center in

Deutschland in Nürnberg

ISE Oracle Technology Center

Coming soon ODA X5

Page 4: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

© OPITZ CONSULTING Deutschland GmbH 2015 Seite 4

OPITZ CONSULTING Vorlage Powerpoint 2011; Version 1.3; 10.05.2011; TGA, KSH

1Pager • Layout ausschließlich für den

1Pager

• Einsatz ist bei Konferenzen,

ext. Veranstaltungen etc.

obligatorisch. Die Folie ist

Folie 2 (nach der Titelfolie)

• Der Inhalt darf nicht

verändert werden.

• Ausnahme: Der Block

Märkte darf situativ um

Partnerlogos

(ORACLE, etc.) ergänzt

werden

Mission

Wir entwickeln gemeinsam mit allen

Branchen Lösungen, die dazu führen,

dass sich diese Organisationen besser

entwickeln als ihr Wettbewerb.

Unsere Dienstleistung erfolgt

partnerschaftlich und ist auf eine

langjährige Zusammenarbeit angelegt.

Leistungsangebot

Business IT Alignment

Business Information Management

Business Process Management

Anwendungsentwicklung

SOA und System-Integration

IT-Infrastruktur-Management

Märkte

Branchenübergreifend

Über 600 Kunden

29%

Industrie / Versorger /

Telekommunikation

29%

Handel / Logistik /

Dienstleistungen

42%

Öffentliche Auftraggeber / Banken und

Versicherungen / Vereine und Verbände

Eckdaten

Gründung 1990

400 Mitarbeiter

9 Standorte

Vorstellung OPITZ CONSULTING

Page 5: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

© OPITZ CONSULTING Deutschland GmbH 2015 Seite 5

OPITZ CONSULTING Vorlage Powerpoint 2011; Version 1.3; 10.05.2011; TGA, KSH

Titel und Inhalt: • Dies ist das Haupttemplate

für Inhaltsseiten.

• Titel: 1-2zeilig!

• Inhalt:

• 3-7 Punkte o 2-3

Hauptpunkte mit

Unterpunkten

• Max bis zur 3. Ebene

• Logo: optional. rechts des

Titels zwischen den letzten

beiden Rastern

• Fußzeile mit Haupttitel

füllen.

Wie OPITZ CONSULTING Big Data versteht

Wir helfen Kunden, die Möglichkeiten von Big Data zu verstehen

Business Cases in ihrem Unternehmen zu erkennen und ganzheitlich unter

Berücksichtigung bestehender Architekturen zu bewerten

Projekte zielorientiert aufzusetzen und erfolgreich durchzuführen

Business Cases anhand von Proof of Concepts zu verifizieren.

Big Data ist bei OPITZ CONSULTING eines der TOP 3

Zukunftsthemen!

Big Data = Alter Hut

• IT-Durchdringung der Geschäftswelt steigt seit Beginn

• Mooresche Gesetz gilt immer noch

OPITZ CONSULTING1990

• Database-focused Company

• große Datenmengen & komplexe Anforderungen

OPITZ CONSULTINGt+25

• Individuallösungen, wenn Standard nicht ausreicht

• Kontinuierliche Adaption neuer IT-Trends

Big Data = Chance

• Prozess- und Interessenstransparenz dank Maschine Data

• Wettbewerbsvorteile dank Kombination (Mobile+ Big Data + Cloud + Analytics)

25

Page 6: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 6

Enable

eXtreme

Performance.

Matthias Fuchs

- Senior Consultant

Infrastructure&Database

- 10 Jahre Oracle-Erfahrung

- OCP, Exadata Certified

- Focus on DWH, Audit,

Security in Oracle DB and

Oracle Exa Systems

Bio

Ingo Reisky

- Senior Consultant im

Infrastructure Consulting

bei OPITZ CONSULTING

- Mitglied OC-CC Big Data

- Dipl.-Wirtschaftsingenieur

Univ. Karlsruhe (TH)

- OCP, LPIC-2, RHCT, …

- Fusion MW Spezialist:

Oracle Weblogic Server,

SOA Suite, Enterprise

Manager Cloud Control

Page 7: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 7

Enable

eXtreme

Performance. Agenda

LDW - Logical Data Warehouse

Big Data SQL Infrastructure

Sqoop - der Anfang

Fallbeispiel aus Kundenprojekt

Page 8: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 8

Enable

eXtreme

Performance.

LDW – Logical Data Warehouse

Page 9: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 9

Enable

eXtreme

Performance. Logical Data Warehouse

Gartner Hype Cycle for Information Infrastructure, 2012,

“the Logical Data Warehouse (LDW) is a new data

management architecture for analytics which combines the

strengths of traditional repository warehouses with

alternative data management and access strategy. The

LDW will form a new best practices by the end of 2015.”

Page 10: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 10

Enable

eXtreme

Performance.

Repository Management

Verschiedene Typen u.a. Metadaten

Konsolidierung

Data Virtualization

Virtuelle Daten Schicht

Distributed Processes

Aufruf externer Prozesse

z.B. Bilder oder Content Analyse, aber auch MapReduce

Cloud

Auditing statistics and performance Evaluation

Statistik über Performance

End User, Applikationen oder Verbindungen

SLA Management

Metadataset über erwartete Ausführungenzeiten etc.

Überwachung und ggf. Änderung der Ausführung

Taxonomy - Ontology resolution

a taxonomy “tree” in an ontological “forest”

Metadata Management

Gartner: Logical Data Warehouse

Page 11: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 11

Enable

eXtreme

Performance.

Repository Management

Verschiedene Typen u.a. Metadaten

Konsolidierung

Data Virtualization

Virtuelle Daten Schicht

Distributed Processes

Aufruf externer Prozesse

z.B. Bilder oder Content Analyse, aber auch MapReduce

Cloud

Auditing statistics and performance Evaluation

Statistik über Performance

End User, Applikationen oder Verbindungen

SLA Management

Metadataset über erwartete Ausführungenzeiten etc.

Überwachung und ggf. Änderung der Ausführung

Taxonomy - Ontology resolution

a taxonomy “tree” in an ontological “forest”

Metadata Management

Gartner: Logical Data Warehouse

‚Data-to-insight cycle ' schneller

günstiges Framework um neue

Inhalte einzubeziehen

Höhere Flexibilität

Page 12: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 12

Enable

eXtreme

Performance. Gartner: Übersicht

Aus Gartner Newsletter Logical Data Warehousing for Big Data

Page 13: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 13

Enable

eXtreme

Performance.

Big Data SQL Infrastructure

Page 14: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 14

Enable

eXtreme

Performance. Logische Implementation

Page 15: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 15

Enable

eXtreme

Performance. First LDW Implementationen

SLA Management Audit Management

Virtual.

.

Hadoop

Page 16: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 16

Enable

eXtreme

Performance.

Innovation: Oracle Big Data SQL

Erweitert Oracle SQL für Oracle DB, NoSQL und Hadoop!

Daten aus heterogenen Quellen

Page 17: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 17

Enable

eXtreme

Performance. Big Data Sql - Übersicht

Oracle Big Data SQL

Cloudera

Hadoop

NOSQL

R Advanced

Analytics

Exadata

Advanced

Analytics

Advanced

Security

Connectors

ODI

Or BigData Lite VM

Page 18: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 18

Enable

eXtreme

Performance. Big Data Systemübersicht

Storage Layer

Filesystem (HDFS)

Resource Management YARN + MapReduce

Processing Layer

Big Data SQL

Page 19: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 19

Enable

eXtreme

Performance. Big Data und DB im LDW

ODI, BPM, SOA

Enterprise Metadata

Management

Oracle Big Data

Appliance

Repository Management

Data Virtualization

Distributed Processes

Auditing statistics and performance

SLA Management

Taxonomy - Ontology resolution

Page 20: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 21

Enable

eXtreme

Performance.

Daten in Hadoop laden

Page 21: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 22

Enable

eXtreme

Performance.

Sqoop = SQL- to - Hadoop

Paralleles kopieren von JDBC <-> HDFS

MapReduce jobs zum Daten laden/schreiben

Sqoop

DB

HDFS

Map

Reduce

Page 22: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 23

Enable

eXtreme

Performance.

OraOOP Guy Harrison team Quest (Dell)

Ab version 1.4.5 (CDH 5.1)

Oracle direct path (non-buffered) IO for all reads

Auf mappers werden Anzahl Blöcke verteilt

Bei partitionierten Tabellen, kann der Mapper pro Partition arbeiten

Sqoop mit Oracle

ORACLE TABLE

HDFS

HADOOP MAPPER

ORACLE SESSION

HADOOP MAPPER

ORACLE SESSION

Page 23: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 24

Enable

eXtreme

Performance. Sqoop 1 vs. Sqoop 2

Sqoop 1 Sqoop 2

Kerberos Security, RDBMS

connectors, transfer to hive

Jdbc Connection

Client startet Map jobs Service based, DB Treiber

auf dem Server

MAP only MAPReduce

Client mit connection

Details

Vorkonfigurierte

datasources

Durch quest Oracle direct

Treiber implementiert

Oracle direct connector

geplant 1.99.7

(aktuell1.99.5)

Page 24: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 25

Enable

eXtreme

Performance.

Auszug aus Roadmap Sqoop 2, Version 1.99.7: https://cwiki.apache.org/confluence/display/SQOOP/Sqoop+2+Roadmap

“In this release, let’s focus on developing new connectors and

execution engines.

HBase connector

Hive connector

HCatalog connector (Or is this the same as Hive connector?)

MySQL fast connector

PostgreSQL fast connector

Oracle fast connector

Netezza connector

Teradata connector (?)

Spark execution engine”

Ausblick: Sqoop 2 Roadmap

Page 25: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 26

Enable

eXtreme

Performance.

Oracle Data Integrator

Sqoop loads beide Richtungen

Integration Knowledge Modules

Oracle SQL Connector

External Table

Hive oder HDFS to Oracle

Oracle Loader for Hadoop

Load data to Oracle

Prepare data and load to Oracle

https://docs.oracle.com/cd/E57371_01/doc.41/e57352/start.htm#BDCUG261

Big Data Connector

Page 26: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 27

Enable

eXtreme

Performance. Oracle SQLConnector

http://www.oracle.com/us/products/database/big-data-connectors/certifications/index.html

Page 27: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 28

Enable

eXtreme

Performance.

Oracle Change Data Capture

Supported in 11.2 – but not recommended by Oracle

Desupported in 12.1

Oracle Golden Gate

1. RDBMS to HIVE

2. RDBMS to Flume

3. RDBMS to HDFS

Andere Hersteller:

(Dell) Quest SharePlex – Auslesen redologs

(VMWare) Continuent Tungsten – benutzt CDC im Hintergrund

Libelle

Real Time

Page 28: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 29

Enable

eXtreme

Performance.

Noch mehr SQL auf Hadoop

Page 29: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 30

Enable

eXtreme

Performance.

Zahlreiche Möglichkeiten, mit „R“ strukturierte Daten abzufragen

Verbindung mit R gegen Oracle DB

Package ROracle (mit Oracle Client/Instant Client)

http://www.oracle.com/technetwork/database/database-

technologies/r/roracle/overview/index.html

Verbindung mit R gegen Apache Hadoop oder Hive

Packages in RHadoop (R gegen HDFS, HBase, …): https://github.com/RevolutionAnalytics/RHadoop/wiki

RHIPE: Integrierte R- und Hadoop-Umgebung

Package RHive: HiveQL (HQL, ähnlich SQL) gegen Hive

R in der Oracle DB oder In Hive:

Advanced Analytics Option (AAO)

http://www.oracle.com/technetwork/database/options/advanced-

analytics/overview/index.html

R und SQL

Page 30: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 31

Enable

eXtreme

Performance.

Apache Spark ist eine alternative Execution Engine für Hadoop

(neben MapReduce und Tez) oder Stand-alone: schnell!

Spark SQL: Modul für den Zugriff auf strukturierte Daten

Abfrage aus Spark als “Resilient Distributed Datasets” (RDD):

SchemaRDDs als einheitliches Interface, mit integrierten APIs für

Python, Scala und Java

Auch für die Abfrage aus Hive-Tabellen, Parquet- und JSON-Dateien

Enthält Server-Modus für JDBC- und ODBC-Verbindungen

Unterstützt Ausfalltoleranz während laufender Abfragen nach dem

RDD-Modell und skalliert auch für große Jobs: Eignung für interaktive

und langlaufende Abfragen (historische Daten)

Mehr unter: https://spark.apache.org/sql/

Spark SQL

Page 31: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 32

Enable

eXtreme

Performance.

Fallbeispiel aus Kundenprojekt

Page 32: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 33

Enable

eXtreme

Performance.

Ziel

Daten von Servicecalls (OSB) auswerten

Daten Historisieren

Feststellen von Anomalien

Mappen von Strukturierten und Unstrukturierten Daten

Tabellen/View und Datei Import

Auswertung mit ausgewählten Werkzeugen

Analyse von Infrastrukturdaten

HDFS

Analytic output

Weblogs

CC RDBMS

Flume SQOOP

YARN/MR

• R • Elasticsearch

Page 33: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 34

Enable

eXtreme

Performance.

Wahl der Hadoop Distribution

Cloudera – Oracle supported

Ohne -> sehr aufwendig

Filedaten

Flume

Weblogic und Apache Logs

Gut dokumentiert im Netz

Ggf. Realtime Auswertung mit Elasticsearch or Solr

Hive

CDH 5.1

OCRFile Format

Vorbereitung

Page 34: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 35

Enable

eXtreme

Performance.

Optimized Row Columnar File Format

light-weight indexes bereits im Fileformat

block-mode compression auf basis des Datentyps

Hive ORCFile

TPC-DS Scale 500 Dataset GB, Hortonworks

585

• Encoded Text

• CSV File

505

• RCFile

• Record Columnar File

221

• Parquet

• Columnar Storage Format, impala

131

• ORCFile

• Hive

Größenvergleich

über

verschiedene

Typen

Page 35: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 36

Enable

eXtreme

Performance.

Teil 1 Datenladen

Teil 2

Create Big Data SQL Layer

Ablauf Datenintegration

DB

HDFS HIVE

Oracle Big Data SQL

Page 36: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 37

Enable

eXtreme

Performance. Prozess Teil 1

DB

HDFS HIVE

• Start sqoop job to HDFS

• Create external table on

HDFS Files

• insert as select in hive ocr

data table

• Import parallel 1, da view daten

• Kein primary key, keine parallelen MapReduce Prozesse

• Direct read notwendig, da sonst tmp Tablespace zu klein

• Start mit sqoop2, ende mit sqoop1 inklusiv Optimierung

• ODI statt oozie

Page 37: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 38

Enable

eXtreme

Performance.

Suche Tabelle in Hive aus DB

select table_name, input_format, Location from ALL_HIVE_tables

where table_name like '%oem%';

Prozess Teil 2

Page 38: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 39

Enable

eXtreme

Performance.

Create Table in DB (nur in Test VM)

DDL mit CREATE_EXTDDL_FOR_HIVE erzeugen

DDL ausführen

Prozess Teil 2

dbms_hadoop.create_extddl_for_hive(

CLUSTER_ID=>'bigdatalite',

DB_NAME=>'default',

HIVE_TABLE_NAME=>'oem_data',

HIVE_PARTITION=>FALSE,

TABLE_NAME=>'oem_data',

PERFORM_DDL=>FALSE,

TEXT_OF_DDL=>DDLout

);

CREATE TABLE OEM_DATA ( target_name

VARCHAR2(4000), target_guid …..

key_value6 VARCHAR2(4000),

collection_timestamp VARCHAR2(4000))

ORGANIZATION EXTERNAL

(TYPE ORACLE_HIVE

DEFAULT DIRECTORY DEFAULT_DIR

ACCESS PARAMETERS (

com.oracle.bigdata.cluster=bigdatalite

com.oracle.bigdata.tablename=default.oem_

data)

) ;

DDL Erzeugen

DDL Ausführen

Page 39: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 40

Enable

eXtreme

Performance. Ausführungsplan

Page 40: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 41

Enable

eXtreme

Performance.

Daten für einen Tag

~ 239.634.928 Zeilen/12 Spalten

TXT Files

~100 G unkomprimiert

Ladezeit ca. 1h aus CC DB

OCR Files in hive

~ 27 M komprimiert

~ Ladezeit ca. 30 Minuten

Ergebnisse: Laden der Daten

Type Größe Select

count

Where

Oem_data BigDataSQL 2,8 MB

2,1 Mio

11s 8s

Oem_data local

kopiert

Oracle 558 MB

2,1 Mio

0,5s 0,5s

Oem_data Hive 57s 50s

Teil 1

Teil 2

Page 41: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 42

Enable

eXtreme

Performance.

Only data retrieval (TABLE ACCESS FULL und Filter ) werden

offloaded!

Datenbearbeitung im DB Layer GROUP BY, ORDER BY, JOIN, PL/SQL etc

BigDataSQL 2.0 (Aggregation in Hadoop?)

Alternativ Connect über ODBC

Lastverteilung Big Data SQL

Tool Beschreibung Decompress

CPU

Filtering CPU Datatype

Conversion

Sqoop Hadoop Oracle Oracle

Oracle SQL

Connector

für HDFS

Text Dateien HDFS

oder DataPump

HDFS

Oracle Oracle

Big Data

SQL

12c

Exadata&BDA

Hadoop Hadoop Hadoop

ODBC Hadoop Hadoop Oracle

Page 42: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 43

Enable

eXtreme

Performance. Zusammenfassung

Exadata €€€

DB/EMC €€€

Integration Layer

Exadata €

DB/EMC €

Hadoop

Vorher:

Nacher:

Page 43: SQL mit Oracle DB und Hadoop - … · SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky ... Version 1.3; 10.05.2011; TGA,

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 44

Enable

eXtreme

Performance.

Q & A


Recommended