Date post: | 05-Apr-2015 |
Category: |
Documents |
Upload: | lutz-stofer |
View: | 132 times |
Download: | 6 times |
<Insert Picture Here>
Oracle Warehouse Builder 11g
Alfred SchlaucherOracle Data Warehouse
Themen• Oracle Komponenten für das Data Warehouse
• Anforderungen Data Warehouse und Datenintegration
• Oracle Warehouse Builder
• Data Quality Option
InformationManagementundDataWarehouse
Verwaltung und DokumentationMetadatenOwnerschaftenGrid ControlB&R
Aufbau und Verwaltung von Data Warehouse-Umgebungen
Effiziente Datenhaltung SpeichertechnikILMHardwareASMOLAP
Datenintegrationschnelles Bereitstellen DB-basiertes Laden Master Data ManagementETL-OptionSAP Zugriff
Qualitäts-managementData ProfilingData AuditingData Rules
Match Merge
Daten-ZugriffSecurityMandanten BI-Anwendungen
Standard-Berichte Interaktive BerichteData MiningKomplexe Analysen
Verwaltung und DokumentationMetadatenOwnerschaftenGrid ControlB&R
Oracle Komponenten im DWH-Einsatz
Effiziente Datenhaltung SpeichertechnikILMHardwareASMOLAP
Datenintegrationschnelles Bereitstellen DB-basiertes Laden Master Data ManagementETL-OptionSAP Zugriff
Qualitäts-managementData ProfilingData AuditingData Rules
Match Merge
Daten-ZugriffSecurityMandanten BI-Anwendungen
Standard-Berichte Interaktive BerichteData MiningKomplexe Analysen
Data Quality Option
Enterprise-ETL
Label Security
Data Mining
OBI SE
OBI EE
Gateways
Oracle Enterprise Edition
Compression
Bitmapped
Parallel Query
Flashback
Streams
Data Guard
Repository (OWB) Partition
OLAP
RAC
RMAN
Diagnostic Pack
Tuning Pack
SAP Connect
Oracle EE
Oracle Warehouse Builder
• Design des kompletten Data Warehouse Systems• Logisches Design und Beschreibungsinformationen
• Physisches Oracle Datenbank Design
• Fast alle Datenbankobjekte von Oracle 10g
• Bereitstellung der Datenbeschaffungsroutinen• 100% SQL und 100% PL/SQL - Generierung
• Laufzeitkontrolle durch Runtime – System • Universelles Metadaten Repository• Automatisiertes ETL durch Scriptsprache• Data Quality / Data Profiling• Gehört zu den am häufigsten benutzten ETL-Tools
Es gibt 3 Hauptgründe für den Einsatz von OWB
1. Performance
2. Effizientere Warehouse Architekturen
3. Preis
Immer mehr Anwenderbenutzen Daten
Die Anzahl der Systeme und damit der
Schnittstellen steigt
Die Bereitsstellungszeitder Daten wird
zunehmend kürzer
Datenmengenwachsen
Herausforderungenfür
Datenintegrationund
Datenmanagement
Neue Anforderungen an Datenintegration und Datenmanagement
„Lösungen“ der Vergangenheit
• Programmierung von Hand• Zerstreute Programm-Sourcen
• Fehler bei der Entwicklung
• Unnötige Doppelarbeit
• Schlechte oder fehlende Dokumentation• Schlechte Wartbarkeit
• Enorme Folgekosten
• Unkündbare „Inselexperten“• Immer wieder „Katastrophen“
im Echtbetrieb
Wie wardas nur?
Die Geschichte der ETL-Tools geht in Richtung integrierter Werkzeuge
Handprogrammierung
1992 1996 2000
Programm-generatoren
SeparateEngine-gestützteETL-Werkzeuge
DatenbankbasierteETL-Werkzeuge
2005
Warehouse Datenbank
TabellenTabellenIndexIndex
ViewView
MViewMViewSequenzSequenz
FunctionFunctionProcedureProcedureCubeCube
Log
Access/ExcelAccess/Excel
MessageBrokerMessageBroker
SiebelSiebel
PeoplesoftPeoplesoft
WebservicesWebservices
eMaileMail
DB2 OS390, UDBSybase, Informix,SQL-Server...
Oracle (Remote)
XML
PL/SQLPL/SQLUTL_FILEUTL_FILE
XMLXML
DB-LinkDB-Link
QueueQueue
GatewayGateway
ODBCODBCDB-LinkDB-Link
QueueQueue
CDCCDCtcptcp
AdapterAdapter
StreamsStreams
Ext. TableExt. Table
SAP Int.SAP Int.XMLPortXMLPort
XML
FlatFile
FlatFile
FTPPortFTPPort
FlatFile
SQL LoaderSQL Loader
XMLXML
Schnittstellen zu Quell und Zielsystemen (Ausschnitt)
any Systemany System Knowledge Module (Q2/2008)Knowledge Module (Q2/2008)
<Insert Picture Here>
Datenbank-basiertes Laden
Datenbank – basiertes ETL
• SQL basiert, d. h. die Oracle Datenbank wird ausgenutzt• Möglichkeit primär mengenbasierte Operationen durchzuführen• Wesentlich höhere Performance• Automatisiertes Datenbankgeregelte Parallelisieren• Datenbankgestütztes Ressources - Management
• Unterstützung aller aktuellen Datenbank – ETL – Funktionen wie
• Multiple Inserts• Merge (Insert/Update)• Direct Path Load• Table Functions• Partition Exchange and Load
Datenbank – basiertes ETL
• Vollständige Hints – Bibliothek • Verwendung aller Datenbank – Funktionen, z. B.
auch analytische Funktionen• Im Gegensatz zu den von 3. Herstellern nachgebildeten z. T.
unvollständigen Funktionen (Beispiel SQL CASE, Decode)
• Datennahes Entwickeln• Leichtes performantes und mengenbasiertes Updaten von
Sätzen• Ausnutzen temporärere Strukturen
• Temp – Tables• Cache – Tables
• Ausnutzen besonders schneller Tabellen – Objekte• Index – Based Tables
• Direkter Zugriff auf Tabelleninhalte
Datenbank - basiertes ETL
• Nähe zu Katalogstrukturen• Alle Informationen stehen sofort zur Verfügung
• Komplett – Definition aller physikalischen Objekte im Data Warehouse • (Tables, Index, Materialised Views, Partitioning ...)
Datenbank – basiertes ETLim Zusammenhang mit OWB
• ETL - Integriertes Data Quality• Data Cleansing / Data Profiling
• ETL – Makro – Bildung / Experts• Integrierte datenbankbasierte Workflow –
Umgebung• Web – basiertes Auswerten von Metadaten und
Laufzeitergebnissen• Unterstützung der Datenbank – Near Realtime –
Funktionalität wie Queues, Streams, CDC, Web Services
<Insert Picture Here>
OWB: Einzelaspekte und Screens
Datenmodeller
Change Manager
Data Viewer
Repository Browser
Mapper
Control Center
Scheduler
Runtime Audit
Process Editor
Rules Editor
Experts-Macros
Dependencies
Data Profiler
KomponentenOWB
Zurück
Hinterlegung fachlicherBeschreibungen
Zrück
Analyse der Quelldaten- Data Profiling
Zurück
Das gesamte Systemmodellieren
Zurück
Datenmodelle entwerfen
Zurück
Komplette Definition von Tabellen
Zurück
Transformationenmit Mappings
Zusätzliche Hilfsfensterdes Mappingeditors
Operatoren desMappingeditors
Zurück
Testdaten-generierung
Zurück
Process-Editor
Metadaten-Dependency-Manager
Abhängigkeits- und Auswirkungsanalyse
Zurück
Metadaten-Browser (Web)
Job-Kontrolle im Web
Reporting über stattgefundene Ladeläufe
Zurück
Individuelle Listenreports über Metadaten
HTMLDB
Zurück
ColumnTransformation
Tabellen-Mapping
Teil-Prozess
Gesamt-Prozess
4 – Schichten Prozessverwaltung
Repository
Variablen Variablen
Steuertabellen
Workflow / BPEL
A1
Metadaten gestützte Steuerungslogik für das Data Warehouse
Zusammenfassen von Mappings zu Prozessen
Prozesssteuerung z. B.mit Schleifen und Variablen
Weitere Infos
http://www.oracle.com/technology/products/warehouse/index.html
Die neue Software OWB kann über OTN bezogen werden.http://www.oracle.com/technology/software/products/warehouse/index.html
<Insert Picture Here>
Data Quality Management
Data Quality Management Prozess
Themen
• Oracle und Data Quality
• Data Quality
• Vorgehensweise bei der Datenqualitätsanalyse
• Exemplarische Analysen Cheers GmbH
• Zusammenfassung der Analyseergebnisse
InformationManagementundDataWarehouse
Datenqualität? Was ist das?Unsere Daten sind doch sauber!
• Bis zu 20% der operativen Daten sind betroffen.• Unternehmen finanzieren schlechte mit 30-50%
der IT-Ausgaben.• Über schlechte Daten redet man nicht, man
arrangiert sich.
Die Kosten der schlechten Daten
Ohne Daten kein Business Daten sind der Treibstoff der Prozesse
Operative Prozesse
Information Chain
KundeKunden-betreuer
Logistik- system
Stamm- daten
Marketing
Buch-haltung
Lager Spedition
Kunde
BedarfAdresseKredit-daten
Angebot Bestand
Bestell-daten
KD-Daten
Kredit OK Order
Adresse
Werbung
Verkaufs-daten
Rechnung
Bezahlung Reklamation
Mahnung
Liefer-schein
Aspekte der Datenqualität
Brauchbarkeit der Daten!
Verfügbar (Access)
Aktuell
Korrekt
Vollständig
Redundanzfrei
Dokumentiert
Handhabbar
Nützlich (TCO)
Stimmig
Beispiel: Datenqualitätsproblem
• 5 Millionen Privatkunden-Kontaktdaten• Davon 372112 unterschiedliche Berufe
Wie wertvoll ist diese Art der Information?Kann damit eine Segmentierung für eine
Marketingkampagne gesteuert werden?
• Datenmaterial lässt Rückschlüsse auf dieGeschäftsprozesse zu!
Versteckte Kosten durch schlechte Datenqualität
• Manuelles Nacharbeiten von Daten• Beschwerden -> Aufwand in Call Center• Erhöhte Projektkosten bei Einführung neuer
Systeme• Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder
fehlender Daten
• Verspätete Unternehmensberichte • Verlorene Kunden durch schlechten Support• Produktionsausfälle durch Störung in der
Supply Chain
Wem hilft das Data Profiling?
Software- Entwickler
Verstehen der Anwendungsdaten.
2 Datenmodellierer Erkennen von Datenstrukturen.
3
Organisatoren+ Systemplaner Erkennen von Anforderungen.
4
Fachmitarbeiter Erkennung von Schwachstellen in den Prozessen.
1
5 Data Warehouse- Entwickler Lösen von Integrations- aufgaben. Blick in die Vorsysteme.
6 Wartungs- mitarbeiter Überprüfen von Datenregeln.
Data Profiling Hilfsmittel für viele Anforderungen
Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt
Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt
Environment - Datenmengen - Rechner - Planung notwendig
Zurechtschneidender Daten - Daten aufbrechen - Teilmengen bilden- Referenzdaten zusammenführen - Sampling - Mehrfach - Profiling - Einsatz von ETL
Analysieren derDaten - „Augenfällige“ Erkenntnisse -> der erste Schuss - „Dinge, die sofort auffallen“ -> Domains / Pattern / PK - Visuelles Analysieren - Graphikeinsatz - Beziehungen analysieren
Ableiten von Regeln und Korrekturen - Automatisches Erkennen - Benutzerdefinierte Regeln - Generieren von Korrekturmappings
Dokumentierender Ergebnisse - Ergebnisblatt - Definition Metadaten - Orga - Handbuch
Regeln, die nicht abgedeckt werdenund deren Lösung - komplexe Lookup – Beziehungen - Rekursive Strukturen - Tupel – übergreifende Abhängigkeiten
Ablauf Data Profiling Analyse
ETL - Prozess - Mappings - Routinen - Workflow - Metadatenrepository
KorrekteDaten
1 2 3 4 5 6 X7
Ständige Kommunikationmit der Fachabteilung
„Induktives und deduktives“ Vorgehen
• Wir wissen, vermuten Dinge die nicht stimmen
• Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten
• Wir lassen uns überraschen, was da noch kommt• Wir stöbern in den Daten und
• entdecken Auffälligkeiten• beginnen zu kombinieren • stellen Hypothesen auf• versuchen Zusammenhänge
zu beweisen
Vermutungen verifizieren
Neues entdecken
Data Profiling mit OWBMethoden
Feintuning zu
den Analyse-
methoden
Die
operativen
Daten
Proto-
kollierung
laufende
Analysen
Drill Down zu den operativen Daten
Verständlichkeit des Datenmodells(z. B. Homonyme)
Kundenstatus:P: PrivatkundeF: FirmenkundeG: „guter“ KundeK: „kein“ Kunde
Produktstatus:1: Großhandelsware f. Baumärkte2: Produkte kaufbar über Internet3: Serviceleistung (Kredite und Handwerksleistung)
Kunden_Stamm
Produkte_Stamm
Schlüsselanalyse(Eindeutigkeit in den Stammdaten)
Doppelter Datensatz
Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt
Unterschiedliche Sätze, aberFeld wird nicht genutzt
Schlüsselanalyse(Eindeutigkeit in den Bewegungsdaten)
Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?)
Produkte_Stamm Artikel_Gruppe
Child Parent
Kardinalität Waisen
n:1
Hilfsmittel: Referential
Kunden_stamm
Zahlung
Bestellung
Best_Position
Kundennummer = 12
Bestellnummer = 30
Kundennummer = 12Bestellnummer = 30
Bestellnummer = 30
Kundennummer = 12
Kundennummer = 21
???
Kreisbeziehung(Irgendwann passen die Daten nicht mehr zusammen)
Analyse von Hierarchien
Produkte_Stamm
Artikel_Gruppe
Artikelsparte ARTIKELSPARTENNR1 , 2 ,3
ARTIKELSPARTENNR1,4,3ARTIKELGRUPPENNR1,2,3,4,5,6,11,10,9,8,7
ARTIKELGRUPPENNR100,1,6,2,5,4,7,3,10
Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE
Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE
Vergleich der Wertebereiche von referenzierenden Feldern
Position
Produkte
Gruppen
Sparten
Kunden-Stamm
Bestellung
Falsche Statuskennzeichnungvon Finanzprodukten
Orphans
Fehlerhafte Spartenkennzeichnungvon Gruppen
Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden.
Fehlerhafte Verschlüsselungvon Artikel- und Produkten
DoppelteProduktnummern
Fehlerhafte , nicht rechenbareEinzelpreisbezeichnung
Umsatz pro Sparte?Umsatz pro Gruppe?Umsatz pro Produkt?Werden korrekte
Rechnungen gestellt?Umsatz pro Kunde?Macht die Kundenkarte
Sinn?
Ergebnisse der Hierarchie- und Beziehungsanalyse
BI?
Suche nach redundanten Informationen(1. Normalform)
Kundenstatus:P: PrivatkundeF: FirmenkundeG: „guter“ KundeK: „kein“ Kunde
Kunden_Stamm
Folge:Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar.(Z. B. Abfragen über die Wirkung der Kundenkarte.
Hilfsmittel: Domainanalyse
Functional DependencyAbhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %
Suche nach redundanten Informationen(3. Normalform)
Hilfsmittel: Beziehungsanalyse
Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %
Prüfung der aufgestellten Geschäftsregeln
Korrekt, muß 0 sein
Korrekt:Es kann nur einWert gepflegt sein.
Korrekt, muß 0 sein
Korrekt, das sind richtige Werte
Korrekt, muß 0 sein
Korrekt: Zusammen 100%(Alle Fälle erfasst)
Problem:kein Schlüsselfeldist gepflegt
Korrekt, das sind die richtigen Werte
Korrekt, muß 0 sein
Korrekt
Korrekt:Zusammen100%.(Alle Fälle erfasst)
Problem
Korrekt, muß 0 sein
Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit
StammdatenbetrachtungIn einigen Fällen fehlen die Einkaufpreise
?
Nicht normiertes DatenmaterialMit solchen Daten kann man nicht rechnen
Hilfsmittel: Pattern-Analyse
Weitere Infos
http://www.oracle.com/technology/products/warehouse/index.html
Die neue Software OWB kann über OTN bezogen werden.http://www.oracle.com/technology/software/products/warehouse/index.html