Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred...

Post on 05-Apr-2015

110 views 2 download

transcript

<Insert Picture Here>

Der Datenqualität auf der SpurData Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

Analyseumgebung

• Oracle Datenquellen• Alle Gateway-

lesbare Quellen• SAP-Daten• Flat Files• Adress-/LDAP-

VerzeichnisseSourceSchema

Profiling Stage

Oracle

SourceSchema Transportable

Module

ExternalTable

SAP

SAPIntegrator

non OracleGateway / ODBC/ FTP Oracle 9i / 10g

RAC

DB2, SQL ServerInformix, Teradata

LDAP / DBMS_LDAP/ Table Function

Vorgehensweise „Daten-Analyse“

1. Identifizieren Geschäftsfeld / Teilprozess

2. Datengewinnung: • Extrakt / Transformation (ETL-Aufgabe)

• Kundenstammdaten -> Testkunde

3. Erstes Profiling -> 1. Sichtprüfung • Fragen / Thesen formulieren

4. Zweites Profiling -> verifizieren • Custom Rules

5. Korrigieren• nachgelagert

• im operativen Prozess

6. Monitoring

Herleiten der entsprechenden Prüfdaten mit ETL-Mitteln

MP_Testkunde

Intuitives Erkennen von Anomalien

Domain Anz_Kinder?• Domain 0,1,2,3, Null• Warum 0 und Null?• Gibt es keine Kunden mit

mehr als 3 Kindern?• Warum gibt es nur 0,3%

Kunden mit 0 Kindern(entspricht nicht der Erwartung)?

• warum gibt es eine gleichmäßige Verteilung der Werte 1,2,3 im Bereich von 32-33 %?

Null kommt offenbar nur bei Firmenkundenvor

Die Zahl 17 kann markant sein. Bei weiterer Prüfung stellt man fest,dass es genau 17 Firmenkunden gib

Es fehlt eine einheitliche Art der Beschreibungfür das Nicht-Vorhandensein (0,Null)

Intuitives Erkennen von Anomalien

Domain Anrede?• Herr / Frau sind

offensichtlich richtige Werte

• Die rot-markierten Werte sind offensichtlich falsch

• Die beiden Werte „3“ und „Anrede“ haben im Vergleich zu den anderen falschen Werten ein signifikant hohes Vorkommen Warum?

• Welche Regel kann für das Feld gefunden werden?

• Wenn Status = ‚F‘ dann Anrede = ‚Firma‘

• Wenn Status = ‚P‘ dann Anrede = ‚Herr‘ oder ‚Frau‘

Gezieltes Überprüfen von Geschäftsregeln (Custom Rule)

Domain Anrede?• Nur ~19% folgen der Regel.

Warum?• Die Domain-Analyse von des

Status-Feldes ergibt den Wertebereich

• F (Firmenkunde)• P (Privatkunde)• G (guter Kunde)• K (kein Kunde)

• Die Überprüfung der Regel hat zu einer weiteren Schwachstelle geführt.

• Das Attribut Status ist überladen, ( es wird für unterschiedliche Sinnzusammenhänge benutzt)

• es müsste eine weitere Spalte geben, z,. B. Qualität der Kundenbez.

Wenn Status = ‚F‘ dann Anrede = ‚Firma‘ und Wenn Status = ‚P‘ dann Anrede = ‚Herr‘ oder ‚Frau‘

Domains, Varianten, AusreißerData Profiling: Verwendung einheitlicher Codes

Berufsgruppe Berufsgruppen_Nr

Erkennen von abhängigen Domains – Functional Dependency

Domains, Varianten, AusreißerData Profiling: mit dem Ziel der Standardisierung

Eine Domain mit fehlerhaften InhaltenDr und Dr.

Prof und Prof.Hinweis für Standardisierungs-Maßnahme

Domains, Varianten, AusreißerData Profiling: mit dem Ziel der Standardisierung

Erkennen von Varianten

Straßenbezeichnungen müssen standardisiert werden,um sie z. B, für eineHaushaltsbildung oderAdressdatenabgleichvergleichen zu können.

Unterstützung von Software-Projekten

!

Übereinstimmung vonFeldname „...nr“ undFeldtyp

Durch den Feldnamenvermutet man rein numerische Inhalte

sieht gut aus

?

Kundennr ist ein wichtiges Feld. Es solltestimmig sein.

Firmenrabatt ist in der Regel ein Rechenfeld

Unterstützung von Software-Projekten

kritisch! da es sichum einen Schlüssel-kandidaten handelt

Felder sind nichtgepflegt

Die Zahl 17 kommt häufig vor, hier muss es eine „systematische“Ursache geben

kritisch! weil doppelteKundennummern

?

?

OK

Was wird geprüft

http://aschlauc-pc.de.oracle.com:7780/pls/htmldb http://aschlauc-pc.de.oracle.com:7780/pls/htmldb metadaten

owb

Metadaten