Data-Warehouse-Design · Produkt (Dimension) 4 Klassifikationshierarchien Snowflake-Schema...

Post on 21-Aug-2019

216 views 0 download

transcript

Seminar: Business Intelligence −Teil I: OLAP & Data Warehousing

Data-Warehouse-Design

Jörg Ramser18.07.2003

2

Übersicht

Umsetzung des multidimensionalen DatenmodellsRelationale Speicherung (ROLAP)Multidimensionale Speicherung (MOLAP)Hybride Lösung (HOLAP)

MetadatenRolle der MetadatenAnforderungen an RepositorienStandards

Zusammenfassung

3

ROLAP: Faktentabelle

03.01.2000Lavamat S

Duett

München, IsartorNürnberg,

Breite Gasse

02.01.200001.01.2000

Produkt

Geographie

Zeit

Ohne KlassifikationshierarchienInterpretation der Spalten als

Dimension bzw.Kenngröße

1500201.01.2000München, IsartorLavamat S1200302.01.2000München, IsartorDuett800203.01.2000Nürnberg, Breite GasseDuett

Preis(Kenngröße)

Verkäufe(Kenngröße)

Zeit(Dimension)

Geographie(Dimension)

Produkt(Dimension)

4

KlassifikationshierarchienSnowflake-SchemaStar-SchemaMischformen von Star- und Snowflake-SchemaGalaxie

2000

1. Quartal

Februar ´00Januar ´00

01.01.2000 02.01.2000 10.02.2000 23.02.2000

5

Snowflake-Schema

ProduktGrIDProduktgruppeBranche

ProduktGr

ProduktNrProduktnameProduktGrIDHerstellerFarbePreis

Produkt

DatumTagMonat

Zeit MonatQuartal

MonatQuartalQuartal Jahr

JahrFür jede Klassifikationsstufe eigene RelationFremdschlüssel von tiefer liegender Stufe auf höhere StufeKennzahlen mittels Faktentabellenormalisiert

FilialeIDFilialeStadtID

Filialen

StadtIDStadtRegionID

Stadt

Verkauf

ProduktNrDatumFilialeID

AnzahlUmsatz

Faktentabelle Region

LandIDLand

LandRegionIDRegionLandID

6

Star-Schema

ProduktNrDatumFilialeID

AnzahlUmsatz

Verkauf

ProduktNrProduktNameProduktGruppeBrancheHerstellerFarbePreis

Produkt n

DatumTagMonatQuartalJahr

Zeit1

n

FilialeIDFilialeOrtLandRegion

Filialenn

1

Denormalisierung von Snowflake-SchemaPro Dimension nur noch eine TabelleRedundanzen

Kennzahlen durch Faktentabelle

1

Dimensionstabellen DimensionstabellenFaktentabelle

7

Star-SchemaVorteile

Weniger teure VerbundoperationenStar-Schema besitzt einfachere Struktur

NachteileRedundanzen → Änderungsanomalien

Trotz Redundanzen häufig Star-Schema, daRedundanzen nur in DimensionstabellenÄnderungen an Dimensionstabellen selten

8

VariantenMischformen von Star- und Snowflake-Schema

Vereinigung der Vorteile beider SchemataSnowflake-Schema, falls

Frequenz der Änderungen hochGroße Anzahl von Dimensionselementen auf niedrigster StufeAnzahl der Stufen innerhalb einer Dimension hochInnerhalb einer Dimension viele Aggregate materialisiert

Galaxien bzw. Multi-Faktentabelle

9

Versionisierungs-/Evolutionsaspekte

Klassifikationshierarchieänderungen„Update in place“TupelversionierungZeitattribute

SchemaänderungenSchemaevolutionSchemaversionierung

10

Tupelversionierung – Beispiel

............MobiltelefonDualbandQuickphone 2001239-002MobiltelefonSinglebandQuickphone 1001237-001MobiltelefonDualbandQuickphone 1501235-002MobiltelefonSinglebandQuickphone 1501235-001ProduktfamilieProduktgruppeArtikelANR_VNR

...............99,003507.03.2003500151239-002

53503160Verkäufe

199,0006.03.2003500151235-002199,0005.03.2003500151235-002599,0002.03.2003500151237-001299,0002.03.2003500151235-001PreisDatumFiliale_IDANR_VNR

Faktentabelle

Produkt

11

Zeitbehaftete Schemabeschreibung

BeispielAttribut(AttributDefName, RelationDefName, GA, GE)

„Artikel“ „Produkt“ 1999-07-01, ∞„Marke“ „Produkt“ 1999-07-01, 1999-12-31„Produktgruppe“ „Produkt“ 1999-08-01, ∞„Produktfamilie“ „Produkt“ 1999-08-01, ∞„Artikel_ID“ „Produkt“ 1999-08-01, ∞

Relation (RelationDefName, GA, GE)„Produkt“ 1999-07-01, ∞„Verkäufe“ 1999-07-01, ∞

12

Multidimensionale Speicherung

Hosen

Hemden

Kleidung

VideorecorderUnterhaltungs-elektronik

Jan.

Feb.

Mrz.Qua

rtal 1

Speicherung der DatenstrukturenDimension (inklusive Hierarchien)Würfel

⇒ Speicherung in multidimensionaler Matrix⇒ Problem: Speicherung nur linear möglich

13

LinearisierungsreihenfolgeD3

Index(z) = x1 + (x2-1) · |D1| + (x3-1) · |D1| · |D2| + ... + (xn-1) · |D1| · ... · |Dn-1|

= 1 + , wobei z = (x1, x2, ... xn)∑ ∏⋅− ii Dx )1(=

=

n

i

i

j1

1

1

D2

D1

14

relational vs multidimensional

Nachteile

Vorteile

Dünnbesetzte WürfelKein AnfragesprachenstandardSkalierbarkeit eingeschränkt

Standard SQL nur bedingtausreichendSemantikverlustePerformanzverluste beiAbbildung

Hohe AnfragegeschwindigkeitEffiziente multidimensionaleSpeicherungsstrukturenMultidimensionale Anfragesprache

Bewährte TechnologieStandard SQLDatenimport einfachVorhandeneSicherheitsmechanismenVerarbeitung großerDatenmengenLeichte Skalierbarkeit

MultidimensionalRelational

15

Hybride Speicherung

Ziel: Vereinigung der Vorteile beider Welten

→Detaildaten relational speichernAggregierte Daten multidimensional speichernForderung: Zugriffstransparenz für Benutzer

16

Übersicht

Umsetzung des multidimensionalen DatenmodellsRelationale SpeicherungMultidimensionale SpeicherungHybride Lösung

MetadatenRolle der MetadatenAnforderungen an RepositorienStandards

Zusammenfassung

17

Rolle der MetadatenHaltung der Metadaten im Metadaten-Warehouse bzw. Repositorium

Zweck der Metadaten

Effektive Beschaffung von InformationenDatenqualitätTerminologieDatenanalyse

Unterstützung des laufenden BetriebsAutomatisierung der AdministrationsprozesseSystemintegrationSchutz und SicherheitsaspekteFlexibler Softwareentwurf

18

Modellierung MetadatenMindestens 4 Ebenen zur Modellierung komplexer Informationssysteme

Daten

Metadaten

Metamodelle

Metametamodelle

KUNDE_TABELLE, STRASSE_ATTRIBUT

Kundendaten (Müller, Blumenstr)

Repositorium-Schema (TABELLE, ATTRIBUT)

19

Funktionalitäten der RepositorienAnwenderzugriff

NavigationSelektionFilterungManuelle Aktualisierung

Interoperabilität und WerkzeugunterstützungAustauschformatProgrammierschnittstelle (API)Erweiterbares Metamodell

ChangemanagementVersions- undKonfigurationsverwaltungNotifikationsdienstAuswirkungsanalyse

20

Realisierung Metadatenverwaltung

Zentrale MetadatenverwaltungZentral und konsistent verwaltet

Dezentrale MetadatenverwaltungRepositorien komplett unabhängigZusammenarbeit durch Austausch

Föderierte MetadatenverwaltungMischung aus zentraler und dezentraler VerwaltungGlobale, konzeptionelle Sicht auf Metadaten

21

Föderierte Metadatenverwaltung

Administrations-werkzeug

REP REP REP REP

Metadatenmanager

Repositoriumsföderation

Datenfluss

Datenbeschaffungswerkzeug

AnalysewerkzeugData-Warehouse-

ManagerAnwender-

zugriffswerkzeug

Entwicklungswerkzeug

Autonomes Werkzeug

Kontrollfluss

22

StandardsRepositoriumstandards

Information Ressource Dictionary System (IRDS)Portable Common Tool Environment (PCTE)

AustauschstandardsXML-basiertCase Data Interchange Format (CDIF)

Standard MetamodelleCWM (Common Warehouse Metamodel)OIM (Open Information Metamodel)Zachman Framework

23

CWM

RecordOriented

Model

CWM Foundation

Model

XMLModel

Foundation

Resource

RelationalModel

WarehouseDeployment

ModelAnalysis

Management

WarehouseProcessModel

WarehouseOperation

Model

TransformationModel

A BA ist abhängig von B

MDDBModel

OLAPModel

24

Zusammenfassung

Umsetzung des multidimensionalen DatenmodellsRelationale SpeicherungMultidimensionale SpeicherungHybride Lösung

MetadatenRolle der MetadatenAnforderungen an RepositorienStandards