Date post: | 21-Aug-2019 |
Category: |
Documents |
Upload: | duongkhuong |
View: | 216 times |
Download: | 0 times |
Seminar: Business Intelligence −Teil I: OLAP & Data Warehousing
Data-Warehouse-Design
Jörg Ramser18.07.2003
2
Übersicht
Umsetzung des multidimensionalen DatenmodellsRelationale Speicherung (ROLAP)Multidimensionale Speicherung (MOLAP)Hybride Lösung (HOLAP)
MetadatenRolle der MetadatenAnforderungen an RepositorienStandards
Zusammenfassung
3
ROLAP: Faktentabelle
03.01.2000Lavamat S
Duett
München, IsartorNürnberg,
Breite Gasse
02.01.200001.01.2000
Produkt
Geographie
Zeit
Ohne KlassifikationshierarchienInterpretation der Spalten als
Dimension bzw.Kenngröße
1500201.01.2000München, IsartorLavamat S1200302.01.2000München, IsartorDuett800203.01.2000Nürnberg, Breite GasseDuett
Preis(Kenngröße)
Verkäufe(Kenngröße)
Zeit(Dimension)
Geographie(Dimension)
Produkt(Dimension)
4
KlassifikationshierarchienSnowflake-SchemaStar-SchemaMischformen von Star- und Snowflake-SchemaGalaxie
2000
1. Quartal
Februar ´00Januar ´00
01.01.2000 02.01.2000 10.02.2000 23.02.2000
5
Snowflake-Schema
ProduktGrIDProduktgruppeBranche
ProduktGr
ProduktNrProduktnameProduktGrIDHerstellerFarbePreis
Produkt
DatumTagMonat
Zeit MonatQuartal
MonatQuartalQuartal Jahr
JahrFür jede Klassifikationsstufe eigene RelationFremdschlüssel von tiefer liegender Stufe auf höhere StufeKennzahlen mittels Faktentabellenormalisiert
FilialeIDFilialeStadtID
Filialen
StadtIDStadtRegionID
Stadt
Verkauf
ProduktNrDatumFilialeID
AnzahlUmsatz
Faktentabelle Region
LandIDLand
LandRegionIDRegionLandID
6
Star-Schema
ProduktNrDatumFilialeID
AnzahlUmsatz
Verkauf
ProduktNrProduktNameProduktGruppeBrancheHerstellerFarbePreis
Produkt n
DatumTagMonatQuartalJahr
Zeit1
n
FilialeIDFilialeOrtLandRegion
Filialenn
1
Denormalisierung von Snowflake-SchemaPro Dimension nur noch eine TabelleRedundanzen
Kennzahlen durch Faktentabelle
1
Dimensionstabellen DimensionstabellenFaktentabelle
7
Star-SchemaVorteile
Weniger teure VerbundoperationenStar-Schema besitzt einfachere Struktur
NachteileRedundanzen → Änderungsanomalien
Trotz Redundanzen häufig Star-Schema, daRedundanzen nur in DimensionstabellenÄnderungen an Dimensionstabellen selten
8
VariantenMischformen von Star- und Snowflake-Schema
Vereinigung der Vorteile beider SchemataSnowflake-Schema, falls
Frequenz der Änderungen hochGroße Anzahl von Dimensionselementen auf niedrigster StufeAnzahl der Stufen innerhalb einer Dimension hochInnerhalb einer Dimension viele Aggregate materialisiert
Galaxien bzw. Multi-Faktentabelle
9
Versionisierungs-/Evolutionsaspekte
Klassifikationshierarchieänderungen„Update in place“TupelversionierungZeitattribute
SchemaänderungenSchemaevolutionSchemaversionierung
10
Tupelversionierung – Beispiel
............MobiltelefonDualbandQuickphone 2001239-002MobiltelefonSinglebandQuickphone 1001237-001MobiltelefonDualbandQuickphone 1501235-002MobiltelefonSinglebandQuickphone 1501235-001ProduktfamilieProduktgruppeArtikelANR_VNR
...............99,003507.03.2003500151239-002
53503160Verkäufe
199,0006.03.2003500151235-002199,0005.03.2003500151235-002599,0002.03.2003500151237-001299,0002.03.2003500151235-001PreisDatumFiliale_IDANR_VNR
Faktentabelle
Produkt
11
Zeitbehaftete Schemabeschreibung
BeispielAttribut(AttributDefName, RelationDefName, GA, GE)
„Artikel“ „Produkt“ 1999-07-01, ∞„Marke“ „Produkt“ 1999-07-01, 1999-12-31„Produktgruppe“ „Produkt“ 1999-08-01, ∞„Produktfamilie“ „Produkt“ 1999-08-01, ∞„Artikel_ID“ „Produkt“ 1999-08-01, ∞
Relation (RelationDefName, GA, GE)„Produkt“ 1999-07-01, ∞„Verkäufe“ 1999-07-01, ∞
12
Multidimensionale Speicherung
Hosen
Hemden
Kleidung
VideorecorderUnterhaltungs-elektronik
Jan.
Feb.
Mrz.Qua
rtal 1
Speicherung der DatenstrukturenDimension (inklusive Hierarchien)Würfel
⇒ Speicherung in multidimensionaler Matrix⇒ Problem: Speicherung nur linear möglich
13
LinearisierungsreihenfolgeD3
Index(z) = x1 + (x2-1) · |D1| + (x3-1) · |D1| · |D2| + ... + (xn-1) · |D1| · ... · |Dn-1|
= 1 + , wobei z = (x1, x2, ... xn)∑ ∏⋅− ii Dx )1(=
−
=
n
i
i
j1
1
1
D2
D1
14
relational vs multidimensional
Nachteile
Vorteile
Dünnbesetzte WürfelKein AnfragesprachenstandardSkalierbarkeit eingeschränkt
Standard SQL nur bedingtausreichendSemantikverlustePerformanzverluste beiAbbildung
Hohe AnfragegeschwindigkeitEffiziente multidimensionaleSpeicherungsstrukturenMultidimensionale Anfragesprache
Bewährte TechnologieStandard SQLDatenimport einfachVorhandeneSicherheitsmechanismenVerarbeitung großerDatenmengenLeichte Skalierbarkeit
MultidimensionalRelational
15
Hybride Speicherung
Ziel: Vereinigung der Vorteile beider Welten
→Detaildaten relational speichernAggregierte Daten multidimensional speichernForderung: Zugriffstransparenz für Benutzer
16
Übersicht
Umsetzung des multidimensionalen DatenmodellsRelationale SpeicherungMultidimensionale SpeicherungHybride Lösung
MetadatenRolle der MetadatenAnforderungen an RepositorienStandards
Zusammenfassung
17
Rolle der MetadatenHaltung der Metadaten im Metadaten-Warehouse bzw. Repositorium
Zweck der Metadaten
Effektive Beschaffung von InformationenDatenqualitätTerminologieDatenanalyse
Unterstützung des laufenden BetriebsAutomatisierung der AdministrationsprozesseSystemintegrationSchutz und SicherheitsaspekteFlexibler Softwareentwurf
18
Modellierung MetadatenMindestens 4 Ebenen zur Modellierung komplexer Informationssysteme
Daten
Metadaten
Metamodelle
Metametamodelle
KUNDE_TABELLE, STRASSE_ATTRIBUT
Kundendaten (Müller, Blumenstr)
Repositorium-Schema (TABELLE, ATTRIBUT)
19
Funktionalitäten der RepositorienAnwenderzugriff
NavigationSelektionFilterungManuelle Aktualisierung
Interoperabilität und WerkzeugunterstützungAustauschformatProgrammierschnittstelle (API)Erweiterbares Metamodell
ChangemanagementVersions- undKonfigurationsverwaltungNotifikationsdienstAuswirkungsanalyse
20
Realisierung Metadatenverwaltung
Zentrale MetadatenverwaltungZentral und konsistent verwaltet
Dezentrale MetadatenverwaltungRepositorien komplett unabhängigZusammenarbeit durch Austausch
Föderierte MetadatenverwaltungMischung aus zentraler und dezentraler VerwaltungGlobale, konzeptionelle Sicht auf Metadaten
21
Föderierte Metadatenverwaltung
Administrations-werkzeug
REP REP REP REP
Metadatenmanager
Repositoriumsföderation
Datenfluss
Datenbeschaffungswerkzeug
AnalysewerkzeugData-Warehouse-
ManagerAnwender-
zugriffswerkzeug
Entwicklungswerkzeug
Autonomes Werkzeug
Kontrollfluss
22
StandardsRepositoriumstandards
Information Ressource Dictionary System (IRDS)Portable Common Tool Environment (PCTE)
AustauschstandardsXML-basiertCase Data Interchange Format (CDIF)
Standard MetamodelleCWM (Common Warehouse Metamodel)OIM (Open Information Metamodel)Zachman Framework
23
CWM
RecordOriented
Model
CWM Foundation
Model
XMLModel
Foundation
Resource
RelationalModel
WarehouseDeployment
ModelAnalysis
Management
WarehouseProcessModel
WarehouseOperation
Model
TransformationModel
A BA ist abhängig von B
MDDBModel
OLAPModel
24
Zusammenfassung
Umsetzung des multidimensionalen DatenmodellsRelationale SpeicherungMultidimensionale SpeicherungHybride Lösung
MetadatenRolle der MetadatenAnforderungen an RepositorienStandards