Data Warehouse Blueprints - Dani Schnider, Claus Jordan, Peter Welker, Joachim Wehner

Blick ins Buch

Data Warehouse Blueprints (eBook)

Business Intelligence in der Praxis

Dani Schnider, Claus Jordan, Peter Welker, Joachim Wehner (Autoren)

eBook Download: PDF | EPUB

2016
281 Seiten
Carl Hanser Verlag GmbH & Co. KG
978-3-446-45111-7 (ISBN)

Lese- und Medienproben

Ebook-Leseprobe (PDF)

Data-Warehouse-Lösungen mit Blueprints erfolgreich umsetzen

Dieses Buch gibt Ihnen einen Überblick über eine typische Data-Warehouse-Architektur und zeigt anhand von zahlreichen Best Practice-Beispielen, wie Sie die einzelnen Komponenten eines Data Warehouses realisieren und betreiben können. Skalierbarkeit, Performance und Integration sind dabei die wichtigsten Erfolgsfaktoren.

Der kompakte und kompetente Leitfaden für Ihr Projekt

Warum benötigt man eine Staging Area? Wie sollen fehlende oder fehlerhafte Daten beim Ladeprozess behandelt werden? Ist es zweckmäßiger, einen oder mehrere Data Marts zu erstellen? Wo werden die Daten aus verschiedenen Datenquellen integriert und wie sollen sie historisiert werden? Zu diesen und vielen weiteren Fragen erhalten Sie Antworten sowie Tipps und Tricks aus der Praxis.

Wertvolles Know-how aus der Praxis

Profitieren Sie von der langjährigen Erfahrung der Autoren. Die vorgestellten Konzepte und Vorgehensweisen haben sich bereits in zahlreichen Projekten bewährt.

AUS DEM INHALT

• Einleitung

• Architektur

• Datenmodellierung

• Datenintegration

• Design der DWH-Schichten

• Physisches Datenbankdesign

• BI-Anwendungen

• Betrieb

Claus Jordan, Dani Schnider, Joachim Wehner und Peter Welker sind Data-Warehouse-Architekten mit langjähriger Erfahrung aus zahlreichen BI-Projekten in unterschiedlichen Branchen. Ihr Fokus liegt vor allem in der breit gefächerten Oracle-Technologie - von der Datenbank über das Design, ETL, Frontends sowie Performance-Reviews bis hin zum Redesign von Data Warehouses.

Inhalt 5
Geleitwort 14
Über dieses Buch 16
Die Autoren 18
1 Einleitung 20
1.1 Ziele dieses Buches 21
1.2 Struktur dieses Buches 22
1.3 Hinweis zur Anwendung dieses Buches 23
2 Architektur 24
2.1 Data Warehouse-Architektur 24
2.1.1 Aufbau eines Data Warehouse 25
2.1.2 Transformationsschritte 28
2.1.3 Architekturgrundsätze 29
2.2 Architektur BI-Anwendungen 32
2.2.1 Die BI-Plattform zur Integration von Datenquellen 34
2.2.2 Die BI-Plattform zur Vereinheitlichung der Frontends 36
2.3 Datenhaltung 37
2.3.1 Grenzen gängiger DWH/BI-Technologien 38
2.3.2 Datenhaltung im Hadoop-Ecosystem 39
2.3.3 In-Memory-Datenbanken 42
3 Datenmodellierung 46
3.1 Vorgehensweise 46
3.1.1 Anforderungsgetriebene Modellierung 46
3.1.2 Quellsystemgetriebene Modellierung 48
3.1.3 Kombination der Ansätze 49
3.2 Relationale Modellierung 49
3.2.1 Darstellung von relationalen Datenmodellen 50
3.2.2 Normalisierung 50
3.2.3 Stammdaten und Bewegungsdaten 51
3.2.4 Historisierung 51
3.2.5 Relationales Core 53
3.2.6 Corporate Information Factory 54
3.2.7 Data Vault Modeling 54
3.3 Dimensionale Modellierung 56
3.3.1 Implementierung von dimensionalen Modellen 57
3.3.1.1 Relationale Implementierung 58
3.3.1.2 Multidimensionale Implementierung 59
3.3.2 Dimensionen 60
3.3.2.1 Fachliche Attribute 60
3.3.2.2 Technische Attribute 60
3.3.2.3 Hierarchien 61
3.3.2.4 Conformed Dimensions 62
3.3.2.5 Slowly Changing Dimensions 63
3.3.2.6 Zeitdimension 66
3.3.2.7 Bridge Tables 67
3.3.2.8 Spezielle Dimensionen 69
3.3.3 Fakten 70
3.3.3.1 Kennzahlen 70
3.3.3.2 Typen von Fakten 70
3.3.4 Modellierung spezieller Problemstellungen 72
3.3.4.1 Fakten unterschiedlicher Granularität und Rollen 72
3.3.4.2 Gemeinsame Hierarchiestufen in verschiedenen Dimensionen 73
3.3.4.3 Modellierungsgrundsätze für Dimensionen und Fakten 74
3.3.5 Darstellung von dimensionalen Modellen 75
3.3.5.1 ADAPT-Notation 75
3.3.5.2 Entity-Relationship-Diagramme 77
3.3.5.3 Data-Warehouse-Bus-Matrix 77
3.3.6 Dimensionales Core 78
3.4 Tools zur Datenmodellierung 79
3.4.1 Tools für relationale Datenmodellierung 79
3.4.2 Tools für dimensionale Datenmodellierung 80
4 Datenintegration 82
4.1 Data Profiling 83
4.1.1 Probleme mangelnder Datenqualität 83
4.1.2 Einsatz von Data Profiling 84
4.2 ETL 85
4.2.1 Aufgaben der ETL-Prozesse 86
4.2.1.1 Extraktion aus Quellsystemen 86
4.2.1.2 Transformationen 86
4.2.1.3 Laden in die Zieltabellen 87
4.2.2 ETL-Tools 87
4.2.2.1 Funktionalität von ETL-Tools 89
4.2.2.2 ETL oder ELT? 89
4.2.2.3 Positionierung von ETL-Tools 91
4.2.3 Performance-Aspekte 91
4.2.3.1 Mengenbasierte statt datensatzbasierte Verarbeitung 91
4.2.3.2 ELT-Tool statt ETL-Tool 92
4.2.3.3 Reduktion der Komplexität 93
4.2.3.4 Frühzeitige Mengeneinschränkung 94
4.2.3.5 Parallelisierung 95
4.2.4 Steuerung der ETL-Prozesse 97
4.2.4.1 Protokollierung des ETL-Ablaufs 97
4.2.4.2 Restartfähigkeit und Wiederaufsetzpunkte 98
4.3 Extraktion und Delta-Ermittlung 99
4.3.1 Delta-Extraktion im Quellsystem 100
4.3.1.1 Änderungsmarker und Journaltabellen 100
4.3.1.2 Delta-Ermittlung und Pending Commits 101
4.3.1.3 Change Data Capture 102
4.3.2 Voll-Extraktion und Delta-Abgleich im Data Warehouse 103
4.3.2.1 Zwei Versionen des Vollabzugs in der Staging Area 104
4.3.2.2 Vorteil einer Voll-Extraktion für die Delta-Ermittlung 106
4.3.3 Wann verwende ich was? 106
4.4 Fehlerbehandlung 107
4.4.1 Fehlende Attribute 108
4.4.1.1 Filtern von fehlerhaften Datensätzen 108
4.4.1.2 Fehlerhafte Datensätze in Fehlertabelle schreiben 108
4.4.1.3 Singletons auf Attributebene 109
4.4.2 Unbekannte Codewerte 109
4.4.2.1 Filtern von fehlerhaften Datensätzen 110
4.4.2.2 Singletons auf Datensatzebene 110
4.4.2.3 Generierung von Embryo-Einträgen 110
4.4.3 Fehlende Dimensionseinträge 111
4.4.3.1 Filtern von unvollständigen Fakten 112
4.4.3.2 Referenz auf Singleton-Einträge 113
4.4.3.3 Generieren von Embryo-Einträgen 114
4.4.4 Doppelte Datensätze 115
4.4.4.1 Verwendung von DISTINCT 116
4.4.4.2 Nur ersten Datensatz übernehmen 116
4.5 Qualitätschecks 116
4.5.1 Qualitätschecks vor und während des Ladens 117
4.5.2 Qualitätschecks nach dem Laden 118
4.5.3 Qualitätschecks mithilfe von Test-Tools 118
4.6 Real-Time BI 119
4.6.1 Begriffsbestimmung 120
4.6.2 Garantierte Verfügbarkeit von Informationen zu gegebenem Zeitpunkt 120
4.6.3 Verfügbarkeit von Informationen simultan zur Entstehung 121
4.6.4 Verfügbarkeit von Informationen kurz nach ihrer Entstehung 123
4.6.4.1 Events und Batchverarbeitung 124
4.6.4.2 Real-Time-Partitionen 125
4.6.5 Zusammenfassung 126
5 Design der DWH-Schichten 128
5.1 Staging Area 129
5.1.1 Gründe für eine Staging Area 130
5.1.2 Struktur der Stage-Tabellen 131
5.1.3 ETL-Logik für Stage-Tabellen 132
5.1.3.1 Einschränkungen bei der Extraktion 133
5.1.3.2 Transformation 133
5.1.3.3 Sonstige Informationen 134
5.2 Cleansing Area 134
5.2.1 Gründe für eine Cleansing Area 134
5.2.2 Struktur der Cleanse-Tabellen 135
5.2.3 Beziehungen in der Cleansing Area 137
5.2.4 ETL-Logik für Cleanse-Tabellen 139
5.2.4.1 Einschränkungen bei der Extraktion 140
5.2.4.2 Transformation 140
5.2.4.3 Sonstige Informationen 141
5.3 Core-Datenmodell allgemein 141
5.3.1 Aufgaben und Anforderungen an das Core 142
5.3.2 Stammdaten im Core 143
5.3.3 Bewegungsdaten im Core 143
5.3.4 Beziehungen im Core 143
5.3.5 Datenmodellierungsmethoden für das Core 144
5.4 Core-Datenmodell relational mit Kopf- und Versionstabellen 145
5.4.1 Historisierung von Stammdaten mit Kopf- und Versionstabellen 146
5.4.2 Struktur der Stammdatentabellen 147
5.4.2.1 Tabellenspalten und Schlüssel 148
5.4.2.2 Beziehungen (1:n) zwischen Stammdaten 151
5.4.2.3 Beziehungen (m:n) zwischen Stammdaten 152
5.4.3 ETL-Logik für Stammdatentabellen 154
5.4.3.1 Lookups (Schritt 1) 155
5.4.3.2 Outer Join (Schritt 2) 156
5.4.3.3 Neue Datensätze (Schritt 3) 160
5.4.3.4 Schließen einer Version/Fall 1 (Schritt 4) 161
5.4.3.5 Aktualisieren/Fall 2 (Schritt 5) 161
5.4.3.6 Versionieren/Fall 3 und 4 (Schritt 6) 161
5.4.3.7 Singletons 161
5.4.4 Typen von Bewegungsdaten 162
5.4.4.1 Transaction Tables 163
5.4.4.2 Snapshot Tables 163
5.4.4.3 Snapshot Tables versioniert 164
5.4.5 Struktur der Bewegungstabellen 165
5.4.5.1 Tabellenspalten und Schlüssel 166
5.4.5.2 Beziehungen zu Stammdaten 169
5.4.6 ETL-Logik für Bewegungstabellen 172
5.4.6.1 Lookups 173
5.4.6.2 Sonstige Informationen 174
5.4.7 Views für externen Core-Zugriff 174
5.4.7.1 Views für Stammdaten 175
5.4.7.2 Views für Bewegungsdaten 179
5.5 Core-Datenmodell relational mit Data Vault 180
5.5.1 Stammdaten 180
5.5.2 Beziehungen 181
5.5.3 Bewegungsdaten 181
5.5.4 Historisierung 182
5.5.5 Struktur der Tabellen 182
5.5.5.1 Hubtabellen – Tabellenspalten und Schlüssel 182
5.5.5.2 Satellitentabellen – Tabellenspalten und Schlüssel 183
5.5.5.3 Linktabellen – Tabellenspalten und Schlüssel 184
5.5.6 ETL-Logik 185
5.5.7 Views für externen Core-Zugriff auf das Data-Vault-Datenmodell 186
5.5.7.1 Views für Stammdaten (ein Satellite pro Hub bzw. Link) 186
5.5.7.2 Views für Stammdaten (mehrere Satellites pro Hub bzw. Link) 189
5.6 Core-Datenmodell dimensional 192
5.6.1 Star- oder Snowflake-Schema 193
5.6.1.1 Star-Schema 193
5.6.1.2 Snowflake-Schema 194
5.6.2 Historisierung von Stammdaten mit SCD 196
5.6.3 Struktur der Dimensionstabellen (Snowflake) 199
5.6.3.1 Tabellenspalten und Schlüssel 200
5.6.3.2 Beziehungen zwischen Hierarchiestufen 203
5.6.4 ETL-Logik für Dimensionstabellen (Snowflake) 204
5.6.4.1 Lookup 204
5.6.4.2 Weitere Schritte 205
5.6.5 Struktur der Faktentabellen (Snowflake) 205
5.6.6 ETL-Logik für Faktentabellen (Snowflake) 207
5.6.7 n:m-Beziehungen im dimensionalen Core 207
5.7 Marts 209
5.7.1 ROLAP oder MOLAP? 210
5.7.2 Historisierung von Data Marts 211
5.7.3 Star- oder Snowflake-Schema (ROLAP) 212
5.7.4 Struktur der Dimensionstabellen (Star) 213
5.7.4.1 Tabellenspalten und Schlüssel 213
5.7.4.2 Beispiel für Conformed Rollup 216
5.7.4.3 Beispiel für Dimension mit mehreren Hierarchien 217
5.7.5 ETL-Logik für Dimensionstabellen (Star) 218
5.7.5.1 Extraktion aus dem relationalen Core 219
5.7.5.2 Extraktion aus dem dimensionalen Core 226
5.7.6 Struktur der Faktentabellen (Star-Schema) 228
5.7.7 ETL-Logik für Faktentabellen (Star) 229
5.7.8 Multidimensionale Data Marts 229
5.7.8.1 Dimensionen (Cube) 230
5.7.8.2 Fakten (Cube) 231
6 Physisches Datenbankdesign 234
6.1 Indexierung 235
6.1.1 Staging Area 236
6.1.2 Cleansing Area 236
6.1.3 Core 236
6.1.4 Data Marts 237
6.2 Constraints 238
6.2.1 Primary Key Constraints 238
6.2.2 Foreign Key Constraints 239
6.2.3 Unique Constraints 240
6.2.4 Check Constraints 240
6.2.5 NOT NULL Constraints 241
6.3 Partitionierung 241
6.3.1 Grundprinzip von Partitionierung 242
6.3.2 Gründe für Partitionierung 242
6.3.3 Partitionierung in Staging und Cleansing Area 243
6.3.4 Partitionierung im Core 244
6.3.5 Partitionierung in den Data Marts 244
6.4 Datenkomprimierung 245
6.4.1 Redundanz 246
6.4.2 Wörterbuchmethode/Tokenbasierte Reduktion 246
6.4.3 Entropiekodierung 246
6.4.4 Deduplikation 247
6.4.5 Komprimierung bei spaltenorientierter Datenhaltung 247
6.5 Aggregationen 248
6.5.1 Vorberechnete Aggregationen 249
6.5.2 Query Rewrite 249
6.5.3 Einsatz im Data Warehouse 250
7 BI-Anwendungen 252
7.1 Überblick 252
7.2 Standardberichte 255
7.3 Ad-hoc-Analyse 257
7.4 BI-Portale 258
8 Betrieb 260
8.1 Release-Management 260
8.1.1 Kategorisierung der Anforderungen 261
8.1.2 Schnittstellen zu Quellsystemen 262
8.1.3 Umgang mit historischen Daten 264
8.1.4 Datenbankumgebungen 265
8.2 Deployment 267
8.2.1 Manuelles Deployment 267
8.2.2 Filebasiertes Deployment 268
8.2.3 Repository-basiertes Deployment 269
8.2.4 Kombiniertes Deployment 269
8.3 Monitoring 271
8.3.1 Betriebsmonitoring 271
8.3.2 System und DB-Monitoring 271
8.3.3 ETL-Monitoring 271
8.3.4 Performance-Monitoring 272
8.4 Migration 274
8.4.1 Datenbank 275
8.4.2 ETL-Tool 276
8.4.3 BI-Tools 277
Literatur 278
Index 280

Erscheint lt. Verlag	5.9.2016
Verlagsort	München
Sprache	deutsch
Themenwelt	Mathematik / Informatik ► Informatik ► Netzwerke
Schlagworte	Architektur • BI • Big Data • data integration • Datenbank • Datenqaulität • Oracle • Performance
ISBN-10	3-446-45111-0 / 3446451110
ISBN-13	978-3-446-45111-7 / 9783446451117

Haben Sie eine Frage zum Produkt?

PDF (Wasserzeichen)
Größe: 10,2 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

EPUB (Wasserzeichen)
Größe: 24,3 MB

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Print-Ausgabe

Buch | Buch

42,00 €