Data Warehouse Factory: BI-Automation durch Data Vault mit SSIS und SAS Base -  Christian Garbsch,  Dominik Kroner

Data Warehouse Factory: BI-Automation durch Data Vault mit SSIS und SAS Base (eBook)

eBook Download: PDF
2018 | 1. Auflage
124 Seiten
Diplomica Verlag GmbH
978-3-96146-148-6 (ISBN)
Systemvoraussetzungen
29,99 inkl. MwSt
  • Download sofort lieferbar
  • Zahlungsarten anzeigen
Das vorliegende Buch stellt die konkrete Umsetzung sowie Vor- und Nachteile einer Business Intelligence Automatisierung durch Data Vault dar. Das Data Vault ist eine alternative Modellierungsvariante für Enterprise Data Warehouses. Durch die Verwendung von drei Entitätstypen verfolgt es eine strikte Trennung von Geschäftsschlüsseln, deren Zusammenhängen sowie der Kontextinformationen. Die dadurch mögliche Flexibilität positioniert Data Vault als Kompromiss zwischen bereits bewährten Architekturvarianten. Hinzu kommt der Anspruch eine 'einzige Version der Fakten' zu schaffen, indem alle Quelldaten im ersten Schritt nur kopiert und nicht verändert werden. Gemeinsam mit den Regeln für die drei Entitätstypen stellt dies eine ideale Ausgangslage zur automatisierten Befüllung eines DWHs dar. Die Menge an bestehender Automatisierungssoftware beweist das Automatisierungspotenzial von Data Vault, wobei hinsichtlich der Befüllung lediglich zwei Ansätze verwendet werden: der dynamische Ladeprozess sowie die Generierung eines Ladeprozesses. Dieses Werk ist eine korrigierte Neuausgabe des 2014 veröffentlichten Buches 'Business Intelligence Automatisierung durch Data Vault'.

Textprobe: Kapitel 3.1.3: BI-Ready: BIReady ist eine Automatisierung für eine DWH-Befüllung, welche vom gleichnamigen Unternehmen entwickelt wurde. Diese Automatisierung umfasst sowohl das Design eines DWHs, als auch die Implementierung und Wartung. Ausgelegt wurde das Tool auf die Implementierung eines Stern- oder Schneeflockenschemas. Neu hinzugefügt wurde auch eine Unterstützung für DV. Eine grundlegende Idee dieses Tools ist ebenfalls die Beachtung eines bestimmten Punktes im ETL-Prozess, bis zu welchem die Daten automatisiert durch einen reinen Kopiervorgang geladen werden können. In dem Tool kann das Datenmodell grafisch erstellt werden. Dieses gestaltet sich sehr unkompliziert und variabel. Es bietet eine unkomplizierte Handhabung einer Historisierung an. Der Vorteil des DV-Konzepts ist es, dass viele dieser Überlegungen vom Modell bereits übernommen werden. Beispielsweise ist eine Historisierung der Daten bereits durch den LDTS gesichert. Im Gegensatz zu den anderen in diesem Buch beschriebenen Tools und Automatisierungen muss der Prozess an sich aber trotzdem einmal für ein DV-Modell erstellt werden und kann folgend für weitere Modelle angepasst werden. Daraus lässt sich der angepasste SQL-Code generieren, je nachdem für welche Datenbank er gebraucht wird. 3.1.4: PDI DV Framework: Das Pentaho Data Integration Data Vault Framework (PDI DV Framework) ist eine vollständige Sammlung an Programmen und Dateien für die automatisierte Befüllung eines DVs. Angewandt wird hierfür ein mit Pentaho Kettle entwickelter dynamischer Ladeprozess. Entwickelt wurde es von dem niederländischen BI-Experten Edwin Weber. Es als eine virtuelle Maschine verfügbar und kann somit komplett eigenständig genutzt werden. Als Betriebssystem nutzt es Ubuntu 12.04 LTS Server. Es beinhaltet eine MySQL-Datenbank zur Speicherung der Daten. Ein Beispiel DV-Datenbankschema ist ebenfalls enthalten. Um das Schema für das eigene DV aufzubauen ist die MySQL-Workbench enthalten. Gesteuert wird das Framework durch die Verwendung von Metadaten. Diese Metadaten werden in einer Excel-Datei gepflegt und in dem Prozess in eine Datenbank geschrieben und gehalten. In diese Metadaten muss eingetragen werden, welche Hubs, Links und Satelliten es, mit ihren jeweiligen Attributen, in dem DV gibt. Das Open Source-ETL-Tool Kettle von Pentaho liest diese Metadaten aus und der Prozess wird für das zu befüllende DV flexibel angepasst ausgeführt. Es dient lediglich der Befüllung und das Datenbankschema muss manuell aufgebaut werden. Um den Einsatz und Umgang mit dem Framework und dem DV-Modell nachvollziehbar zu halten ist eine Versionskontrolle enthalten. Diese hält fest, wann und welche Änderungen vorgenommen wurden. Zuerst werden die Hubs und anschließend die Links befüllt. Anschließend werden Hub-Satelliten und Link-Satelliten befüllt, wie bereits in Kapitel 2.2 näher erläutert. 3.2: Mögliche Automatisierung von Ladeprozessen: Die bisher scheinbar am weitesten verbreitete Methode zur automatischen Befüllung eines DWH, oder spezieller eines DV-basierten DWH, ist die automatisierte Generierung von Ladeprozessen. Darauf lässt sich insofern schließen, als dass die meisten in Kapitel 3.1 vorgestellten und erhältlichen Anwendungen auf diese Weise arbeiten. Abbildung 8 stellt eine denkbare Vorgehensweise schematisch dar. Grundlage sind zentral gespeicherte Metadaten. Je nach Anforderung des Prozessgenerators beschreiben diese sowohl den Aufbau und die Datenstruktur von Quell- sowie Zielsystemen, als auch die Beziehung dazwischen. So wird in den Metadaten festgelegt, welche Rohdaten in welcher Tabelle des DV gespeichert werden sollen (für genauere Angaben siehe Kapitel 4.4). Der Generator verwendet diese Informationen zum Erstellen der Ladeprozesse. Schließlich müssen die generierten Prozesse noch ausgeführt werden. Sie sorgen dann für den Datenfluss (weiße Pfeile) vom Quellsystem ins DV. Zur Vereinfachung und Reduktion der Metadaten wäre noch eine Verbindung zwischen dem Prozessgenerator sowie dem Quellsystem denkbar. Werden zum Beispiel die Datentypen der einzelnen Attribute vom Generator benötigt, könnte er diese selbst aus dem Quellsystem lesen. Ein Nachteil dieses Ansatzes ist, dass bei jeder Änderung der steuernden Metadaten, also Änderungen an den Quell- oder Zielsystemen, die Ladeprozesse neu erzeugt werden müssen und somit nicht unmittelbar zur Verfügung stehen.

Erscheint lt. Verlag 1.8.2018
Sprache deutsch
Themenwelt Informatik Office Programme Outlook
ISBN-10 3-96146-148-1 / 3961461481
ISBN-13 978-3-96146-148-6 / 9783961461486
Haben Sie eine Frage zum Produkt?
PDFPDF (Ohne DRM)
Größe: 15,5 MB

Digital Rights Management: ohne DRM
Dieses eBook enthält kein DRM oder Kopier­schutz. Eine Weiter­gabe an Dritte ist jedoch rechtlich nicht zulässig, weil Sie beim Kauf nur die Rechte an der persön­lichen Nutzung erwerben.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seiten­layout eignet sich die PDF besonders für Fach­bücher mit Spalten, Tabellen und Abbild­ungen. Eine PDF kann auf fast allen Geräten ange­zeigt werden, ist aber für kleine Displays (Smart­phone, eReader) nur einge­schränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Mehr entdecken
aus dem Bereich