Datenarchitekturen (eBook)

Modern Data Warehouse, Data Fabric, Data Lakehouse und Data Mesh richtig einsetzen

James Serra (Autor)

eBook Download: EPUB

2024 | 1. Auflage
317 Seiten
O'Reilly Verlag
978-3-96010-875-7 (ISBN)

Gewinnen Sie Klarheit über verbreitete Datenarchitektur-Konzepte - Alle Konzepte im Überblick: Der erste Leitfaden für die verschiedenen Ansätze, der hilft, eine Architektur auszuwählen, die zu den eigenen Anforderungen passt - Beschreibt die populärsten Datenarchitekturen, zeigt Vor- und Nachteile und wie sich Theorie und Praxis unterscheiden - Inkl. zahlreicher Schaubilder und vergleichender TabellenData Fabric, Data Lakehouse und Data Mesh sind als praktikable Alternativen zum Modern Data Warehouse in den Fokus der Unternehmen gerückt. Diese neuen Architekturen haben solide Vorteile, aber ihre fachliche Einordnung ist auch von Missverständnissen und Übertreibungen geprägt. Dieses praxisorientierte Buch bietet eine gut verständliche Einführung in jeden dieser Architekturansätze und hilft damit Datenexpertinnen und -praktikern, die jeweiligen Vor- und Nachteile zu verstehen. James Serra erläutert die Konzepte gängiger Datenarchitekturen und zeigt dabei auch, wie sich Data Warehouses weiterentwickeln mussten, um mit Data-Lake-Funktionen arbeiten zu können. Sie erfahren, was Sie mit Data Lakehouses erreichen können und wie Sie Hype und Realität bei Data Meshs unterscheiden. Nach der Lektüre dieses Buchs werden Sie in der Lage sein, die für Ihre Zwecke am besten geeignete Datenarchitektur zu bestimmen. - Entwickeln Sie ein grundlegendes Verständnis für die verschiedenen Datenarchitekturen - Informieren Sie sich über die Stärken und Schwächen der einzelnen Ansätze - Verstehen Sie die Unterschiede zwischen Data Warehouses und Data Lakes - Profitieren Sie von der langjährigen Erfahrung von James Serra und erfahren Sie, wie Theorie und Praxis der jeweiligen Datenarchitekturen voneinander abweichen - Wählen Sie die beste Architektur für Ihren Anwendungsfall aus - Lernen Sie, wie man eine Architektur-Design-Sitzung durchführt, das Team organisiert und was die Erfolgsfaktoren für ein Projekt sind

James Serra arbeitet bei Microsoft als Architekt für Big-Data- und Data-Warehousing-Lösungen. Er hat sich zu einem Vordenker für die Nutzung und Anwendung von Big Data und Advanced Analytics entwickelt, einschließlich Datenarchitekturen wie Modern Data Warehouse, Data Lakehouse, Data Fabric und Data Mesh.

James Serra arbeitet bei Microsoft als Architekt für Big-Data- und Data-Warehousing-Lösungen. Er hat sich zu einem Vordenker für die Nutzung und Anwendung von Big Data und Advanced Analytics entwickelt, einschließlich Datenarchitekturen wie Modern Data Warehouse, Data Lakehouse, Data Fabric und Data Mesh.

KAPITEL 1

Big Data

Die Anzahl der Firmen, die Datenarchitekturen erstellen, ist in den 2020er-Jahren sprunghaft gestiegen. Es ist unwahrscheinlich, dass sich dieses Wachstum in absehbarer Zeit verlangsamt, vor allem weil mehr Daten als je zuvor zur Verfügung stehen: angefangen bei sozialen Medien über IoT-Geräte (Internet der Dinge) bis hin zu selbst entwickelten Anwendungen und Software von Drittanbietern, um nur einige Quellen zu nennen. Laut einer BCG-Studie aus dem Jahr 2023 (https://oreil.ly/hpOPt) »hat sich der Umfang der generierten Daten von 2019 bis 2021 auf etwa 84 ZB ungefähr verdoppelt, wobei zu erwarten ist, dass es mit dieser Wachstumsrate weitergeht«. Die Forscher »schätzen, dass der Umfang der generierten Daten mit einer jährlichen Wachstumsrate (Compound Annual Growth Rate, CAGR) bei 21% von 2021 bis 2024 auf 149 ZB ansteigen wird. Die Unternehmen wissen, dass sie Millionen Dollar sparen und den Umsatz erhöhen können, indem sie diese Daten sammeln und anhand der Vergangenheits- und Gegenwartsdaten Vorhersagen über die Zukunft treffen – doch um das zu tun, brauchen sie eine Möglichkeit, um alle diese Daten zu speichern.

Überall in der Geschäftswelt wird versucht, so schnell wie möglich Datenarchitekturen aufzubauen. Diese Architekturen müssen auch in der Lage sein, zukünftig zu erfassende Daten – unabhängig von ihrer Größe, Geschwindigkeit oder Art – zu verarbeiten und ihre Genauigkeit zu gewährleisten. Und diejenigen von uns, die mit Datenarchitekturen arbeiten, müssen genau wissen, wie sie funktionieren und welche Möglichkeiten sie bieten. Genau hier setzt dieses Buch an. Ich habe aus erster Hand erfahren, was passiert, wenn man die Konzepte der Datenarchitektur nicht richtig versteht. Ein mir bekanntes Unternehmen hat in zwei Jahren eine Datenarchitektur für 100 Millionen Dollar aufgebaut, nur um dann festzustellen, dass die Architektur die falsche Technologie verwendet hat, zu schwierig in der Anwendung und nicht flexibel genug war, um bestimmte Datentypen zu verarbeiten. Sie musste verworfen und von Grund auf neu aufgebaut werden. Lassen Sie nicht zu, dass Ihnen das passiert! Es geht darum, die richtigen Informationen zur richtigen Zeit und im richtigen Format an die richtigen Personen weiterzugeben. Dazu benötigen Sie eine Datenstruktur, mit der Sie die Daten erfassen, speichern, umwandeln und modellieren können (Big-Data-Verarbeitung), damit sie präzise und einfach genutzt werden können. Sie benötigen eine Architektur, die es jedem Endbenutzer, selbst einem mit sehr geringem technischem Wissen, ermöglicht, die Daten zu analysieren und Berichte und Dashboards zu erstellen, anstatt sich darauf zu verlassen, dass IT-Mitarbeiter mit profundem technischem Wissen dies für sie tun.

Kapitel 1 führt in Big Data und einige seiner grundlegenden Ideen ein. Anschließend erörtere ich, wie Unternehmen ihre Daten nutzen, wobei der Schwerpunkt auf Business Intelligence liegt, und wie diese Nutzung zunimmt, wenn die Datenstruktur eines Unternehmens reift.

Was ist Big Data, und wie kann Big Data Ihnen helfen?

Auch wenn Big Data das Adjektiv big (groß) enthält, geht es nicht nur um die Größe der Daten. Vor allem geht es um alle Daten, egal ob groß oder klein, die in Ihrem Unternehmen existieren, sowie alle Daten außerhalb Ihres Unternehmens, die für Sie hilfreich sein könnten. Die Daten können in jedem Format vorliegen und mit beliebiger Regelmäßigkeit gesammelt werden. Um Big Data zu definieren, betrachtet man sie am besten als die Daten in ihrer Gesamtheit, unabhängig von ihrer Größe (Volume), Geschwindigkeit (Velocity) oder Vielfalt (Variety). Neben diesen Kriterien gibt es drei weitere Faktoren, mit denen Sie Daten beschreiben können: Wahrhaftigkeit (Veracity), Variabilität (Variability) und Wert (Value). Nach den Anfangsbuchstaben der englischen Bezeichnungen sind sie allgemein als »die sechs Vs« von Big Data bekannt, wie Abbildung 1-1 zeigt.

Sehen wir uns jedes einzelne V genauer an:

Volume (Datenvolumen)

Das Datenvolumen ist die schiere Menge der erzeugten und gespeicherten Daten. Das Volumen kann von Terabyte bis Petabyte reichen, und die Daten können aus einer Vielzahl von Quellen stammen, darunter soziale Medien, E-Commerce-Transaktionen, wissenschaftliche Experimente, Sensordaten von IoT-Geräten und viele mehr. Beispielsweise können die Daten von einem Auftragseingabesystem pro Tag mehrere Terabyte ausmachen, während IoT-Geräte Millionen von Ereignissen pro Minute streamen und Hunderte von Terabytes an Daten pro Tag erzeugen können.

Abbildung 1-1:Die sechs Vs von Big Data (Quelle: The Cloud Data Lake von Rukmani Gopalan [O’Reilly, 2023])

Variety (Datenvielfalt)

Die Datenvielfalt bezieht sich auf das breite Spektrum an Datenquellen und -formaten. Diese lassen sich weiter unterteilen in strukturierte Daten (aus relationalen Datenbanken), teilstrukturierte Daten (wie zum Beispiel Protokolle und Daten in den Formaten CSV, XML und JSON), unstrukturierte Daten (wie E-Mails, Dokumente und PDFs) und binäre Daten (Bilder, Audio, Video). Zum Beispiel wären Daten aus einem Auftragseingabesystem strukturierte Daten, da sie aus einer relationalen Datenbank stammen, während Daten von einem IoT-Gerät wahrscheinlich im JSON-Format vorliegen.

Velocity (Geschwindigkeit)

Die Geschwindigkeit gibt an, wie schnell Daten erzeugt und verarbeitet werden. Wenn Daten eher selten erfasst werden, spricht man oft von Stapelverarbeitung (Batch Processing). Zum Beispiel könnten die tagsüber eingegangenen Bestellungen jede Nacht zusammengefasst und verarbeitet werden. Es ist aber auch üblich, dass Daten sehr häufig oder sogar in Echtzeit erfasst werden, insbesondere wenn sie mit hoher Geschwindigkeit entstehen, wie es beispielsweise bei Daten von sozialen Medien, IoT-Geräten und mobilen Anwendungen der Fall ist.

Veracity (Wahrhaftigkeit)

Mit Wahrhaftigkeit sind Genauigkeit und Zuverlässigkeit der Daten gemeint. Die Quellen für Big Data könnten unterschiedlicher nicht sein. Unzuverlässige oder unvollständige Daten beeinträchtigen gegebenenfalls die Qualität der Daten. Wenn die Daten zum Beispiel von einem IoT-Gerät kommen, etwa von einer Sicherheitskamera vor Ihrem Haus, die auf die Einfahrt gerichtet ist, und die Ihnen eine Textnachricht sendet, wenn eine Person erkannt wird, ist es durchaus möglich, dass Umgebungseinflüsse wie zum Beispiel das Wetter dazu führen, dass eine Person statt einer Katze erkannt wird, und das Überwachungsgerät somit verfälschte Daten sendet. Daher ist es unumgänglich, die Daten zu validieren, sobald sie empfangen werden.

Variability (Variabilität)

Variabilität meint die Konsistenz (oder Inkonsistenz) von Daten hinsichtlich ihres Formats, ihrer Qualität und ihrer Bedeutung. Strukturierte, teilstrukturierte und unstrukturierte Datenformate zu verarbeiten, verlangt verschiedene Tools und Techniken. So können beispielsweise Art, Häufigkeit und Qualität der Sensordaten von IoT-Geräten sehr unterschiedlich sein. Temperatur- und Luftfeuchtigkeitssensoren können Datenpunkte in regelmäßigen Intervallen erzeugen, während Bewegungssensoren möglicherweise nur dann Daten liefern, wenn sie eine Bewegung erkennen.

Value (Wert)

Das wichtigste V steht für Value, d.h. den Wert, der sich auf die Nützlichkeit und Relevanz der Daten bezieht. Unternehmen nutzen Big Data, um Erkenntnisse zu gewinnen und Entscheidungen zu treffen, die zu einem geschäftlichen Nutzen führen können, zum Beispiel zu höherer Effizienz, zu Kosteneinsparungen oder zu neuen Einnahmequellen. So können Unternehmen das Verhalten, die Vorlieben und die Bedürfnisse ihrer Kunden besser verstehen, indem sie die Kundendaten analysieren. Anhand dieser Informationen sind sie in der Lage, zielgerichtete Marketingkampagnen zu entwickeln, die Kundenzufriedenheit zu verbessern und den Umsatz zu steigern.

Mithilfe von Big Data können Unternehmen Erkenntnisse gewinnen, die ihnen helfen, bessere Geschäftsentscheidungen zu treffen. Die prädiktive Analyse ist eine Art der Datenanalyse, die statistische Algorithmen und Machine Learning einbezieht, um historische Daten zu analysieren und Vorhersagen über zukünftige Ereignisse und Trends zu treffen. Dadurch können Unternehmen proaktiv und nicht nur reaktiv handeln.

Viele Unternehmen bezeichnen Daten als »das neue Öl«, denn sie sind in der heutigen digitalen Wirtschaft zu einer unglaublich wertvollen Ressource geworden, ähnlich wie es das Öl in der industriellen Wirtschaft war. In vielerlei Hinsicht ähneln Daten Öl, denn sie...

Erscheint lt. Verlag	29.10.2024
Reihe/Serie	Animals
Übersetzer	Frank Langenau
Verlagsort	Heidelberg
Sprache	deutsch
Themenwelt	Mathematik / Informatik ► Informatik
Schlagworte	Architecture Design Session • Big Data • Business Intelligence • Cloud • Data Architect • Databricks • Data Ingestion • Data Lake • Data Science • data storage • Data-Warehouse-Systeme • Datenanalyse • Datenmodellierung • Hadoop • snowflake
ISBN-10	3-96010-875-3 / 3960108753
ISBN-13	978-3-96010-875-7 / 9783960108757

Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?

EPUB (Wasserzeichen)
Größe: 6,7 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.