Handbuch Data Engineering (eBook)
492 Seiten
O'Reilly Verlag
978-3-96010-769-9 (ISBN)
Joe Reis ist ein businessorientierter Daten-Nerd, der seit 20 Jahren in der Datenbranche tätig ist. Seine Tätigkeitsbereiche umfassen statistische Modellierung, Prognosen, Machine Learning, Data Engineering, Datenarchitektur und fast alles, was dazwischen liegt. Joe Reis ist der CEO und Mitbegründer von Ternary Data, einem Beratungsunternehmen für Data Engineering und Datenarchitektur mit Sitz in Salt Lake City, Utah. Er engagiert sich ehrenamtlich in verschiedenen Technologiegruppen und unterrichtet an der University of Utah. In seiner Freizeit geht Joe gerne klettern, produziert elektronische Musik und unternimmt mit seinen Kindern verrückte Abenteuer. Matt Housley ist Consultant für Data Engineering und ein Experte für die Cloud. Nach ersten Programmiererfahrungen mit Logo, Basic und 6502-Assembler hat er an der University of Utah in Mathematik promoviert. Danach begann Matt Housley im Bereich der Data Science zu arbeiten und spezialisierte sich schließlich auf Cloud-basiertes Data Engineering. Zusammen mit Joe Reis gründete er Ternary Data, wo er seine Lehrerfahrung nutzt, um künftige Data Engineers auszubilden und Teams zu einer robusten Datenarchitektur zu beraten. Matt und Joe referieren außerdem im 'The Monday Morning Data Chat' über alles, was mit Daten zu tun hat.
Joe Reis ist ein businessorientierter Daten-Nerd, der seit 20 Jahren in der Datenbranche tätig ist. Seine Tätigkeitsbereiche umfassen statistische Modellierung, Prognosen, Machine Learning, Data Engineering, Datenarchitektur und fast alles, was dazwischen liegt. Joe Reis ist der CEO und Mitbegründer von Ternary Data, einem Beratungsunternehmen für Data Engineering und Datenarchitektur mit Sitz in Salt Lake City, Utah. Er engagiert sich ehrenamtlich in verschiedenen Technologiegruppen und unterrichtet an der University of Utah. In seiner Freizeit geht Joe gerne klettern, produziert elektronische Musik und unternimmt mit seinen Kindern verrückte Abenteuer. Matt Housley ist Consultant für Data Engineering und ein Experte für die Cloud. Nach ersten Programmiererfahrungen mit Logo, Basic und 6502-Assembler hat er an der University of Utah in Mathematik promoviert. Danach begann Matt Housley im Bereich der Data Science zu arbeiten und spezialisierte sich schließlich auf Cloud-basiertes Data Engineering. Zusammen mit Joe Reis gründete er Ternary Data, wo er seine Lehrerfahrung nutzt, um künftige Data Engineers auszubilden und Teams zu einer robusten Datenarchitektur zu beraten. Matt und Joe referieren außerdem im "The Monday Morning Data Chat" über alles, was mit Daten zu tun hat.
Vorwort
Wie ist dieses Buch entstanden? Der Ursprung ist tief verwurzelt in unserer eigenen Entwicklung von Data Science zu Data Engineering. Wir bezeichnen uns oft scherzhaft als genesende Data Scientists. Wir haben beide die Erfahrung gemacht, dass wir mit Data-Science-Projekten betraut wurden und dann Schwierigkeiten hatten, diese Projekte auszuführen, weil uns die notwendigen Grundlagen fehlten. Unsere Entwicklung in Richtung Data Engineering begann, als wir Aufgaben aus dem Bereich Data Engineering übernahmen, um die Grundlagen und die Infrastruktur aufzubauen.
Mit dem Vormarsch von Data Science gaben Unternehmen viel Geld für Data Scientists aus in der Hoffnung, davon reichlich profitieren zu können. Sehr oft jedoch hatten Data Scientists mit Problemen zu kämpfen, für deren Lösung ihr Vorwissen und ihre Ausbildung nicht ausreichten – Datenerfassung, Datenbereinigung, Datenzugriff, Datentransformation und Dateninfrastruktur. Dies sind Probleme, die mit Data Engineering gelöst werden sollen.
Was dieses Buch nicht ist
Bevor wir darauf eingehen, worum es in diesem Buch geht und wie Sie vom Inhalt profitieren werden, lassen Sie uns kurz darauf eingehen, was dieses Buch nicht ist. Dieses Buch handelt nicht von Data Engineering unter Verwendung eines bestimmten Tools, einer Technologie oder einer Plattform. Es gibt zwar viele hervorragende Bücher, die sich aus dieser Perspektive mit Technologien des Data Engineering befassen, diese Bücher haben jedoch oft eine kurze Lebensdauer. Wir fokussieren uns stattdessen auf die grundlegenden Konzepte des Data Engineering.
Worum es in diesem Buch geht
Dieses Buch soll eine bestehende Wissenslücke in den vorhandenen Inhalten und Materialien zum Thema Data Engineering schließen. Obwohl es keinen Mangel an technischen Informationsquellen gibt, die sich mit spezifischen Tools und Technologien des Data Engineering befassen, ist es schwierig zu verstehen, wie diese Komponenten zu einem schlüssigen Ganzen zusammengefügt werden können, das in der Praxis funktioniert. Dieses Buch beschreibt die einzelnen Schritte des gesamten Datenprozesses. Es zeigt Ihnen, wie Sie verschiedene Technologien kombinieren können, um die Anforderungen der nachgelagerten Datennutzer wie Analysten, Data Scientists und Machine-Learning-Engineers zu erfüllen. Dieses Buch dient als Ergänzung zu den Büchern von O’Reilly, die sich mit Details bestimmter Technologien, Plattformen und Programmiersprachen befassen.
Die Grundidee dieses Buchs ist der Data Engineering Lifecycle: Datengenerierung (Data Generation), Datenspeicherung (Data Storage), Dateningestion (Data Ingestion), Datentransformation (Data Transformation) und Datenbereitstellung (Data Serving). Seit den Anfängen der Datenverarbeitung haben wir den Aufstieg und Fall unzähliger spezifischer Technologien und Anbieterprodukte erlebt, aber die Phasen des Data Engineering Lifecycle sind im Wesentlichen unverändert geblieben. Mit unserem Rahmenwerk erhalten die Leserinnen und Leser ein fundiertes Grundwissen über die Anwendung von Technologien auf praktische Probleme.
Unser Ziel ist es, Richtlinien zu formulieren, die sich über zwei Achsen erstrecken. Erstens wollen wir Data Engineering in allgemeine Grundsätze fassen, die alle relevanten Technologien umfassen. Zweitens wollen wir Prinzipien vorstellen, die langfristig Bestand haben werden. Wir hoffen, dass unsere Überlegungen die Lektionen widerspiegeln, die wir in den letzten 20 Jahren im Bereich der Informationstechnologie gelernt haben, und dass unser konzeptueller Rahmen auch noch in zehn oder mehr Jahren nützlich sein wird.
Noch eine Anmerkung vorweg: Wir verfolgen ganz klar die Cloud-first-Strategie. Wir sehen die Cloud als eine revolutionäre Entwicklung, die jahrzehntelang Bestand haben wird; die meisten lokalen Datensysteme und Arbeitslasten werden letztendlich in die Cloud verlagert. Wir gehen davon aus, dass Infrastrukturen und Systeme kurzlebig und skalierbar sind und dass Data Engineers dazu übergehen werden, verwaltete Dienste in der Cloud bereitzustellen. Dennoch lassen sich die meisten Konzepte in diesem Buch auch auf nicht cloudbasierte Umgebungen übertragen.
Für wen ist dieses Buch gedacht?
Unser primäres Zielpublikum sind technische Anwender, Softwareingenieurinnen und -ingenieure auf mittlerer bis höherer Ebene, Data Scientists sowie Analystinnen und Analysten, die sich für Data Engineering interessieren, ebenso Data Engineers, die sich mit bestimmten Technologien auskennen, aber eine umfassendere Fachkompetenz entwickeln möchten. Unsere sekundäre Zielgruppe sind Stakeholder aus dem Datenbereich, die neben technischen Fachleuten arbeiten, z.B. die Managerin eines Datenteams mit technischem Hintergrund, die ein Team von Data Engineers leitet, oder der Direktor für Data Warehousing, der von einer lokalen Technologie zu einer cloudbasierten Lösung migrieren möchte.
Im Idealfall sind Sie neugierig und wollen lernen – weshalb sonst würden Sie dieses Buch lesen? Sie halten sich über die neuesten Technologien und Trends im Umgang mit Daten auf dem Laufenden, indem Sie Bücher und Artikel über Data Warehousing/Data Lakes, Batch- und Streaming-Systeme, Orchestrierung, Modellierung, Management, Analyse, Entwicklungen bei Cloud-Technologien usw. lesen. Dieses Buch wird Ihnen helfen, das Gelesene zu einem vollständigen Bild des Data Engineering über Technologien und Paradigmen hinweg zu verweben.
Voraussetzungen
Wir gehen davon aus, dass die Leserschaft mit den gängigen Datensystemen in Unternehmen vertraut ist. Darüber hinaus setzen wir voraus, dass sie mit SQL und Python (oder einer anderen Programmiersprache) einigermaßen vertraut ist und Erfahrung mit Cloud-Diensten hat.
Für angehende Data Engineers gibt es zahlreiche Ressourcen zum Erlernen von Python und SQL. Kostenlose Onlineressourcen gibt es im Überfluss (Blogbeiträge, Tutorials, YouTube-Videos), und jedes Jahr werden viele neue Python-Bücher veröffentlicht.
Die Cloud bietet beispiellose Möglichkeiten, praktische Erfahrungen mit Datentools zu sammeln. Wir empfehlen angehenden Data Engineers, Konten bei Cloud-Diensten wie AWS, Azure, Google Cloud Platform, Snowflake, Databricks, usw. einzurichten. Zwar bieten viele dieser Plattformen kostenlose Tier-Optionen an, es ist jedoch ratsam, sich die Kosten genau anzusehen und zu Beginn mit kleinen Datenmengen und Einzelknotenclustern zu arbeiten.
Es ist nach wie vor schwierig, sich außerhalb einer betrieblichen Umgebung mit den Datensystemen von Unternehmen vertraut zu machen, was für angehende Data Engineers, die ihren ersten Job im Bereich Datenverarbeitung noch nicht gefunden haben, gewisse Hindernisse darstellt. Hier kann dieses Buch weiterhelfen. Wir schlagen vor, dass Einsteiger in die Datenverarbeitung das Buch lesen, um sich einen Überblick über die wichtigsten Ideen zu verschaffen, und sich dann die Materialien in den Abschnitten »Weitere Quellen« jeweils am Schluss eines Kapitels ansehen. Notieren Sie sich beim erneuten Durchlesen alle unbekannten Begriffe und Technologien. Außerdem könnten Sie Google, Wikipedia, Blogbeiträge, You-Tube-Videos und Webseiten von Anbietern nutzen, um sich mit neuen Begriffen vertraut zu machen und Wissenslücken zu schließen.
Was Sie lernen werden und wie Sie Ihre Kenntnisse erweitern können
Dieses Buch soll Ihnen helfen, eine fundierte Grundlage für die Lösung praxisrelevanter Probleme beim Data Engineering zu erlangen.
Nach der Lektüre dieses Buchs werden Sie Folgendes gelernt haben:
- wie sich Data Engineering auf Ihre aktuelle Position auswirkt (Data Scientist, Softwareentwickler oder Teamleiter),
- wie man den Marketing-Hype durchschaut und die richtigen Technologien, Datenstrukturen und Prozesse auswählt,
- wie man den Data Engineering Lifecycle nutzt, um eine stabile Infrastruktur zu entwerfen und aufzubauen, sowie
- bewährte Verfahren für jede Phase des Datenlebenszyklus.
Außerdem werden Sie in der Lage sein:
- Prinzipien des Data Engineering in Ihre gegenwärtige Tätigkeit zu integrieren (Data Scientist, Analyst, Softwareentwickler, Teamleiter usw.),
- eine Vielzahl von Cloud-Technologien zu kombinieren, um die Bedürfnisse der Datenkonsumenten zu erfüllen,
- Probleme des Data Engineering mit bewährten Verfahren zu bewerten und
- Datenschutz und -sicherheit in den gesamten Data Engineering Lifecycle einzubeziehen.
Wegweiser durch dieses Buch
Dieses Buch besteht aus vier Abschnitten:
- Teil I: »Grundlagen und Bausteine«
- Teil II: »Der Data Engineering Lifecycle im Detail«
- Teil III: »Sicherheit, Datenschutz und die Zukunft des Data Engineering«
- Anhang A und B: Serialisierung und Kompression bzw....
Erscheint lt. Verlag | 1.8.2023 |
---|---|
Übersetzer | Helena Schock |
Verlagsort | Heidelberg |
Sprache | deutsch |
Themenwelt | Mathematik / Informatik ► Informatik |
Schlagworte | Cloud-Technologien • Data-Engineering-Lifecycle • Data-Engineering-Pipeline • data governance • Data Science • Daten-Pipeline • Deployment • machine learning • privacy • security • Sicherheit • Software-Architektur • Software-Engineering • Software-Entwicklung |
ISBN-10 | 3-96010-769-2 / 3960107692 |
ISBN-13 | 978-3-96010-769-9 / 9783960107699 |
Informationen gemäß Produktsicherheitsverordnung (GPSR) | |
Haben Sie eine Frage zum Produkt? |
Größe: 5,9 MB
DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.
Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich