Data Science mit AWS - Chris Fregly, Antje Barth

Data Science mit AWS (eBook)

End-to-End-Pipelines für Continuous Machine Learning implementieren

Chris Fregly, Antje Barth (Autoren)

eBook Download: EPUB

2022 | 1. Auflage
550 Seiten
O'Reilly Verlag
978-3-96010-656-2 (ISBN)

Von der ersten Idee bis zur konkreten Anwendung: Ihre Data-Science-Projekte in der AWS-Cloud realisieren

Der US-Besteller zu Amazon Web Services jetzt auf Deutsch
Beschreibt alle wichtigen Konzepte und die wichtigsten AWS-Dienste mit vielen Beispielen aus der Praxis
Deckt den kompletten End-to-End-Prozess von der Entwicklung der Modelle bis zum ihrem konkreten Einsatz ab
Mit Best Practices für alle Aspekte der Modellerstellung einschließlich Training, Deployment, Sicherheit und MLOps

Mit diesem Buch lernen Machine-Learning- und KI-Praktiker, wie sie erfolgreich Data-Science-Projekte mit Amazon Web Services erstellen und in den produktiven Einsatz bringen. Es bietet einen detaillierten Einblick in den KI- und Machine-Learning-Stack von Amazon, der Data Science, Data Engineering und Anwendungsentwicklung vereint. Chris Fregly und Antje Barth beschreiben verständlich und umfassend, wie Sie das breite Spektrum an AWS-Tools nutzbringend für Ihre ML-Projekte einsetzen.
Der praxisorientierte Leitfaden zeigt Ihnen konkret, wie Sie ML-Pipelines in der Cloud erstellen und die Ergebnisse dann innerhalb von Minuten in Anwendungen integrieren. Sie erfahren, wie Sie alle Teilschritte eines Workflows zu einer wiederverwendbaren MLOps-Pipeline bündeln, und Sie lernen zahlreiche reale Use Cases zum Beispiel aus den Bereichen Natural Language Processing, Computer Vision oder Betrugserkennung kennen. Im gesamten Buch wird zudem erläutert, wie Sie Kosten senken und die Performance Ihrer Anwendungen optimieren können.

Chris Fregly ist Principal Developer Advocate für KI und Machine Learning bei AWS in San Francisco. Er spricht regelmäßig auf Konferenzen auf der ganzen Welt zu KI und Machine Learning, unter anderem bei der O'Reilly AI Superstream Series. Zuvor hat er PipelineAI gegründet, war Solutions Engineer bei Databricks und Software Engineer bei Netflix. In den letzten zehn Jahren hat er sich auf den Aufbau von KI- und Machine-Learning-Pipelines mit AWS konzentriert. Antje Barth ist Senior Developer Advocate für KI und Machine Learning bei AWS in Düsseldorf. Sie ist Mitbegründerin der Düsseldorfer Gruppe von 'Women in Big Data' und spricht häufig auf KI- und Machine Learning-Konferenzen und Meetups auf der ganzen Welt. Außerdem leitet und kuratiert sie Inhalte für O'Reilly-AI-Superstream-Veranstaltungen. Zuvor war sie als Software Engineer bei Cisco und MapR tätig und beschäftigte sich mit Infrastrukturen für Rechenzentren, Big Data und KI-Anwendungen.

Chris Fregly ist Principal Developer Advocate für KI und Machine Learning bei AWS in San Francisco. Er spricht regelmäßig auf Konferenzen auf der ganzen Welt zu KI und Machine Learning, unter anderem bei der O'Reilly AI Superstream Series. Zuvor hat er PipelineAI gegründet, war Solutions Engineer bei Databricks und Software Engineer bei Netflix. In den letzten zehn Jahren hat er sich auf den Aufbau von KI- und Machine-Learning-Pipelines mit AWS konzentriert. Antje Barth ist Senior Developer Advocate für KI und Machine Learning bei AWS in Düsseldorf. Sie ist Mitbegründerin der Düsseldorfer Gruppe von "Women in Big Data" und spricht häufig auf KI- und Machine Learning-Konferenzen und Meetups auf der ganzen Welt. Außerdem leitet und kuratiert sie Inhalte für O'Reilly-AI-Superstream-Veranstaltungen. Zuvor war sie als Software Engineer bei Cisco und MapR tätig und beschäftigte sich mit Infrastrukturen für Rechenzentren, Big Data und KI-Anwendungen.

Vorwort

Mit diesem Buch lernen KI- und Machine-Learning-Praktikerinnen und -Praktiker, wie sie erfolgreich Data-Science-Projekte auf Amazon Web Services (AWS) entwickeln und deployen können. Der KI- und Machine-Learning-Stack von Amazon gibt Ihnen die Möglichkeit, durch die Vereinigung von Data Science, Data Engineering und Anwendungsentwicklung Ihre Fähigkeiten zu steigern. Dieser Leitfaden zeigt Ihnen, wie Sie Pipelines in der Cloud erstellen und ausführen und anschließend die Ergebnisse innerhalb von Minuten statt Tagen in Anwendungen integrieren können. Chris Fregly und Antje Barth machen zudem im gesamten Buch deutlich, wie Sie Ihre Kosten senken und die Leistung verbessern können.

Wenden Sie Amazons KI- und ML-Stack auf reale Anwendungsfälle aus den Bereichen der natürlichen Sprachverarbeitung (Natural Language Processing, NLP), der Bildverarbeitung (Computer Vision), der Erkennung von Betrug (Fraud Detection) sowie im Rahmen des Einsatzes intelligenter Kommunikationsgeräte (Conversational Devices) und mehr an.
Greifen Sie auf automatisierte ML-Algorithmen (AutoML) zurück, um bestimmte Anwendungsfälle mit Amazon SageMaker Autopilot umzusetzen.
Erhalten Sie einen tiefen Einblick in den gesamten Lebenszyklus der Modellentwicklung für einen BERT-basierten Anwendungsfall der natürlichen Sprachverarbeitung (NLP), einschließlich, neben vielem anderen, Datenaufnahme (engl. Data Ingestion) und -analyse.
Bündeln Sie alles in eine wiederverwendbare MLOps-Pipeline (ML Operations).
Erkunden Sie die Möglichkeiten des Einsatzes von ML in Echtzeit, Anomalieerkennung und Streaming-Analysen auf Basis von Echtzeitdatenströmen mit Amazon Kinesis und Amazon Managed Streaming for Apache Kafka (Amazon MSK).
Lernen Sie bewährte Sicherheitspraktiken für Data-Science-Projekte und -Workflows kennen, einschließlich AWS Identity and Access Management (IAM), Authentifizierung, Autorisierung, darunter Datenaufnahme und -analyse, Modelltraining und Deployment.

Die Kapitel im Überblick

Kapitel 1 bietet einen allgemeinen Überblick über den sehr umfang- und facettenreichen KI- und ML-Stack von Amazon, der ein enorm leistungsfähiges und vielfältiges Angebot an Diensten, Open-Source-Bibliotheken und Infrastrukturen bietet, die für Data-Science-Projekte jeder Komplexität und Größe genutzt werden können.

Kapitel 2 beschreibt, wie Amazons KI- und ML-Stack in realen Anwendungen aus den Bereichen Empfehlungssysteme, Computer Vision, Betrugserkennung, Verstehen natürlicher Sprache (Natural Language Understanding, NLU), Conversational Devices, Cognitive Search, Kundenbetreuung, vorausschauende Wartung (Predictive Maintenance) in der Industrie, Hausautomatisierung, Internet der Dinge (Internet of Things, IoT), aus dem Gesundheitswesen und auch dem Bereich Quantencomputing eingesetzt werden kann.

Kapitel 3 zeigt, wie Sie mit SageMaker Autopilot AutoML nutzen und einige dieser Anwendungsfälle implementieren können.

In den Kapiteln 4 bis 9 wird der komplette Lebenszyklus der Modellentwicklung (Model Development Life Cycle, MDLC) für einen BERT-basierten NLP-Anwendungsfall ausführlich vorgestellt. Die Vorstellung schließt die Datenaufnahme und -analyse, die Auswahl von Features (engl. Feature Selection) und das Feature Engineering, das Modelltraining sowie die Modellabstimmung und -bereitstellung mit Amazon SageMaker, Amazon Athena, Amazon Redshift, Amazon EMR, TensorFlow, PyTorch und serverloses Apache Spark mit ein.

In Kapitel 10 wird gezeigt, wie sich alle zuvor gezeigten Teilschritte mithilfe von MLOps auf Basis von SageMaker Pipelines, Kubeflow Pipelines, Apache Airflow, MLflow oder TFX in wiederverwendbaren Pipelines zusammenführen lassen.

Kapitel 11 gibt einen Einblick in den Themenkomplex rund um Echtzeit-ML, Anomalieerkennung und Streaming-Analysen für Echtzeitdatenströme unter Einsatz von Amazon Kinesis und Apache Kafka.

Kapitel 12 stellt eine Vielzahl von bewährten Sicherheitspraktiken für Data-Science-Projekte und -Workflows vor, darunter IAM, Authentifizierung, Autorisierung, Netzwerkisolierung, Verschlüsselung von Daten im Ruhezustand (Data Encryption at Rest), Post-Quanten-Netzwerkverschlüsselung bei der Übertragung von Daten, Governance und Auditierbarkeit.

Im gesamten Buch finden Sie zahlreiche Tipps dazu, wie Sie die Kosten senken und die Ergebnisse bzw. die Leistungsfähigkeit von Data-Science-Projekten auf AWS verbessern können.

An wen sich dieses Buch richtet

Dieses Buch richtet sich an alle, die auf der Grundlage von Datenanalysen wichtige Geschäftsentscheidungen treffen. Der Leitfaden hilft Data Analysts, Data Scientists, Data Engineers, Machine Learning Engineers, Research Scientists, Anwendungsentwicklerinnen und -entwicklern sowie DevOps Engineers dabei, ihre Kenntnisse des modernen Data-Science-Stacks auszuweiten und ihre Fähigkeiten im Hinblick auf die Entwicklung in der Cloud zu verbessern.

Amazons KI- und Machine-Learning-Stack vereint die Disziplinen Data Science, Data Engineering und Anwendungsentwicklung und hilft Benutzerinnen und Benutzern, ihre Fähigkeiten über ihre gegenwärtigen Tätigkeiten hinaus zu erweitern. Wir zeigen, wie man Pipelines in der Cloud erstellt und ausführt und dann die Ergebnisse innerhalb von Minuten – nicht in Tagen – in Anwendungen integriert.

Um den größtmöglichen Nutzen aus diesem Buch zu ziehen, sollten Sie idealerweise über die folgenden Kenntnisse verfügen:

ein grundlegendes Verständnis von Cloud Computing,
grundlegende Programmierkenntnisse in Python, R, Java/Scala oder SQL sowie
Grundkenntnisse im Umgang mit Data-Science-Tools wie Jupyter Notebook, Pandas, NumPy oder scikit-learn.

Weitere Ressourcen

Es gibt eine Reihe großartiger Autorinnen und Autoren sowie Quellen, die uns im Hinblick auf dieses Buch inspiriert haben:

Aurélien Gérons Buch Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow (https://oreilly.de/produkt/praxiseinstieg-machine-learning-mitscikit-learn-keras-und-tensorflow/) (O’Reilly, aktuell in 2. Auflage) ist ein hervorragender praktischer Leitfaden für den Aufbau intelligenter ML-Systeme mit gängigen Tools wie Python, scikit-learn und TensorFlow.
Deep Learning for Coders with fastai and PyTorch (https://www.oreilly.com/library/view/deep-learning-for/9781492045519/) (O’Reilly) von Jeremy Howard und Sylvain Gugger bietet eine exzellente Einführung in die Erstellung von Deep-Learning-Anwendungen mit PyTorch – und zwar ohne dass ein Doktortitel vonnöten wäre, um dem Buch folgen zu können.
Das Buch Building Machine Learning Pipelines (https://www.oreilly.com/library/view/building-machine-learning/9781492053187/) (O’Reilly) von Hannes Hapke und Catherine Nelson ist ein ausgezeichnetes und einfach zu lesendes Nachschlagewerk zum Aufbau von AutoML-Pipelines mit TensorFlow und TFX.
Das Buch Programming Quantum Computers (https://www.oreilly.com/library/view/programming-quantum-computers/9781492039679/) (O’Reilly) von Eric R. Johnston, Nic Harrigan und Mercedes Gimeno-Segovia ist eine hervorragende Einführung in Quantencomputer mit leicht verständlichen Beispielen, die den Nutzen von Quanten aufzeigen.
Micha Gorelick und Ian Ozsvald haben ein Buch für Fortgeschrittene namens High Performance Python (https://www.oreilly.com/library/view/high-performance-python/9781492055013/) (O’Reilly) verfasst, das viele wertvolle Tipps und Tricks zum Profilen und Optimieren von Python-Code enthält, insbesondere im Hinblick auf eine hochleistungsfähige Datenverarbeitung, das Feature Engineering und das Modelltraining.

Zusätzlich zum Buch haben wir Ihnen eine Webseite (Data Science on AWS, https://datascienceonaws.com) bereitgestellt, die Workshops für Fortgeschrittene, monatliche Webinare, Meet-ups, Videos und Folien zu den Inhalten dieses Buchs bietet.

Außerdem teilen wir regelmäßig relevante Blogbeiträge, Konferenzvorträge, Folien, Termine für Meet-ups und Workshops auf Twitter oder LinkedIn:

Folgen Sie uns auf Twitter: https://twitter.com/cfregly und https://twitter.com/anbarth
Auf LinkedIn finden Sie uns ebenfalls: https://www.linkedin.com/in/cfregly und https://www.linkedin.com/in/antje-barth

In diesem Buch verwendete Konventionen

Die folgenden typografischen Konventionen werden in diesem Buch eingesetzt:

Kursiv

Kennzeichnet neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateiendungen.

Konstante...

Erscheint lt. Verlag	13.4.2022
Übersetzer	Marcus Fraaß
Verlagsort	Heidelberg
Sprache	deutsch
Themenwelt	Mathematik / Informatik ► Informatik
Schlagworte	Amazon AI • Amazon Web Services • Big Data • Cloud • cloud services • computer vision • Continuous AI • data engineering • Data Mining • Datenanalyse • Deployment • KI • Künstliche Intelligenz • Modelltraining • Natural Language Processing • NLP • Python
ISBN-10	3-96010-656-4 / 3960106564
ISBN-13	978-3-96010-656-2 / 9783960106562

Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?

EPUB (Wasserzeichen)
Größe: 13,7 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.