R für Data Science (eBook)
592 Seiten
O'Reilly Verlag
978-3-96010-834-4 (ISBN)
Hadley Wickham ist Chief Scientist bei Posit und Mitglied der R Foundation. Er erstellt sowohl technische als auch kognitive Tools, die Data Science leichter, schneller und unterhaltsamer machen. Mine Çetinkaya-Rundel ist Professor of the Practice am Department of Statistical Science an der Duke University in Durham, North Carolina. Außerdem ist sie Developer Educator bei Posit.Garrett Grolemund ist Statistiker, Lehrer und Director of Learning bei der Posit Academy. Er ist Autor von Hands-On Programming with R (O'Reilly) und hat schon früh zu Tidyverse beigetragen.
Hadley Wickham ist Chief Scientist bei Posit und Mitglied der R Foundation. Er erstellt sowohl technische als auch kognitive Tools, die Data Science leichter, schneller und unterhaltsamer machen. Mine Çetinkaya-Rundel ist Professor of the Practice am Department of Statistical Science an der Duke University in Durham, North Carolina. Außerdem ist sie Developer Educator bei Posit.Garrett Grolemund ist Statistiker, Lehrer und Director of Learning bei der Posit Academy. Er ist Autor von Hands-On Programming with R (O'Reilly) und hat schon früh zu Tidyverse beigetragen.
Einführung
Data Science ist eine spannende Disziplin, in der Sie Rohdaten in Verständnis, Erkenntnis und Wissen umwandeln können. Das Buch R für Data Science soll Ihnen die wichtigsten Tools in R nahebringen, damit Sie Aufgaben in Data Science effizient und reproduzierbar bearbeiten können, noch dazu in unterhaltsamer Weise! Nachdem Sie dieses Buch gelesen haben, verfügen Sie über das Handwerkszeug, um ein breites Spektrum anspruchsvoller Data-Science-Problemstellungen mithilfe der besten Bestandteile von R anzugehen.
Vorwort zur zweiten Auflage
Willkommen zur zweiten Auflage von R für Data Science (R4DS), die sich durch eine umfassende Überarbeitung der ersten Auflage auszeichnet. Wir haben Material entfernt, das wir nicht mehr für nützlich halten, Material hinzugefügt, das wir gern schon in die erste Auflage aufgenommen hätten, und generell den Text und den Code aktualisiert, um Änderungen bei den Best Practices zu berücksichtigen. Zudem freuen wir uns sehr, Mine Çetinkaya-Rundel als neue Co-Autorin gewonnen zu haben. Sie ist eine bekannte Lehrerin für Data Science und eine unserer Kolleginnen bei Posit (dem Unternehmen, das früher als RStudio bekannt war).
Die folgenden Punkte fassen kurz die wichtigsten Änderungen zusammen:
- Der erste Teil des Buchs hat den neuen Titel »Gesamtbild« bekommen. Dieser Abschnitt soll Ihnen zeigen, worum es bei Data Science im Großen und Ganzen geht, bevor wir uns näher mit den Details beschäftigen.
- Der zweite Teil des Buchs ist mit »Visualisieren« überschrieben. Dieser Teil beschreibt Visualisierungstools und Best Practices ausführlicher und detaillierter, als es in der ersten Auflage geschehen ist. Um alle Details kennenzulernen, empfiehlt sich immer noch das Buch ggplot2: Elegant Graphics for Data Analysis (Springer 2016, https://oreil.ly/HNIie), wobei aber das Ihnen hier vorliegende Buch schon mehr als die wichtigsten Techniken abhandelt.
- Der dritte Teil des Buchs heißt nun »Transformieren« mit neuen Kapiteln über Zahlen, logische Vektoren und fehlende Werte. Bislang waren diese Themen im Kapitel über Datentransformationen angesiedelt, nun aber wird mehr Platz benötigt, um alle relevanten Details zu behandeln.
- Im vierten Teil des Buchs geht es um das »Importieren«. Hier finden Sie eine Reihe von neuen Kapiteln, die über das Lesen von einfachen Textdateien hinausgehen und sich damit befassen, wie Sie mit Tabellenkalkulationen arbeiten, Daten aus Datenbanken abrufen, mit Big Data umgehen, hierarchische Daten in Rechteckform bringen und Daten aus Websites übernehmen.
- Der Teil »Programmieren« wurde beibehalten, aber von Anfang bis Ende umgeschrieben, um sich auf die wichtigsten Teile zu konzentrieren, die für Funktionen und Iteration relevant sind. In Bezug auf Funktionen lernen Sie nun, wie Sie Tidyverse-Funktionen (die sich mit den Herausforderungen einer bereinigten Auswertung befassen) einhüllen, da dies in den letzten Jahren viel einfacher und wichtiger geworden ist. Neu hinzugekommen ist ein Kapitel über wichtige R-Basisfunktionen, die Sie wahrscheinlich in praxisnahem R-Code vorfinden werden.
- Der Teil »Modellieren« ist weggefallen. Der Platz hat nie gereicht, um das Thema Modellieren adäquat darzustellen. Zudem gibt es jetzt viel bessere Ressourcen. Generell empfehlen wir, die tidymodels-Pakete (https://oreil.ly/0giAa) zu verwenden und Tidy Modeling with R (https://oreil.ly/9Op9s) von Max Kuhn und Julia Silge (O’Reilly) zu lesen.
- Der Teil »Kommunizieren« besteht weiter, wurde aber gründlich aktualisiert, um Quarto (https://oreil.ly/_6LNH) anstelle von R Markdown vorzustellen. Diese Auflage des Buchs ist in Quarto geschrieben worden, das zweifellos das Tool der Zukunft ist.
Was Sie lernen werden
Data Science ist ein riesiges Gebiet, und Sie werden es wahrscheinlich nicht meistern, wenn Sie nur ein einziges Buch lesen. Dieses Buch soll Ihnen eine solide Basis für die wichtigsten Tools vermitteln und Ihnen Quellen zeigen, um bei Bedarf mehr zu lernen. Unser Modell der Schritte in einem typischen Data-Science-Projekt sieht in etwa wie in Abbildung E-1 aus.
Zuerst müssen Sie Ihre Daten in R importieren. In der Regel heißt dies, dass Sie gespeicherte Daten aus einer Datei, Datenbank oder Web-API übernehmen und in einen Dataframe in R laden. Können Sie Ihre Daten nicht nach R übernehmen, lässt sich keine Data Science damit anstellen!
Nachdem Sie die Daten importiert haben, empfiehlt es sich, sie zu bereinigen oder aufzubereiten. Dabei speichert man die Daten in einer konsistenten Form, die die Semantik des Datensets mit der Art und Weise der Speicherung abstimmt. Kurz gesagt, wenn Ihre Daten bereinigt sind, ist jede Spalte eine Variable und jede Zeile eine Beobachtung. Das Bereinigen von Daten ist wichtig, weil Sie sich dann aufgrund der konsistenten Struktur auf Fragen über die Daten konzentrieren können und sich nicht damit abmühen müssen, die Daten für verschiedene Funktionen in die richtige Form zu bekommen.
Abbildung E-1: In unserem Modell des Data-Science-Prozesses geht es los mit dem Importieren und Bereinigen der Daten. Daran schließt sich das Verstehen der Daten an, das in einem iterativen Zyklus von Transformieren, Visualisieren und Modellieren abläuft. Den Prozess beenden Sie, indem Sie Ihre Ergebnisse anderen Menschen kommunizieren.
Wenn die Daten bereinigt sind, werden sie oftmals in einem nächsten Schritt transformiert. Das Transformieren schließt das Eingrenzen auf konkrete Beobachtungen ein (wie zum Beispiel alle Personen in einer Stadt oder alle Daten aus dem letzten Jahr), das Erstellen neuer Variablen, die Funktionen von vorhandenen Variablen sind (wie das Berechnen der Geschwindigkeit aus Weg und Zeit), und das Berechnen einer Menge von Zusammenfassungsstatistiken (wie Anzahlen oder Mittelwerte). Bereinigen und Transformieren bezeichnet man zusammengenommen als Aufbereiten – im Englischen Wrangling (Rangelei, Gezerre) genannt, weil es sich oft wie ein Kampf anfühlt, die Daten in eine Form zu bringen, mit der man gut arbeiten kann!
Nachdem Sie über bereinigte Daten mit den benötigten Variablen verfügen, gibt es zwei Hauptmodule der Wissensgenerierung: Visualisierung und Modellierung. Diese weisen viele Stärken und Schwächen auf, die komplementär zueinander sind, sodass jede reale Analyse diese Schritte mehrfach durchlaufen wird.
Visualisierung ist eine fundamentale menschliche Aktivität. Eine gute Visualisierung zeigt Ihnen Dinge, die Sie nicht erwartet haben, oder wirft neue Fragen über die Daten auf. Außerdem kann eine gute Visualisierung darauf hinweisen, dass Sie die falschen Fragen stellen oder andersartige Daten erfassen müssen. Visualisierungen können Sie überraschen, lassen sich aber nicht besonders gut normieren, weil ein Mensch sie interpretieren muss.
Modelle ergänzen die Visualisierung. Haben Sie Ihre Fragen einmal ausreichend präzisiert, können Sie sie mithilfe eines Modells beantworten. Modelle sind ein fundamentales mathematisches oder rechentechnisches Werkzeug, sodass sie sich im Allgemeinen gut skalieren lassen. Und selbst wenn das nicht zutrifft, ist es normalerweise billiger, mehr Computer zu kaufen als mehr Gehirne! Doch jedes Modell geht von Annahmen aus, und seinem Wesen nach kann ein Modell seine eigenen Annahmen nicht beantworten. Ein Modell kann Sie also grundsätzlich nicht überraschen.
Der letzte Schritt bei der Data Science ist die Kommunikation, ein absolut entscheidender Teil jedes Datenanalyseprojekts. Es spielt keine Rolle, wie gut Ihre Modelle und die Visualisierung Sie dazu gebracht haben, die Daten zu verstehen, sofern Sie nicht auch Ihre Ergebnisse für andere kommunizieren können.
Den Rahmen für alle diese Tools bildet die Programmierung. Als übergreifendes Tool haben Sie mit Programmierung in jedem Teil des Projekts zu tun. Dabei müssen Sie keine Programmierexpertinnen und -experten sein, um als Data Scientists erfolgreich zu arbeiten, doch wenn Sie mehr über Programmierung lernen, zahlt sich das aus, denn als besserer Programmierer können Sie häufig anfallende Aufgaben automatisieren und neue Probleme wesentlich leichter lösen.
Diese Tools verwenden Sie in fast jedem Data-Science-Projekt, doch für die meisten Projekte sind sie nicht ausreichend. Als Faustregel gilt ein 80-20-Verhältnis: Etwa 80 % jedes Projekts können Sie angehen mit den Tools, die Sie in diesem Buch kennenlernen, doch um die restlichen 20 % zu lösen, brauchen Sie weitere Tools. Das ganze Buch hindurch verweisen wir auf Quellen, unter denen Sie mehr zu den jeweiligen Themen lernen können.
Wie dieses Buch organisiert ist
Der letzte Abschnitt hat die Data-Science-Tools ungefähr in der Reihenfolge beschrieben, in der Sie sie in einer Analyse einsetzen (auch...
Erscheint lt. Verlag | 26.3.2024 |
---|---|
Reihe/Serie | Animals |
Übersetzer | Frank Langenau |
Verlagsort | Heidelberg |
Sprache | deutsch |
Themenwelt | Mathematik / Informatik ► Informatik ► Programmiersprachen / -werkzeuge |
Schlagworte | Algorithmen • Big Data • Data Mining • Data Science • Datenanalyse • Einführung • ggplot2 • R-Code • RStudio • Statistik • Statistikumgebung R • statistisch • tidyr • Wahrscheinlichkeit |
ISBN-10 | 3-96010-834-6 / 3960108346 |
ISBN-13 | 978-3-96010-834-4 / 9783960108344 |
Haben Sie eine Frage zum Produkt? |
Größe: 23,4 MB
DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.
Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich