R für Data Science - Hadley Wickham, Mine Çetinkaya-Rundel, Garrett Grolemund

R für Data Science (eBook)

Daten importieren, bereinigen, umformen und visualisieren

Hadley Wickham, Mine Çetinkaya-Rundel, Garrett Grolemund (Autoren)

eBook Download: EPUB

2024 | 2. Auflage
592 Seiten
O'Reilly Verlag
978-3-96010-834-4 (ISBN)

Mit R Daten analysieren - die anschauliche und verständliche Einführung - 2. Auflage des US-Bestellers, jetzt vollständig aktualisiert und erweitert - Hadley Wickham ist eine Legende auf dem Gebiet der Data Science: Er hat eine vollkommen neue, bahnbrechende Methode der Datenanalyse mit R entwickelt - Wickhams innovative Herangehensweise wird in diesem Buch beschrieben, es ist ein Standardwerk für DatenanalystenErfahren Sie, wie Sie mit R aus Ihren Daten Erkenntnisse und Einsichten gewinnen. Dieses Buch führt Sie in R und RStudio ein sowie in Tidyverse, eine Sammlung von R-Paketen, mit denen Data-Science-Aufgaben effektiv und zeitsparend erledigt werden können. Auch wenn Sie keine Programmiererfahrung haben, können Sie mit diesem aktualisierten Standardwerk schnell in die Praxis der Data Science einsteigen. Sie lernen, Daten zu importieren, aufzubereiten, zu visualisieren und die Ergebnisse zu präsentieren. Darüber hinaus bekommen Sie einen umfassenden Überblick über den Data-Science-Zyklus und die Tools, die für die Detailarbeit erforderlich sind. Die zweite Auflage behandelt die neuesten Funktionen und Best Practices von Tidyverse und zeigt Ihnen in neu hinzugekommenen Kapiteln, wie Sie Daten aus Spreadsheets, Datenbanken und Websites nutzen. Zahlreiche Übungen unterstützen Sie dabei, das Gelernte praktisch auszuprobieren. Themen des Buchs sind: - Visualisieren - Erstellen Sie Diagramme für die Datenauswertung und die Kommunikation von Ergebnissen - Transformieren - Erkunden Sie Variablentypen und die Werkzeuge, um mit ihnen zu arbeiten - Importieren - Lesen Sie Daten in R ein und bringen Sie sie in eine für die Analyse geeignete Form - Programmieren - Lernen Sie leistungsfähige R-Tools kennen, mit denen Sie Datenprobleme leichter lösen können - Kommunizieren - Verwenden Sie Quarto, um Text, Code und Ergebnisse kombiniert darzustellen

Hadley Wickham ist Chief Scientist bei Posit und Mitglied der R Foundation. Er erstellt sowohl technische als auch kognitive Tools, die Data Science leichter, schneller und unterhaltsamer machen. Mine Çetinkaya-Rundel ist Professor of the Practice am Department of Statistical Science an der Duke University in Durham, North Carolina. Außerdem ist sie Developer Educator bei Posit.Garrett Grolemund ist Statistiker, Lehrer und Director of Learning bei der Posit Academy. Er ist Autor von Hands-On Programming with R (O'Reilly) und hat schon früh zu Tidyverse beigetragen.

Hadley Wickham ist Chief Scientist bei Posit und Mitglied der R Foundation. Er erstellt sowohl technische als auch kognitive Tools, die Data Science leichter, schneller und unterhaltsamer machen. Mine Çetinkaya-Rundel ist Professor of the Practice am Department of Statistical Science an der Duke University in Durham, North Carolina. Außerdem ist sie Developer Educator bei Posit.Garrett Grolemund ist Statistiker, Lehrer und Director of Learning bei der Posit Academy. Er ist Autor von Hands-On Programming with R (O'Reilly) und hat schon früh zu Tidyverse beigetragen.

Einführung

Data Science ist eine spannende Disziplin, in der Sie Rohdaten in Verständnis, Erkenntnis und Wissen umwandeln können. Das Buch R für Data Science soll Ihnen die wichtigsten Tools in R nahebringen, damit Sie Aufgaben in Data Science effizient und reproduzierbar bearbeiten können, noch dazu in unterhaltsamer Weise! Nachdem Sie dieses Buch gelesen haben, verfügen Sie über das Handwerkszeug, um ein breites Spektrum anspruchsvoller Data-Science-Problemstellungen mithilfe der besten Bestandteile von R anzugehen.

Vorwort zur zweiten Auflage

Willkommen zur zweiten Auflage von R für Data Science (R4DS), die sich durch eine umfassende Überarbeitung der ersten Auflage auszeichnet. Wir haben Material entfernt, das wir nicht mehr für nützlich halten, Material hinzugefügt, das wir gern schon in die erste Auflage aufgenommen hätten, und generell den Text und den Code aktualisiert, um Änderungen bei den Best Practices zu berücksichtigen. Zudem freuen wir uns sehr, Mine Çetinkaya-Rundel als neue Co-Autorin gewonnen zu haben. Sie ist eine bekannte Lehrerin für Data Science und eine unserer Kolleginnen bei Posit (dem Unternehmen, das früher als RStudio bekannt war).

Die folgenden Punkte fassen kurz die wichtigsten Änderungen zusammen:

Der erste Teil des Buchs hat den neuen Titel »Gesamtbild« bekommen. Dieser Abschnitt soll Ihnen zeigen, worum es bei Data Science im Großen und Ganzen geht, bevor wir uns näher mit den Details beschäftigen.
Der zweite Teil des Buchs ist mit »Visualisieren« überschrieben. Dieser Teil beschreibt Visualisierungstools und Best Practices ausführlicher und detaillierter, als es in der ersten Auflage geschehen ist. Um alle Details kennenzulernen, empfiehlt sich immer noch das Buch ggplot2: Elegant Graphics for Data Analysis (Springer 2016, https://oreil.ly/HNIie), wobei aber das Ihnen hier vorliegende Buch schon mehr als die wichtigsten Techniken abhandelt.
Der dritte Teil des Buchs heißt nun »Transformieren« mit neuen Kapiteln über Zahlen, logische Vektoren und fehlende Werte. Bislang waren diese Themen im Kapitel über Datentransformationen angesiedelt, nun aber wird mehr Platz benötigt, um alle relevanten Details zu behandeln.
Im vierten Teil des Buchs geht es um das »Importieren«. Hier finden Sie eine Reihe von neuen Kapiteln, die über das Lesen von einfachen Textdateien hinausgehen und sich damit befassen, wie Sie mit Tabellenkalkulationen arbeiten, Daten aus Datenbanken abrufen, mit Big Data umgehen, hierarchische Daten in Rechteckform bringen und Daten aus Websites übernehmen.
Der Teil »Programmieren« wurde beibehalten, aber von Anfang bis Ende umgeschrieben, um sich auf die wichtigsten Teile zu konzentrieren, die für Funktionen und Iteration relevant sind. In Bezug auf Funktionen lernen Sie nun, wie Sie Tidyverse-Funktionen (die sich mit den Herausforderungen einer bereinigten Auswertung befassen) einhüllen, da dies in den letzten Jahren viel einfacher und wichtiger geworden ist. Neu hinzugekommen ist ein Kapitel über wichtige R-Basisfunktionen, die Sie wahrscheinlich in praxisnahem R-Code vorfinden werden.
Der Teil »Modellieren« ist weggefallen. Der Platz hat nie gereicht, um das Thema Modellieren adäquat darzustellen. Zudem gibt es jetzt viel bessere Ressourcen. Generell empfehlen wir, die tidymodels-Pakete (https://oreil.ly/0giAa) zu verwenden und Tidy Modeling with R (https://oreil.ly/9Op9s) von Max Kuhn und Julia Silge (O’Reilly) zu lesen.
Der Teil »Kommunizieren« besteht weiter, wurde aber gründlich aktualisiert, um Quarto (https://oreil.ly/_6LNH) anstelle von R Markdown vorzustellen. Diese Auflage des Buchs ist in Quarto geschrieben worden, das zweifellos das Tool der Zukunft ist.

Was Sie lernen werden

Data Science ist ein riesiges Gebiet, und Sie werden es wahrscheinlich nicht meistern, wenn Sie nur ein einziges Buch lesen. Dieses Buch soll Ihnen eine solide Basis für die wichtigsten Tools vermitteln und Ihnen Quellen zeigen, um bei Bedarf mehr zu lernen. Unser Modell der Schritte in einem typischen Data-Science-Projekt sieht in etwa wie in Abbildung E-1 aus.

Zuerst müssen Sie Ihre Daten in R importieren. In der Regel heißt dies, dass Sie gespeicherte Daten aus einer Datei, Datenbank oder Web-API übernehmen und in einen Dataframe in R laden. Können Sie Ihre Daten nicht nach R übernehmen, lässt sich keine Data Science damit anstellen!

Nachdem Sie die Daten importiert haben, empfiehlt es sich, sie zu bereinigen oder aufzubereiten. Dabei speichert man die Daten in einer konsistenten Form, die die Semantik des Datensets mit der Art und Weise der Speicherung abstimmt. Kurz gesagt, wenn Ihre Daten bereinigt sind, ist jede Spalte eine Variable und jede Zeile eine Beobachtung. Das Bereinigen von Daten ist wichtig, weil Sie sich dann aufgrund der konsistenten Struktur auf Fragen über die Daten konzentrieren können und sich nicht damit abmühen müssen, die Daten für verschiedene Funktionen in die richtige Form zu bekommen.

Abbildung E-1: In unserem Modell des Data-Science-Prozesses geht es los mit dem Importieren und Bereinigen der Daten. Daran schließt sich das Verstehen der Daten an, das in einem iterativen Zyklus von Transformieren, Visualisieren und Modellieren abläuft. Den Prozess beenden Sie, indem Sie Ihre Ergebnisse anderen Menschen kommunizieren.

Wenn die Daten bereinigt sind, werden sie oftmals in einem nächsten Schritt transformiert. Das Transformieren schließt das Eingrenzen auf konkrete Beobachtungen ein (wie zum Beispiel alle Personen in einer Stadt oder alle Daten aus dem letzten Jahr), das Erstellen neuer Variablen, die Funktionen von vorhandenen Variablen sind (wie das Berechnen der Geschwindigkeit aus Weg und Zeit), und das Berechnen einer Menge von Zusammenfassungsstatistiken (wie Anzahlen oder Mittelwerte). Bereinigen und Transformieren bezeichnet man zusammengenommen als Aufbereiten – im Englischen Wrangling (Rangelei, Gezerre) genannt, weil es sich oft wie ein Kampf anfühlt, die Daten in eine Form zu bringen, mit der man gut arbeiten kann!

Nachdem Sie über bereinigte Daten mit den benötigten Variablen verfügen, gibt es zwei Hauptmodule der Wissensgenerierung: Visualisierung und Modellierung. Diese weisen viele Stärken und Schwächen auf, die komplementär zueinander sind, sodass jede reale Analyse diese Schritte mehrfach durchlaufen wird.

Visualisierung ist eine fundamentale menschliche Aktivität. Eine gute Visualisierung zeigt Ihnen Dinge, die Sie nicht erwartet haben, oder wirft neue Fragen über die Daten auf. Außerdem kann eine gute Visualisierung darauf hinweisen, dass Sie die falschen Fragen stellen oder andersartige Daten erfassen müssen. Visualisierungen können Sie überraschen, lassen sich aber nicht besonders gut normieren, weil ein Mensch sie interpretieren muss.

Modelle ergänzen die Visualisierung. Haben Sie Ihre Fragen einmal ausreichend präzisiert, können Sie sie mithilfe eines Modells beantworten. Modelle sind ein fundamentales mathematisches oder rechentechnisches Werkzeug, sodass sie sich im Allgemeinen gut skalieren lassen. Und selbst wenn das nicht zutrifft, ist es normalerweise billiger, mehr Computer zu kaufen als mehr Gehirne! Doch jedes Modell geht von Annahmen aus, und seinem Wesen nach kann ein Modell seine eigenen Annahmen nicht beantworten. Ein Modell kann Sie also grundsätzlich nicht überraschen.

Der letzte Schritt bei der Data Science ist die Kommunikation, ein absolut entscheidender Teil jedes Datenanalyseprojekts. Es spielt keine Rolle, wie gut Ihre Modelle und die Visualisierung Sie dazu gebracht haben, die Daten zu verstehen, sofern Sie nicht auch Ihre Ergebnisse für andere kommunizieren können.

Den Rahmen für alle diese Tools bildet die Programmierung. Als übergreifendes Tool haben Sie mit Programmierung in jedem Teil des Projekts zu tun. Dabei müssen Sie keine Programmierexpertinnen und -experten sein, um als Data Scientists erfolgreich zu arbeiten, doch wenn Sie mehr über Programmierung lernen, zahlt sich das aus, denn als besserer Programmierer können Sie häufig anfallende Aufgaben automatisieren und neue Probleme wesentlich leichter lösen.

Diese Tools verwenden Sie in fast jedem Data-Science-Projekt, doch für die meisten Projekte sind sie nicht ausreichend. Als Faustregel gilt ein 80-20-Verhältnis: Etwa 80 % jedes Projekts können Sie angehen mit den Tools, die Sie in diesem Buch kennenlernen, doch um die restlichen 20 % zu lösen, brauchen Sie weitere Tools. Das ganze Buch hindurch verweisen wir auf Quellen, unter denen Sie mehr zu den jeweiligen Themen lernen können.

Wie dieses Buch organisiert ist

Der letzte Abschnitt hat die Data-Science-Tools ungefähr in der Reihenfolge beschrieben, in der Sie sie in einer Analyse einsetzen (auch...

Erscheint lt. Verlag	26.3.2024
Reihe/Serie	Animals
Übersetzer	Frank Langenau
Verlagsort	Heidelberg
Sprache	deutsch
Themenwelt	Mathematik / Informatik ► Informatik ► Programmiersprachen / -werkzeuge
Schlagworte	Algorithmen • Big Data • Data Mining • Data Science • Datenanalyse • Einführung • ggplot2 • R-Code • RStudio • Statistik • Statistikumgebung R • statistisch • tidyr • Wahrscheinlichkeit
ISBN-10	3-96010-834-6 / 3960108346
ISBN-13	978-3-96010-834-4 / 9783960108344

Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?

EPUB (Wasserzeichen)
Größe: 23,4 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.