Moderne Datenanalyse mit R (eBook)
XXI, 562 Seiten
Springer Fachmedien Wiesbaden (Verlag)
978-3-658-21587-3 (ISBN)
- alle grundlegenden Schritte eines Datenanalyseprojekts durchzuführen,
- Daten kompetent in R zu bearbeiten,
- simulationsbasierte Inferenzstatistik anzuwenden und kritisch zu hinterfragen,
- klassische und moderne Vorhersagemethoden anzuwenden und
- betriebswirtschaftliche Fragestellungen mittels datengetriebener Vorhersagemodelle zu beantworten.
Professor Dr. habil. Sebastian Sauer arbeitet als Hochschullehrer für Wirtschaftspsychologie an der FOM Hochschule für Oekonomie & Management in Nürnberg und versteht sich als Data Scientist. Daten mit R zu analysieren, ist aktuell eines seiner zentralen Interessensgebiete. Besonderes Augenmerk legt er auf den Erkenntnisbeitrag, den neue Analyseverfahren leisten. Neben dem „Wie“ der Datenanalyse beschäftigen ihn die Grenzen und Gefahren, die die moderne Datenwissenschaft für den Einzelnen und die Zivilgesellschaft mit sich bringt. Außerdem engagiert er sich für das Thema Open Science und interessiert sich für die Frage, wie die Psychologie zur Klärung von Problemen mit gesellschaftlicher Relevanz beitragen kann. Sein Blog https://data-se.netlify.com/ dient ihm als Notizbuch sich entwickelnder Gedanken. Data Science für die Wirtschaft bietet er auf https://www.data-divers.com/ an.
Vorwort 6
Inhaltsverzeichnis 12
Der Autor 12
Teil I Rahmen 23
1 Statistik heute 24
1.1 Datenanalyse, Statistik, Data Science und Co. 25
1.2 Wissensgebiete der Datenanalyse 27
1.3 Einige Grundbegriffe 29
1.4 Signal und Rauschen 30
2 Hallo, R 33
2.1 Eine kurze Geschichte von R 33
2.2 Warum R? Warum, R? 35
3 R starten 40
3.1 R und RStudio installieren 40
3.2 Pakete 42
3.3 Hilfe! R startet nicht! 44
3.4 Zuordnung von Paketen zu Befehlen 46
3.5 R-Skript-Dateien 48
3.6 Daten 48
3.7 Grundlagen der Arbeit mit RStudio 49
3.8 Hier werden Sie geholfen 52
4 Erstkontakt 55
4.1 R ist pingelig 55
4.2 Variablen zuweisen und auslesen 56
4.3 Funktionen aufrufen 57
4.4 Logische Prüfungen 58
4.5 Vektorielle Funktionen 60
4.6 Literaturempfehlungen 61
Teil II Daten einlesen 62
5 Datenstrukturen 63
5.1 Überblick über die wichtigsten Objekttypen 63
5.2 Objekttypen in R 65
5.3 Daten auslesen und indizieren 71
5.4 Namen geben 76
6 Datenimport und -export 79
6.1 Daten in R importieren 79
6.2 Textkodierung 84
6.3 Daten exportieren 85
Teil III Daten aufbereiten 88
7 Datenjudo 89
7.1 Daten aufbereiten mit dplyr 91
7.2 Zentrale Bausteine von dplyr 92
7.3 Die Pfeife 105
7.4 Spalten berechnen mit mutate() 107
7.5 Bedingte Analysen mit den Suffixen von dplyr 110
7.6 Tabellen zusammenführen (join) 113
8 Deskriptive Statistik 116
8.1 Univariate Statistik 117
8.2 Korrelationen berechnen 125
9 Praxisprobleme der Datenaufbereitung 130
9.1 Fehlende Werte 131
9.2 Datenanomalien 138
9.3 Daten umformen 143
9.4 Werte umkodieren und partitionieren 149
9.5 Vektoren zu Skalaren zusammenfassen 154
10 Fallstudie: Datenjudo 157
10.1 Deskriptive Statistiken zu den New Yorker Flügen 158
10.2 Visualisierungen zu den deskriptiven Statistiken 161
Teil IV Daten visualisieren 166
11 Datenvisualisierung mit ggplot2 167
11.1 Einstieg in ggplot2 168
11.2 Häufige Arten von Diagrammen (Geomen) 176
11.3 Die Gefühlswelt von ggplot2 188
11.4 ggplot(), der große Bruder von qplot() 189
12 Fortgeschrittene Themen der Visualisierung 197
12.1 Farbwahl 197
12.2 ggplot2-Themen 204
12.3 Interaktive Diagramme 207
13 Fallstudie: Visualisierung 210
13.1 Umfragedaten visualisieren mit „likert“ 211
13.2 Umfragedaten visualisieren mit ggplot 212
14 Geovisualisierung 224
14.1 Kartendaten 225
14.2 Unterschiede in Kartensegmenten visualisieren 228
14.3 Weltkarten 233
14.4 Anwendungsbeispiel: Konkordanz von Kulturwerten und Wohlbefinden 238
14.5 Interaktive Karten 243
Teil V Modellieren 251
15 Grundlagen des Modellierens 252
15.1 Was ist ein Modell? Was ist Modellieren? 253
15.2 Abduktion als Erkenntnisfigur im Modellieren 255
15.3 Ein Beispiel zum Modellieren in der Datenanalyse 257
15.4 Taxonomie der Ziele des Modellierens 258
15.5 Die vier Schritte des statistischen Modellierens 261
15.6 Einfache vs. komplexe Modelle: Unter- vs. Überanpassung 262
15.7 Bias-Varianz-Abwägung 263
15.8 Trainings- vs. Test-Stichprobe 264
15.9 Resampling und Kreuzvalidierung 266
15.10 Wann welches Modell? 267
15.11 Modellgüte 267
15.12 Der Fluch der Dimension 269
16 Inferenzstatistik 274
16.1 Wozu Inferenzstatistik? 275
16.2 Der p-Wert 276
16.3 Wann welcher Inferenztest? 284
16.4 Beispiele für häufige Inferenztests 285
16.5 Alternativen zum p-Wert 293
17 Simulationsbasierte Inferenz 308
17.1 Stichproben, Statistiken und Population 308
17.2 Die Stichprobenverteilung 311
17.3 Der Bootstrap 315
17.4 Nullhypothesen auf Signifikanz testen 318
Teil VI Geleitetes Modellieren 325
18 Lineare Modelle 326
18.1 Die Idee der klassischen Regression 326
18.2 Modellgüte 329
18.3 Die Regression an einem Beispiel erläutert 332
18.4 Überprüfung der Annahmen der linearen Regression 334
18.5 Regression mit kategorialen Prädiktoren 336
18.6 Multiple Regression 338
18.7 Interaktionen 340
18.8 Prädiktorenrelevanz 342
18.9 Anwendungsbeispiel zur linearen Regression 344
19 Klassifizierende Regression 350
19.1 Normale Regression für ein binäres Kriterium 351
19.2 Die logistische Funktion 352
19.3 Interpretation des Logits 355
19.4 Kategoriale Prädiktoren 356
19.5 Multiple logistische Regression 357
19.6 Modellgüte 358
19.7 Vorhersagen 361
19.8 ROC-Kurven und Fläche unter der Kurve (AUC) 362
20 Fallstudie: Titanic 369
20.1 Explorative Analyse 370
20.2 Inferenzstatistik 372
21 Baumbasierte Verfahren 381
21.1 Entscheidungsbäume 382
21.2 Entscheidungsbäume mit caret 388
21.3 Der Algorithmus der Entscheidungsbäume 395
21.4 Regressionsbäume 395
21.5 Stärken und Schwächen von Bäumen 395
21.6 Bagging 397
21.7 Grundlagen von Random Forests 398
21.8 Variablenrelevanz bei Baummodellen 402
22 Fallstudie: Kreditwürdigkeit mit caret 405
22.1 Zwei Arten der prädiktiven Modellierung 406
22.2 Daten aufbereiten 407
22.3 Modelle anpassen 411
22.4 Modellgüte bestimmen 422
22.5 Wichtigkeit der Prädiktoren bestimmen 430
Teil VII Ungeleitetes Modellieren 438
23 Clusteranalyse 439
23.1 Grundlagen der Clusteranalyse 439
23.2 Beispiel für eine einfache Clusteranalyse 445
24 Textmining 451
24.1 Grundlegende Analyse 452
24.2 Sentimentanalyse 461
25 Fallstudie: Twitter-Mining 465
25.1 Zum Einstieg: Moderne Methoden der Sentimentanalyse 466
25.2 Grundlagen des Twitter-Minings 467
Teil VIII Kommunizieren 475
26 RMarkdown 476
26.1 Forderungen an Werkzeuge zur Berichterstellung 477
26.2 Start mit RMarkdown 479
26.3 RMarkdown in Action 481
26.4 Aufbau einer Markdown-Datei 483
26.5 Syntax-Grundlagen von Markdown 484
26.6 Tabellen 485
26.7 Zitieren 488
26.8 Format-Vorlagen für RMarkdown 490
Teil IX Rahmen 2 493
27 Projektmanagement am Beispiel einer Fallstudie 494
27.1 Was ist Populismus? 495
27.2 Forschungsfrage und Operationalisierung 496
27.3 Emotionslexikon 497
27.4 Daten, Stichprobe und Analysekontext 498
27.5 Prozess der Datenanalyse 498
27.6 Zentrale Ergebnisse 500
27.7 Projektmanagement 503
28 Programmieren mit R 510
28.1 Funktionen schreiben 510
28.2 Wiederholungen 513
28.3 Defensives Programmieren 522
29 Programmieren mit dplyr 525
29.1 Wie man mit dplyr nicht sprechen darf 525
29.2 Standard-Evaluation vs. Non-Standard-Evaluation 526
29.3 NSE als Backen 528
29.4 Wie man Funktionen mit dplyr-Verben schreibt 532
29.5 Beispiele für NSE-Funktionen 535
Anhang A 539
Literatur 545
Sachverzeichnis 556
Erscheint lt. Verlag | 29.1.2019 |
---|---|
Reihe/Serie | FOM-Edition | FOM-Edition |
Zusatzinfo | XXI, 562 S. 240 Abb., 42 Abb. in Farbe. |
Verlagsort | Wiesbaden |
Sprache | deutsch |
Themenwelt | Wirtschaft ► Allgemeines / Lexika |
Schlagworte | data analytics • Datenanalyse • datenanalyse buch • datenanalyse methoden • Datenanalyse mit R • datenanalyse mit r buch • Datenauswertung • Datenmodellierung • Datenvisualisierung • prädiktive modellierung • predictive analytics • Statistikprogramm R • statistik r einführung • Statistische Datenanalyse • Text Mining |
ISBN-10 | 3-658-21587-9 / 3658215879 |
ISBN-13 | 978-3-658-21587-3 / 9783658215873 |
Haben Sie eine Frage zum Produkt? |
Größe: 40,5 MB
DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.
Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.
Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich