Einführung in Data Science (eBook)
401 Seiten
O'Reilly Verlag
978-3-96010-336-3 (ISBN)
Joel Grus ist Forschungsingenieur am Allen Institute for Artificial Intelligence. Zuvor arbeitete er als Softwareentwickler bei Google und als Data Scientist für eine Reihe von Start-ups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalysethemen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus ('twitter.com/joelgrus').
Joel Grus ist Forschungsingenieur am Allen Institute for Artificial Intelligence. Zuvor arbeitete er als Softwareentwickler bei Google und als Data Scientist für eine Reihe von Start-ups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalysethemen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus ("twitter.com/joelgrus").
Inhalt 4
Vorwort zur 2. Auflage 12
Vorwort zur 1. Auflage 16
Kapitel 1: Einführung 20
Der Aufstieg der Daten 20
Was ist Data Science? 20
Ein motivierendes Szenario: DataSciencester 22
Finden von Schlüsselpersonen 22
Data Scientists, die Sie kennen könnten 25
Gehälter und Erfahrung 27
Bezahlte Nutzerkonten 30
Interessante Themen 30
Weiter geht’s! 32
Kapitel 2: Ein Crashkurs in Python 34
Zen und Python 34
Python installieren 35
Virtuelle Umgebungen 35
Formatieren durch Leerzeichen 37
Module 38
Funktionen 39
Strings 40
Exceptions 41
Listen 41
Tupel 42
Dictionaries 43
defaultdict 44
Counter 45
Sets 46
Kontrollfluss 46
Wahrheitswerte 47
Sortieren 48
List Comprehensions 49
Automatisierte Tests und assert 50
Objektorientierte Programmierung 50
Iterables und Generatoren 52
Zufall 54
Reguläre Ausdrücke 55
Funktionale Programmierung 56
zip und Entpacken von Argumenten 56
args und kwargs 56
Type Annotations 58
Wie man Type Annotations schreibt 60
Willkommen bei DataSciencester! 62
Weiterführendes Material 62
Kapitel 3: Daten visualisieren 64
matplotlib 64
Balkendiagramme 66
Liniendiagramme 69
Scatterplots 70
Weiterführendes Material 72
Kapitel 4: Lineare Algebra 74
Vektoren 74
Matrizen 78
Weiterführendes Material 81
Kapitel 5: Statistik 82
Einen einzelnen Datensatz beschreiben 82
Lagemaße 84
Streuung 86
Korrelation 87
Das Simpson-Paradoxon 90
Weitere Fallstricke von Korrelationen 91
Korrelation und Kausalität 92
Weiterführendes Material 93
Kapitel 6: Wahrscheinlichkeit 94
Abhängigkeit und Unabhängigkeit 94
Bedingte Wahrscheinlichkeit 95
Der Satz von Bayes 97
Zufallsvariablen 98
Kontinuierliche Wahrscheinlichkeitsverteilungen 99
Die Normalverteilung 100
Der zentrale Grenzwertsatz 103
Weiterführendes Material 105
Kapitel 7: Hypothesen und Schlussfolgerungen 106
Testen statistischer Hypothesen 106
Beispiel: Münzwürfe 106
p-Werte 109
Konfidenzintervalle 111
p-Hacking 112
Beispiel: Durchführen eines A/B-Tests 113
Bayessche Inferenz 115
Weiterführendes Material 118
Kapitel 8: Die Gradientenmethode 120
Die Idee hinter der Gradientenmethode 120
Abschätzen des Gradienten 121
Den Gradienten verwenden 124
Auswahl der richtigen Schrittweite 125
Mit der Gradientenmethode Modelle anpassen 125
Minibatch und stochastische Gradientenmethode 127
Weiterführendes Material 128
Kapitel 9: Daten sammeln 130
stdin und stdout 130
Einlesen von Dateien 132
Grundlagen von Textdateien 132
Dateien mit Feldtrennern 133
Auslesen von Webseiten 135
Parsen von HTML-Dokumenten 135
Beispiel: Den Kongress im Auge behalten 137
Verwenden von APIs 140
JSON und XML 140
Eine nicht authentifizierte API verwenden 141
APIs finden 142
Beispiel: Verwenden der Twitter-APIs 143
Zugriff auf die APIs erhalten 143
Weiterführendes Material 147
Kapitel 10: Arbeiten mit Daten 148
Erkunden Ihrer Daten 148
Erkunden eindimensionaler Daten 148
Zwei Dimensionen 151
Mehrere Dimensionen 152
NamedTuples 153
Datenklassen 155
Bereinigen und Umformen 156
Manipulieren von Daten 158
Umskalieren 160
Exkurs: tqdm 162
Hauptkomponentenanalyse 163
Weiterführendes Material 169
Kapitel 11: Maschinelles Lernen 170
Modellieren 170
Was ist maschinelles Lernen? 171
Overfitting und Underfitting 172
Genauigkeit 174
Der Kompromiss zwischen Bias und Varianz 177
Extraktion und Auswahl von Eigenschaften 178
Weiterführendes Material 179
Kapitel 12: k-Nächste-Nachbarn 180
Das Modell 180
Beispiel: Der Iris-Datensatz 182
Der Fluch der Dimensionalität 185
Weiterführendes Material 189
Kapitel 13: Naive Bayes-Klassifikatoren 190
Ein wirklich primitiver Spam-Filter 190
Ein anspruchsvollerer Spam-Filter 191
Implementierung 193
Das Modell testen 195
Das Modell verwenden 196
Weiterführendes Material 199
Kapitel 14: Einfache lineare Regression 200
Das Modell 200
Anwenden des Gradientenverfahrens 204
Maximum-Likelihood-Methode 205
Weiterführendes Material 205
Kapitel 15: Multiple Regression 206
Das Modell 206
Weitere Annahmen bei der Methode der kleinsten Quadrate 207
Anpassen des Modells 208
Interpretation des Modells 210
Anpassungsgüte 211
Exkurs: Bootstrapping 211
Standardfehler von Regressionskoeffizienten 213
Regularisierung 215
Weiterführendes Material 217
Kapitel 16: Logistische Regression 218
Die Aufgabe 218
Die logistische Funktion 221
Anwendung des Modells 223
Anpassungsgüte 224
Support Vector Machines 226
Weiterführendes Material 228
Kapitel 17: Entscheidungsbäume 230
Was ist ein Entscheidungsbaum? 230
Entropie 232
Die Entropie einer Partition 234
Einen Entscheidungsbaum erzeugen 235
Verallgemeinerung des Verfahrens 238
Random Forests 240
Weiterführendes Material 241
Kapitel 18: Neuronale Netzwerke 242
Perzeptrons 242
Feed-forward-Netze 245
Backpropagation 247
Beispiel: Fizz Buzz 250
Weiterführendes Material 253
Kapitel 19: Deep Learning 254
Der Tensor 254
Die Layer-Abstrahierung 257
Der lineare Layer 259
Neuronale Netzwerke als Abfolge von Layern 261
Verlust und Optimierung 262
Beispiel XOR überarbeitet 265
Andere Aktivierungsfunktionen 266
Beispiel: Fizz Buzz überarbeitet 267
Softmaxes und Kreuz-Entropie 268
Dropout 270
Beispiel: MNIST 271
Modelle sichern und laden 276
Weiterführendes Material 277
Kapitel 20: Clustering 278
Die Idee 278
Das Modell 279
Beispiel: Meet-ups 281
Die Auswahl von k 283
Beispiel: Clustern von Farben 284
Agglomeratives hierarchisches Clustering 286
Weiterführendes Material 291
Kapitel 21: Linguistische Datenverarbeitung 292
Wortwolken 292
N-Gramm-Sprachmodelle 294
Grammatiken 297
Exkurs: Gibbs-Sampling 299
Themenmodellierung 301
Wortvektoren 306
Rekurrente neuronale Netzwerke 315
Beispiel: Ein RNN auf Zeichenebene verwenden 318
Weiterführendes Material 321
Kapitel 22: Graphenanalyse 322
Betweenness-Zentralität 322
Eigenvektor-Zentralität 327
Matrizenmultiplikation 327
Zentralität 329
Gerichtete Graphen und PageRank 331
Weiterführendes Material 333
Kapitel 23: Empfehlungssysteme 334
Manuelle Pflege 335
Empfehlen, was beliebt ist 335
Nutzerbasiertes kollaboratives Filtern 336
Gegenstandsbasiertes kollaboratives Filtern 339
Matrixfaktorisierung 341
Weiterführendes Material 345
Kapitel 24: Datenbanken und SQL 346
CREATE TABLE und INSERT 346
UPDATE 349
DELETE 350
SELECT 351
GROUP BY 353
ORDER BY 356
JOIN 356
Subqueries 359
Indexstrukturen 359
Optimierung von Anfragen 360
NoSQL 360
Weiterführendes Material 361
Kapitel 25: MapReduce 362
Beispiel: Wörter zählen 362
Warum MapReduce? 364
MapReduce verallgemeinert 365
Beispiel: Statusmeldungen analysieren 366
Beispiel: Matrizenmultiplikation 368
Eine Randbemerkung: Combiners 370
Weiterführendes Material 370
Kapitel 26: Datenethik 372
Was ist Datenethik? 372
Jetzt aber wirklich: Was ist Datenethik? 373
Sollte ich mir über Datenethik Gedanken machen? 373
Schlechte Produkte bauen 374
Genauigkeit und Fairness abwägen 375
Zusammenarbeit 376
Interpretierbarkeit 377
Empfehlungen 377
Tendenziöse Daten 378
Datenschutz 379
Zusammenfassung 380
Weiterführendes Material 380
Kapitel 27: Gehet hin und praktizieret Data Science 382
IPython 382
Mathematik 383
Nicht bei null starten 383
NumPy 383
pandas 383
scikit-learn 384
Visualisierung 384
R 385
Deep Learning 385
Finden Sie Daten 385
Data Science in der Praxis 386
Hacker News 386
Feuerwehrautos 386
T-Shirts 387
Tweets on a Globe 387
Und Sie? 388
Index 390
Erscheint lt. Verlag | 20.11.2019 |
---|---|
Übersetzer | Kristian Rother |
Verlagsort | Heidelberg |
Sprache | deutsch |
Themenwelt | Mathematik / Informatik ► Informatik ► Programmiersprachen / -werkzeuge |
Schlagworte | Algorithmen • Big Data • Data Mining • Data Science • Datenanalyse • Einführung • MapReduce • Mathematik • Python • Statistik • Wahrscheinlichkeit |
ISBN-10 | 3-96010-336-0 / 3960103360 |
ISBN-13 | 978-3-96010-336-3 / 9783960103363 |
Informationen gemäß Produktsicherheitsverordnung (GPSR) | |
Haben Sie eine Frage zum Produkt? |
Größe: 8,6 MB
DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.
Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.
Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich