Blick ins Buch

Data Science

Grundlagen, Statistik und maschinelles Lernen

Matthias Plaue (Autor)

Buch | Softcover

XXIII, 314 Seiten

2021 | 1. Auflage
Springer Spektrum (Verlag)
978-3-662-63488-2 (ISBN)

Lese- und Medienproben

Inhaltsverzeichnis (PDF)

Artikel merken

Bietet eine gut verständliche Einführung in die Mathematik für Data Science
Mathematisch fundiert
Mit zahlreichen Anwendungsbeispielen

Dieses Lehrbuch bietet eine gut verständliche Einführung in mathematische Konzepte und algorithmische Verfahren, die der Data Science zugrunde liegen. Es deckt hierfür wesentliche Teile der Datenorganisation, der deskriptiven und inferenziellen Statistik, der Wahrscheinlichkeitstheorie und des maschinellen Lernens ab.

Das Werk ermöglicht den Leserinnen und Lesern ein tiefes und grundlegendes Verständnis der Konzepte durch klare und mathematisch fundierte Vermittlung der Inhalte. Darüber hinaus stellt es durch zahlreiche, anhand realer Daten erstellter Anwendungsbeispiele einen starken Praxisbezug her. Dadurch ist es besonders für Lehrende und Studierende an technischen Hochschulen geeignet, bietet aber auch Quereinsteigenden mit mathematischem Grundwissen einen guten Einstieg und Überblick.

Matthias Plaue arbeitet als Data Scientist und nutzt mathematische Methoden in täglicher Praxis für die Umsetzung von Algorithmen im Bereich der Datenanalyse und künstlichen Intelligenz. Neben der Forschung in seinen Interessengebieten hat er viele Jahre intensiv Studierende beim Verstehen von Mathematik unterstützt.

EinführungTeil
I Grundlagen
1 Elemente der Datenorganisation
1.1 Konzeptionelle Datenmodellierung
1.1.1 Entity-Relationship-Modell
1.2 Logische Datenmodellierung
1.2.1 Relationales Datenmodell
1.2.2 Graphbasierte Datenmodelle
1.2.3 Hierarchische Datenmodelle
1.3 Datenqualität
1.3.1 Datenqualitätsmerkmale
1.4 Datenbereinigung
1.4.1 Validierung
1.4.2 Normierung
1.4.3 Imputation
1.4.4 Augmentation
1.4.5 DeduplikationQuellen
2 Deskriptive Statistik
2.1 Stichprobe und Merkmale
2.2 Diagramme
2.2.1 Säulendiagramme und Histogramme
2.2.2 Streudiagramme
2.2.3 Weitere Diagramme
2.3 Lageparameter
2.3.1 Arithmetisches Mittel und empirischer Median
2.3.2 Quantile
2.3.3 Geometrisches und harmonisches Mittel
2.4 Streuungsparameter
2.4.1 Abweichung von Mittelwert oder Median
2.4.2 Shannon-Entropie
2.5 Assoziationsparameter
2.5.1 Empirische Kovarianz und Korrelation
2.5.2 Rangkorrelationskoeffizienten
2.5.3 Transinformation und Jaccard-Koeffizient QuellenTeil
II Stochastik
3 Wahrscheinlichkeitstheorie
3.1 Wahrscheinlichkeitsmaße
3.1.1 Bedingte Wahrscheinlichkeit
3.1.2 Der Satz von Bayes
3.2 Zufallsvariablen
3.2.1 Diskrete und stetige Zufallsvariablen
3.2.2 Massen- und Dichtefunktionen
3.2.3 Transformation von Zufallsvariablen
3.3 Gemeinsame Verteilung von Zufallsvariablen
3.3.1 Gemeinsame Verteilungs-, Masse- und Dichtefunktionen
3.3.2 Bedingte Masse- und Dichtefunktionen
3.3.3 Unabhängige Zufallsvariablen
3.4 Kennzahlen von Zufallsvariablen
3.4.1 Median, Erwartungswert und Varianz
3.4.2 Kovarianz und Korrelation
3.4.3 Die Tschebyscheff’sche Ungleichung
3.5 Summen und Produkte von Zufallsvariablen
3.5.1 Chi-Quadrat- und Student’sche t-VerteilungQuellen
4 Inferenzstatistik
4.1 Statistische Modelle
4.1.1 Modelle diskreter Zufallsvariablen
4.1.2 Modelle stetiger Zufallsvariablen
4.2 Gesetze der großen Zahlen
4.2.1 Bernoulli’sches Gesetz der großen Zahlen
4.2.2 Tschebyscheff’sches Gesetz der großen Zahlen
4.2.3 Varianzschätzung und Bessel-Korrektur
4.2.4 Zentraler Grenzwertsatz von Lindeberg-Lévy
4.3 Statistische Schätz- und Testverfahren
4.3.1 Intervallschätzung
4.3.2 Gauß-Test
4.3.3 Student’sche Vertrauensintervalle
4.3.4 Effektstärke
4.4 Parameter- und Dichteschätzung
4.4.1 Maximum-Likelihood-Schätzung
4.4.2 Bayes’sche Parameterschätzung
4.4.3 Kerndichteschätzung
4.5 Regressionsanalyse
4.5.1 Einfache lineare Regression
4.5.2 Theil-Sen-Verfahren
4.5.3 Einfache logistische RegressionQuellen
5 Multivariate Statistik
5.1 Datenmatrizen
5.2 Abstands- und Ähnlichkeitsmaße
5.2.1 Metrische Abstands- und Ähnlichkeitsmaße
5.2.2 Kategoriale und binäre Abstands- und Ähnlichkeitsmaße
5.2.3 Abstands- und Ähnlichkeitsmatrizen
5.3 Multivariate Lage- und Streuungsparameter
5.3.1 Geometrischer Schwerpunkt und Median, Medoid
5.3.2 Empirische Kovarianz- und Korrelationsmatrix
5.4 Zufallsvektoren und -matrizen
5.4.1 Erwartungswertvektor und Kovarianzmatrix
5.4.2 Multivariate Normalverteilung
5.4.3 MultinomialverteilungQuellenTeil
III Maschinelles Lernen
6 Überwachtes maschinelles Lernen
6.1 Elemente des überwachten Lernens
6.1.1 Verlustfunktionen und empirisches Risiko
6.1.2 Überanpassung und Unteranpassung
6.1.3 Training, Modellauswahl und Test
6.1.4 Numerische Optimierung
6.2 Regressionsverfahren
6.2.1 Lineare Regression
6.2.2 Gauß-Prozess-Regression
6.3 Klassifikationsverfahren
6.3.1 Logistische Regression
6.3.2 Nächste-Nachbarn-Klassifikation
6.3.3 Bayes’sche Klassifikationsverfahren
6.4 Künstliche neuronale Netzwerke
6.4.1 Regression und Klassifikation mittels neuronaler Netzwerke
6.4.2 Training neuronaler Netzwerke durch Fehlerrückführung
6.4.3 Convolutional Neural NetworksQuellen
7 Unüberwachtes maschinelles Lernen
7.1 Elemente des unüberwachten Lernens
7.1.1 Intrinsische Dimension von Daten
7.1.2 Topologische Merkmale von Daten
7.2 Dimensionsreduktion
7.2.1 Hauptkomponentenanalyse
7.2.2 Autoencoder
7.2.3 Multidimensionale Skalierung
7.2.4 T-distributed Stochastic Neighbor Embedding (t-SNE)
7.3 Clusteranalyse
7.3.1 K-Means-Verfahren
7.3.2 Hierarchische ClusteranalyseQuellen
8 Maschinelles Lernen in der Anwendung
8.1 Anwendungsbeispiele für überwachtes Lernen
8.1.1 MNIST: Handschrifterkennung
8.1.2 CIFAR-
10: Objekterkennung
8.1.3 Large Movie Review Dataset: Sentimentanalyse
8.2 Anwendungsbeispiele für unüberwachtes Lernen
8.2.1 Textanalyse: Themenmodellierung
8.2.2 Netzwerkanalyse: GemeinschaftsstrukturenQuellenErgänzende LiteraturSachverzeichnis

Erscheinungsdatum	01.11.2021
Zusatzinfo	XXIII, 314 S. 68 Abb.
Verlagsort	Berlin
Sprache	deutsch
Maße	155 x 235 mm
Gewicht	639 g
Einbandart	kartoniert
Themenwelt	Mathematik / Informatik ► Informatik ► Datenbanken
	Informatik ► Theorie / Studium ► Algorithmen
	Mathematik / Informatik ► Mathematik
Schlagworte	Big Data • Deep learning • Künstliche Intelligenz • machine learning • Statistik
ISBN-10	3-662-63488-0 / 3662634880
ISBN-13	978-3-662-63488-2 / 9783662634882
Zustand	Neuware