Machine Learning - Die Referenz -  Matt Harrison

Machine Learning - Die Referenz (eBook)

Mit strukturierten Daten in Python arbeiten
eBook Download: EPUB
2020 | 1. Auflage
246 Seiten
O'Reilly Verlag
978-3-96010-409-4 (ISBN)
Systemvoraussetzungen
29,90 inkl. MwSt
  • Download sofort lieferbar
  • Zahlungsarten anzeigen
Das praktische Nachschlagewerk zum Machine Learning mit strukturierten Daten Konzentriert sich auf Themen, die für den praktizierenden Machine-Learning-Anwender interessant sind Enthält eine große Anzahl wertvoller Codebeispiele für strukturierte Daten, die in der Praxis konkret weiterhelfen/ul> Zeigt, wie verschiedene Bibliotheken zur Lösung praktischer Fragestellungen eingesetzt werden Diese praktische Referenz ist eine Sammlung von Methoden, Ressourcen und Codebeispielen zur Lösung gängiger Machine-Learning-Probleme mit strukturierten Daten. Der Autor Matt Harrison hat einen wertvollen Leitfaden zusammengestellt, den Sie als zusätzliche Unterstützung während eines Machine-Learning-Kurses nutzen können oder als Nachschlagewerk, wenn Sie Ihr nächstes ML-Projekt mit Python starten. Das Buch ist ideal für Data Scientists, Softwareentwickler und Datenanalysten, die Machine Learning praktisch anwenden. Es bietet einen Überblick über den kompletten Machine-Learning-Prozess und führt Sie durch die Klassifizierung strukturierter Daten. Sie lernen dann unter anderem Methoden zur Modellauswahl, zur Regression, zur Reduzierung der Dimensionalität und zum Clustering kennen. Die Codebeispiele sind so kompakt angelegt, dass Sie sie für Ihre eigenen Projekte verwenden und auch gut anpassen können.

Matt Harrison leitet MetaSnake, ein Trainings- und Beratungsunternehmen für Python und Data Science. Er setzt Python seit 2000 in einer Vielzahl von Bereichen ein: Data Science, BI, Speicherung, Testing und Automatisierung, Open-Source-Stack-Management und Finanzen.

Matt Harrison leitet MetaSnake, ein Trainings- und Beratungsunternehmen für Python und Data Science. Er setzt Python seit 2000 in einer Vielzahl von Bereichen ein: Data Science, BI, Speicherung, Testing und Automatisierung, Open-Source-Stack-Management und Finanzen.

KAPITEL 1


Einleitung


Das vorliegende Buch ist weniger eine Bedienungsanleitung als vielmehr eine Sammlung von Notizen, Tabellen und Beispielen für maschinelles Lernen. Es entstand als zusätzliche Ressource für Schulungen des Autors und wird dort als reales Notizbuch ausgeteilt. Teilnehmer (die die physischen Eigenschaften von Materialien aus totem Baum bevorzugen) konnten ihre eigenen Notizen und Gedanken hinzufügen und hatten eine wertvollen Referenz ausgewählter Beispiele.

Wir werden Klassifikationsaufgaben mit strukturierten Daten Schritt für Schritt durchgehen. Weiterhin betrachten wir übliche Machine-Learning-Anwendungen wie die Vorhersage eines stetigen Werts (Regression), Clusterbildung sowie den Versuch der Dimensionsreduktion. Dieses Buch verzichtet darauf, Deep-Learning-Techniken zu diskutieren. Während solche Techniken für unstrukturierte Daten gut funktionieren, sind die Techniken aus dem vorliegenden Buch am ehesten für strukturierte Daten zu empfehlen.

Wir setzen voraus, dass der Leser mit Python vertraut ist. Es empfiehlt sich, zu lernen, wie man Daten mit der Bibliothek pandas (https://pandas.pydata.org) verarbeitet. Viele unserer Beispiele verwenden pandas, und es ist ein ausgezeichnetes Werkzeug für den Umgang mit strukturierten Daten. Außerdem können manche der Indizierungsoperationen verwirrend sein, wenn man sich nicht mit numpy (https://numpy.org/) auskennt. Für eine vollständige Besprechung von numpy und pandas wäre ein eigenes Buch notwendig.

Verwendete Bibliotheken


In diesem Buch werden viele Bibliotheken benutzt. Das hat Vor- und Nachteile. Einige dieser Bibliotheken können schwierig zu installieren sein oder zu Konflikten mit anderen Bibliotheksversionen führen. Sie müssen aber auch nicht alle diese Bibliotheken installieren. Nutzen Sie den Just-in-time-Ansatz und installieren Sie immer nur die Bibliotheken, die Sie gerade benötigen.

>>> import autosklearn, catboost,

category_encoders, dtreeviz, eli5, fancyimpute,

fastai, featuretools, glmnet_py, graphviz,

hdbscan, imblearn, janitor, lime, matplotlib,

missingno, mlxtend, numpy, pandas, pdpbox, phate,

pydotplus, rfpimp, scikitplot, scipy, seaborn,

shap, sklearn, statsmodels, tpot, treeinterpreter,

umap, xgbfir, xgboost, yellowbrick

>>> for lib in [

... autosklearn,

... catboost,

... category_encoders,

... dtreeviz,

... eli5,

... fancyimpute,

... fastai,

... featuretools,

... glmnet_py,

... graphviz,

... hdbscan,

... imblearn,

... lime,

... janitor,

... matplotlib,

... missingno,

... mlxtend,

... numpy,

... pandas,

... pandas_profiling,

... pdpbox,

... phate,

... pydotplus,

... rfpimp,

... scikitplot,

... scipy,

... seaborn,

... shap,

... sklearn,

... statsmodels,

... tpot,

... treeinterpreter,

... umap,

... xgbfir,

... xgboost,

... yellowbrick,

... ]:

... try:

... print(lib.__name__, lib.__version__)

... except:

... print("Missing", lib.__name__)

catboost 0.11.1

category_encoders 2.0.0

Missing dtreeviz

eli5 0.8.2

fancyimpute 0.4.2

fastai 1.0.28

featuretools 0.4.0

Missing glmnet_py

graphviz 0.10.1

hdbscan 0.8.22

imblearn 0.4.3

janitor 0.16.6

Missing lime

matplotlib 2.2.3

missingno 0.4.1

mlxtend 0.14.0

numpy 1.15.2

pandas 0.23.4

Missing pandas_profiling

pdpbox 0.2.0

phate 0.4.2

Missing pydotplus

rfpimp

scikitplot 0.3.7

scipy 1.1.0

seaborn 0.9.0

shap 0.25.2

sklearn 0.21.1

statsmodels 0.9.0

tpot 0.9.5

treeinterpreter 0.1.0

umap 0.3.8

xgboost 0.81

yellowbrick 0.9

Die meisten dieser Bibliotheken lassen sich leicht mit pip oder conda installieren. Für fastai müssen Sie pip install --no-deps fastai aufrufen. Die Bibliothek umap wird mittels pip install umap-learn installiert. Die Bibliothek janitor installieren Sie mit pip install pyjanitor, und für autosklearn rufen Sie pip install auto-sklearn auf.

 

Ich verwende gewöhnlich Jupyter, um eine Datenanalyse durchzuführen. Sie können auch andere Notebook-Werkzeuge einsetzen. Beachten Sie, dass manche, etwa Google Colab, viele der Bibliotheken vorinstalliert haben (möglicherweise aber in veralteten Versionen).

Es gibt zwei hauptsächliche Wege, Bibliotheken in Python zu installieren. Der eine führt über pip (eine Abkürzung für Pip Installs Python), das mit Python mitgeliefert wird. Die andere Möglichkeit ist, mit Anaconda (https://anaconda.org) zu arbeiten. Wir werden beide Wege vorstellen.

Installation mit pip


Bevor wir pip benutzen, erstellen wir eine Sandbox-Umgebung, in die wir unsere Bibliotheken installieren. So etwas heißt virtuelle Umgebung, und wir nennen sie env:

$ python -m venv env

Auf Macintosh und Linux setzen Sie python ein, auf Windows dagegen python3. Falls Windows das auf der Befehlszeile nicht erkennt, müssen Sie Python womöglich neu installieren oder Ihre Installation reparieren und Add Python to my PATH auswählen.

Danach aktivieren Sie die Umgebung, damit Sie Ihre Bibliotheken in die Sandbox-Umgebung installieren und nicht in die globale Python-Installation. Da sich viele dieser Bibliotheken weiterentwickeln und aktualisiert werden, ist es das Beste, die verwendeten Versionen für jedes Projekt festzuschreiben, damit Sie sicher sein können, dass Ihr Code läuft.

Folgendermaßen aktivieren Sie die virtuelle Umgebung auf Linux und Macintosh:

$ source env/bin/activate

Sie werden sehen, dass sich der Prompt verändert und nun anzeigt, dass wir die virtuelle Umgebung verwenden:

(env) $ which python

env/bin/python

Auf Windows müssen Sie die Umgebung mit diesem Befehl aktivieren:

C:> env/Scripts/activate.bat

Wiederum werden Sie feststellen, dass der Prompt angepasst wird, um anzuzeigen, dass wir mit der virtuellen Umgebung arbeiten:

(env) C:> where python

env/Scripts/python.exe

Auf allen Plattformen können Sie Pakete mit pip installieren. Um pandas zu installieren, geben Sie ein:

(env) $ pip install pandas

In manchen Fällen heißt das Paket anders als die Bibliothek. So können Sie nach Paketen suchen:

(env) $ pip search libraryname

Sobald Sie Ihre Pakete installiert haben, können Sie mithilfe von pip eine Datei mit allen verwendeten Paketversionen anlegen:

(env) $ pip freeze > requirements.txt

Mit der Datei requirements.txt können Sie alle Pakete ganz einfach in eine neue virtuelle Umgebung installieren:

(other_env) $ pip install -r requirements.txt

Installation mit conda


Das Werkzeug conda gehört zu Anaconda. Wir können damit Umgebungen anlegen und Pakete installieren.

Um eine Umgebung...

Erscheint lt. Verlag 28.10.2020
Übersetzer Thomas Lotze
Verlagsort Heidelberg
Sprache deutsch
Themenwelt Mathematik / Informatik Informatik Programmiersprachen / -werkzeuge
Schlagworte AI • Algorithmen • Artificial Intelligence • Data Science • KI • Künstliche Intelligenz • Maschinelles Lernen • Neural networks • NumPy • Pandas • scikit-learn • Statistische Datenanalyse • supervised learning • überwachtes Lernen
ISBN-10 3-96010-409-X / 396010409X
ISBN-13 978-3-96010-409-4 / 9783960104094
Haben Sie eine Frage zum Produkt?
EPUBEPUB (Wasserzeichen)
Größe: 11,2 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasser­zeichen und ist damit für Sie persona­lisiert. Bei einer missbräuch­lichen Weiter­gabe des eBooks an Dritte ist eine Rück­ver­folgung an die Quelle möglich.

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belle­tristik und Sach­büchern. Der Fließ­text wird dynamisch an die Display- und Schrift­größe ange­passt. Auch für mobile Lese­geräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Mehr entdecken
aus dem Bereich
Das Handbuch für Webentwickler

von Philip Ackermann

eBook Download (2023)
Rheinwerk Computing (Verlag)
34,93
Das umfassende Handbuch

von Johannes Ernesti; Peter Kaiser

eBook Download (2023)
Rheinwerk Computing (Verlag)
31,43

von Carsten Bönnen; Volker Drees; André Fischer …

eBook Download (2024)
SAP Press (Verlag)
62,93