Praxisbuch Unsupervised Learning - Ankur A. Patel

Praxisbuch Unsupervised Learning (eBook)

Machine-Learning-Anwendungen für ungelabelte Daten mit Python programmieren

Ankur A. Patel (Autor)

eBook Download: EPUB

2020 | 1. Auflage
358 Seiten
O'Reilly Verlag
978-3-96088-877-2 (ISBN)

Entdecken Sie Muster in Daten, die für den Menschen nicht erkennbar sind Unsupervised Learning könnte der Schlüssel zu einer umfassenderen künstlichen Intelligenz sein Voller praktischer Techniken für die Arbeit mit ungelabelten Daten, verständlich geschrieben und mit unkomplizierten Python-Beispielen Verwendet Scikit-learn, TensorFlow und Keras Ein Großteil der weltweit verfügbaren Daten ist ungelabelt. Auf diese nicht klassifizierten Daten lassen sich die Techniken des Supervised Learning, die im Machine Learning viel genutzt werden, nicht anwenden. Dagegen kann das Unsupervised Learning - auch unüberwachtes Lernen genannt - für ungelabelte Datensätze eingesetzt werden, um aussagekräftige Muster zu entdecken, die tief in den Daten verborgen sind - Muster, die für den Menschen fast unmöglich zu entdecken sind. Wie Data Scientists Unsupervised Learning für ihre Daten nutzen können, zeigt Ankur Patel in diesem Buch anhand konkreter Beispiele, die sich schnell und effektiv umsetzen lassen. Sie erfahren, wie Sie schwer zu findende Muster in Daten herausarbeiten und dadurch z.B. tiefere Einblicke in Geschäftsprozesse gewinnen. Sie lernen auch, wie Sie Anomalien erkennen, automatisches Feature Engineering durchführen oder synthetische Datensätze generieren.

Ankur A. Patel ist Vice President Data Science bei 7Park Data, einem Portfolio-Unternehmen von Vista Equity Partners. Bei 7Park Data verwenden Ankur und sein Data-Science-Team alternative Daten, um Datenprodukte für Hedge-Fonds und Unternehmen sowie Machine Learning als Service (MLaaS) für Geschäftskunden zu entwickeln.

Ankur A. Patel ist Vice President Data Science bei 7Park Data, einem Portfolio-Unternehmen von Vista Equity Partners. Bei 7Park Data verwenden Ankur und sein Data-Science-Team alternative Daten, um Datenprodukte für Hedge-Fonds und Unternehmen sowie Machine Learning als Service (MLaaS) für Geschäftskunden zu entwickeln.

Einleitung

Eine kurze Geschichte des maschinellen Lernens

Maschinelles Lernen ist ein Teilgebiet der künstlichen Intelligenz (KI, engl. Artificial Intelligence, AI), bei der Computer aus Daten lernen – üblicherweise, um ihre Performance für eine eng definierte Aufgabe zu verbessern –, ohne explizit dafür programmiert zu werden. Der Begriff maschinelles Lernen (engl. Machine Learning) wurde schon 1959 geprägt (von Arthur Samuel, einer Legende auf dem Gebiet der KI), doch im 21. Jahrhundert gab es nur wenige größere kommerzielle Erfolge im maschinellen Lernen zu verzeichnen. Stattdessen fristete das Gebiet ein Nischendasein im Rahmen wissenschaftlicher Forschungen an Universitäten.

Schon ziemlich früh (bereits in den 1960er-Jahren) waren viele Mitglieder der KI-Community viel zu optimistisch hinsichtlich der Zukunft der künstlichen Intelligenz. Forscher dieser Zeit, wie zum Beispiel Herbert Simon und Marvin Minsky, behaupteten, dass die KI innerhalb von Jahrzehnten das Niveau der menschlichen Intelligenz erreichen würde:1

Innerhalb von zwanzig Jahren werden Maschinen in der Lage sein, jede Arbeit zu verrichten, zu der ein Mensch fähig ist.

– Herbert Simon, 1965

In drei bis acht Jahren werden wir eine Maschine mit der allgemeinen Intelligenz eines durchschnittlichen Menschen haben.

– Marvin Minsky, 1970

Von ihrem Optimismus geblendet, konzentrierten sich Forscher auf Projekte der sogenannten starken KI oder allgemeinen künstlichen Intelligenz (engl. Artificial General Intelligence, AGI), um damit KI-Agenten zu schaffen, die Problemlösung, Wissensdarstellung, Lernen und Planen, Natural Language Processing, Wahrnehmung und Bewegungskontrolle realisieren können. Zwar half dieser Optimismus, beträchtliche Mittel von großen Akteuren wie z.B. dem Verteidigungsministerium zu beschaffen, doch nahmen diese Forscher zu anspruchsvolle Probleme in Angriff und waren letztlich zum Scheitern verurteilt.

Die KI-Forschung schaffte nur gelegentlich den Sprung vom akademischen Umfeld in die Industrie, und es folgte eine Reihe sogenannter KI-Winter. In diesen KI-Wintern (eine Analogie, die sich am nuklearen Winter in der Ära des Kalten Kriegs orientierte) gingen das Interesse an der KI und ihre Finanzierung zurück. Gelegentlich auftretende Hype-Zyklen um KI hielten kaum an. Anfang der 1990er-Jahre hatte das Interesse an der KI und ihrer Finanzierung einen Tiefpunkt erreicht.

KI ist zurück, aber warum gerade jetzt?

KI ist in den letzten zwei Jahrzehnten mit Vehemenz wieder aufgetaucht – zuerst als rein akademischer Interessenbereich und jetzt inzwischen als ausgewachsenes Gebiet, das die hellsten Köpfe von Universitäten wie auch von Unternehmen in ihren Bann zieht.

Drei entscheidende Entwicklungen stehen hinter diesem Wiederaufleben: Durchbrüche bei den Algorithmen für maschinelles Lernen, die Verfügbarkeit großer Datenbestände und superschnelle Computer.

Erstens haben Forscher ihre Aufmerksamkeit auf eng definierte Teilprobleme der starken KI gerichtet, auch als schwache KI bezeichnet, anstatt sich auf übermäßig ambitionierte starke KI-Projekte zu versteifen. Dieser Fokus auf die Verbesserung von Lösungen für eng definierte Aufgaben führte zu algorithmischen Durchbrüchen, die den Weg für erfolgreiche kommerzielle Anwendungen ebneten. Viele dieser Algorithmen – oftmals ursprünglich an Universitäten oder privaten Forschungseinrichtungen entwickelt – wurden schnell als Open Source zugänglich gemacht, was die Akzeptanz dieser Technologien durch die Industrie beschleunigte.

Zweitens wurde die Datenerfassung zu einem Schwerpunkt für die meisten Unternehmen, und die Kosten für das Speichern der Daten fielen aufgrund der Fortschritte in der digitalen Datenspeicherung drastisch. Dank des Internets wurden Unmengen von Daten auch in einem noch nie gekannten Umfang weithin und öffentlich zugänglich.

Drittens wurden die Computer immer leistungsfähiger und über die Cloud verfügbar, sodass KI-Forscher ihre IT-Infrastruktur bei Bedarf einfach und preiswert skalieren konnten, ohne zunächst riesige Mittel in Hardware zu investieren.

Das Entstehen der angewandten KI

Die oben genannten Kräfte haben die KI aus dem akademischen Umfeld in die Industrie befördert und dazu beigetragen, das Interesse und die Finanzierung von Jahr zu Jahr auf ein höheres Niveau zu heben. KI ist nicht mehr nur ein theoretischer Interessenbereich, sondern ein vollwertiges Anwendungsgebiet. Abbildung 1 zeigt ein Diagramm aus Google Trends, das das wachsende Interesse am maschinellen Lernen im Verlauf der letzten fünf Jahre darstellt.

Abbildung 1: Interesse am maschinellen Lernen in den letzten Jahren

KI gilt heute als bahnbrechende horizontale Technologie – ähnlich dem Aufkommen von Computern und Smartphones –, die in den nächsten zehn Jahren erhebliche Auswirkungen auf jede einzelne Branche haben wird.2

Zu den erfolgreichen kommerziellen Anwendungen, die sich auf maschinelles Lernen stützen, gehören unter anderem optische Zeichenerkennung, Filtern von Spam-Mails, Bildklassifizierung, Computervision, Spracherkennung, maschinelle Übersetzung, Gruppensegmentierung und Clustering, Generieren von synthetischen Daten, Anomalieerkennung, Prävention von Cyberkriminalität, Erkennung von Kreditkartenbetrug, Erkennung von Betrug im Internet, Zeitreihenvorhersage, Natural Language Processing, Brett- und Videospiele, Dokumentklassifizierung, Empfehlungssysteme, Suchen, Robotik, Onlinewerbung, Sentimentanalyse, DNA-Sequenzierung, Finanzmarktanalyse, Informationsgewinnung, Beantwortung von Fragen und Entscheidungsfindung im Gesundheitswesen.

Meilensteine der angewandten KI in den letzten 20 Jahren

Die hier beschriebenen Meilensteine halfen, die KI von einem meist akademischen Gesprächsthema zu einem wichtigen Bestandteil der heutigen Technologie zu machen.

1997: Deep Blue, ein KI-Bot, der seit Mitte der 1980er-Jahre entwickelt wird, schlägt den Schachweltmeister Garry Kasparov in einem medienwirksamen Schachereignis.
2004: Die DARPA führt die DARPA Grand Challenge ein, einen in der Mojave-Wüste stattfindenden Wettbewerb für unbemannte Landfahrzeuge. Im Jahr 2005 erhält Stanford den Hauptpreis. Im Jahr 2007 veranstaltet die Carnegie Mellon University diesen Wettbewerb in einem städtischen Umfeld. Bis 2015 haben viele große Technologieunternehmen, darunter Tesla, Waymo von Alphabet und Uber, finanziell gut ausgestattete Programme aufgelegt, um eine allgemein verfügbare Selbstfahrtechnologie aufzubauen.
2006: Geoffrey Hinton von der University of Toronto stellt einen schnellen Lernalgorithmus vor, um neuronale Netze mit vielen Schichten zu trainieren, und leitet damit die Deep-Learning-Revolution ein.
2006: Netflix startet den mit einer Million Dollar dotierten Wettbewerb Netflix Prize, bei dem die Teams durch maschinelles Lernen die Genauigkeit ihres Empfehlungssystems um wenigstens 10% verbessern sollen. Im Jahr 2009 hat zum ersten Mal ein Team diesen Preis gewonnen.
2007: KI erreicht übermenschliche Performance im Damespiel, was von einem Team der University of Alberta erreicht wurde.
2010: ImageNet startet einen jährlichen Wettbewerb – die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) –, bei der Teams mithilfe von Algorithmen des maschinellen Lernens Objekte in einem großen, gut gepflegten Bild-Dataset korrekt erkennen und klassifizieren. Sowohl Akademiker als auch Technologieriesen sind stark daran interessiert. Der Klassifizierungsfehler fällt von 25% im Jahr 2011 auf nur wenige Prozent bis 2015, was Fortschritten bei tiefen Faltungsnetzen zu verdanken ist. Dies führt zu kommerziellen Anwendungen von Computervision und Objekterkennung.
2010: Microsoft bringt die Steuerung Kinect für die Spielkonsole Xbox 360 auf den Markt. Die vom Computervision-Team bei Microsoft Research entwickelte Kinect kann Körperbewegungen des Menschen verfolgen und in Softwarebefehle zur Steuerung von Videospielen übersetzen.
2010: Siri, einer der ersten allgemein verfügbaren digitalen Sprachassistenten, wird von Apple übernommen und im Oktober 2011 als Teil des iPhone 4S veröffentlicht. Schließlich führt Apple Siri für alle seine Produkte ein. Auf der Basis von Convolutional Neural Networks (Faltungsnetzen) und rekurrenten neuronalen Long-Short-Term-Memory-Netzwerken beherrscht Siri sowohl die Spracherkennung als auch das Natural Language Processing. Schließlich greifen auch Amazon, Microsoft und Google mit Alexa (2014), Cortana (2014) sowie Google Assistant (2016) ins Rennen ein.
2011: IBM Watson, ein Fragen beantwortender KI-Agent, der von einem Team unter der Leitung von David Ferruci entwickelt wurde, schlägt die ehemaligen Jeopardy!-Gewinner Brad Rutter und Ken Jennings. IBM...

Erscheint lt. Verlag	15.4.2020
Übersetzer	Frank Langenau
Verlagsort	Heidelberg
Sprache	deutsch
Themenwelt	Mathematik / Informatik ► Informatik ► Programmiersprachen / -werkzeuge
Schlagworte	AI • Algorithmen • Artificial Intelligence • Data Science • Gans • Keras • KI • Künstliche Intelligenz • Maschinelles Lernen • ML • nicht gelabelt • supervised learning • tensorflow • überwachtes Lernen • unlabeled data • Unsupervised Learning
ISBN-10	3-96088-877-5 / 3960888775
ISBN-13	978-3-96088-877-2 / 9783960888772

Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?

EPUB (Wasserzeichen)
Größe: 10,0 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.