Data Science für Unternehmen - Foster Provost, Tom Fawcett

Blick ins Buch

Data Science für Unternehmen (eBook)

Data Mining und datenanalytisches Denken praktisch anwenden

Foster Provost, Tom Fawcett (Autoren)

eBook Download: EPUB

2017 | 1. Auflage
432 Seiten
MITP Verlags GmbH & Co. KG
978-3-95845-548-1 (ISBN)

Lese- und Medienproben

Ebook-Leseprobe (EPUB)

Die grundlegenden Konzepte der Data Science verstehen, Wissen aus Daten ziehen und für Vorhersagen und Entscheidungen nutzen Die wichtigsten Data-Mining-Verfahren gezielt und gewinnbringend einsetzen Zahlreiche Praxisbeispiele zur Veranschaulichung Die anerkannten Data-Science-Experten Foster Provost und Tom Fawcett stellen in diesem Buch die grundlegenden Konzepte der Data Science vor, die für den effektiven Einsatz im Unternehmen von Bedeutung sind. Sie erläutern das datenanalytische Denken, das erforderlich ist, damit Sie aus Ihren gesammelten Daten nützliches Wissen und geschäftlichen Nutzen ziehen können. Sie erfahren detailliert, welche Methoden der Data Science zu hilfreichen Erkenntnissen führen, so dass auf dieser Grundlage wichtige Entscheidungsfindungen unterstützt werden können. Dieser Leitfaden hilft Ihnen dabei, die vielen zurzeit gebräuchlichen Data-Mining-Verfahren zu verstehen und gezielt und gewinnbringend anzuwenden. Sie lernen u.a., wie Sie: Data Science in Ihrem Unternehmen nutzen und damit Wettbewerbsvorteile erzielen Daten als ein strategisches Gut behandeln, in das investiert werden muss, um echten Nutzen daraus zu ziehen Geschäftliche Aufgaben datenanalytisch angehen und den Data-Mining-Prozess nutzen, um auf effiziente Weise sinnvolle Daten zu sammeln Das Buch beruht auf einem Kurs für Betriebswirtschaftler, den Provost seit rund zehn Jahren an der New York University unterrichtet, und nutzt viele Beispiele aus der Praxis, um die Konzepte zu veranschaulichen. Das Buch richtet sich an Führungskräfte und Projektmanager, die Data-Science-orientierte Projekte managen, an Entwickler, die Data-Science-Lösungen implementieren sowie an alle angehenden Data Scientists und Studenten. Aus dem Inhalt: Datenanalytisches Denken lernen Der Data-Mining-Prozess Überwachtes und unüberwachtes Data Mining Einführung in die Vorhersagemodellbildung: von der Korrelation zur überwachten Segmentierung Anhand der Daten optimale Modellparameter finden mit Verfahren wie lineare und logistische Regression sowie Support Vector Machines Prinzip und Berechnung der Ähnlichkeit Nächste-Nachbarn-Methoden und Clustering Entscheidungsanalyse I: Was ist ein gutes Modell Visualisierung der Leistung von Modellen Evidenz und Wahrscheinlichkeiten Texte repräsentieren und auswerten Entscheidungsanalyse II: Analytisches Engineering Data Science und Geschäftsstrategie

Foster Provost ist Professor an der New York University (NYU) Stern School of Business und lehrt u.a. Business Analytics und Data Science. In den letzten zehn Jahren hat Provost verschiedene erfolgreiche Unternehmen mitbegründet, die Data Science im Marketing einsetzen.

Tom Fawcett hat einen Doktortitel für Machine Learning und war mehr als zwei Jahrzehnte in verschiedenen Branchen wie GTE Laboratories, NYNEX/Verizon Labs, HP Labs in der Forschung und Entwicklung tätig. Die von ihm veröffentlichten Arbeiten zur Anwendung von Data Science (z.B. Erkennung von Betrugsfällen und Spamfilter) sind zu Standardwerken geworden.

Einleitung

»Data Science im Unternehmen« ist für verschiedene Lesergruppen geeignet:

Führungskräfte und Projektmanager, die mit Data Scientists zusammenarbeiten, Data-Science-orientierte Projekte managen oder in solche Projekte investieren
Entwickler, die Data-Science-Lösungen implementieren
angehende Data Scientists

Dies ist weder ein Buch über Algorithmen, noch ist es ein Ersatz für ein solches Buch. Wir vermeiden ganz bewusst einen Ansatz, der sich auf Algorithmen konzentriert, denn wir sind der Meinung, dass es nur einiger weniger grundlegender Konzepte oder Prinzipien bedarf, um aus Daten nützliche Erkenntnisse zu gewinnen. Diese Konzepte dienen als Grundlage vieler wohlbekannter Data-Mining-Algorithmen. Sie bilden das Fundament, auf dem die Analyse datenzentrierter, unternehmensrelevanter Probleme, das Erstellen und Bewerten von Data-Science-Lösungen und die Beurteilung allgemeiner Strategien und Lösungsansätze der Data Science beruhen. Dementsprechend orientiert sich die Darstellung an diesen allgemeinen Prinzipien, nicht an bestimmten Algorithmen. Wenn es erforderlich ist, Verfahrensvorschriften detailliert zu beschreiben, verwenden wir statt einer Liste ausführlicher algorithmischer Schritte eine Kombination aus Text und Diagrammen, die unserer Ansicht nach leichter zugänglich ist.

Das Buch setzt keine besonderen mathematischen Kenntnisse voraus. Der Inhalt ist jedoch naturgemäß etwas technisch – Ziel ist es, ein echtes Verständnis von Data Science zu vermitteln, nicht nur einen generellen Überblick zu geben. Wir haben versucht, die Mathematik auf ein Minimum zu beschränken und die Darstellung so »konzeptionell« wie möglich zu gestalten.

Den Aussagen von Branchenkollegen zufolge ist das Buch von unschätzbarem Wert, um eine gute Verständigung zwischen den Managern eines Unternehmens, den Mitarbeitern in Technik/Entwicklung und den Data-Science-Teams zu erzielen. Allerdings stammt diese Beobachtung nur von einer kleinen Gruppe, daher sind wir gespannt, als wie allgemeingültig sich diese Beurteilung tatsächlich erweisen wird (siehe Kapitel 5). Unsere Idealvorstellung sieht so aus, dass jeder Data Scientist seinen Teamkollegen im geschäftlichen Bereich und in der Entwicklung dieses Buch gibt und damit gewissermaßen sagt: Wenn wir wirklich erstklassige Data-Science-Lösungen für unternehmensrelevante Probleme entwickeln und implementieren wollen, dann müssen wir zu einem einheitlichen Verständnis dieses Themas gelangen.

Die Kollegen haben uns außerdem mitgeteilt, dass sich das Buch noch in einem ganz unvorhergesehenen Bereich als nützlich erwiesen hat: für die Vorbereitung auf Bewerbungsgespräche mit Data Scientists. Die Nachfrage nach Data-Science-Experten auf dem Arbeitsmarkt ist hoch und nimmt weiter zu. Aus diesem Grund geben sich immer mehr Stellensuchende als Data Scientists aus. Ein Bewerber für einen solchen Job sollte die Grundlagen der Data Science, die in diesem Buch präsentiert werden, unbedingt beherrschen. (Die Branchenkollegen waren erstaunt, bei wie vielen Kandidaten das nicht der Fall ist. Halb im Scherz, halb im Ernst haben wir sogar erwogen, eine Arbeit mit dem Titel »Anmerkungen zu Bewerbungsgesprächen mit Data Scientists« zu veröffentlichen.)

Unser konzeptioneller Zugang zu Data Science

Wir stellen in diesem Buch die wichtigsten grundlegenden Konzepte der Data Science vor. Einige davon dienen als Überschriften für entsprechende Abschnitte, andere ergeben sich bei der Erörterung ganz einfach aus dem Zusammenhang (und sind daher nicht unbedingt als grundlegende Konzepte zu betrachten). Diese Konzepte umfassen die Beschreibung der eigentlichen Aufgabe, den Einsatz von Data Science und die Anwendung der Ergebnisse zur Verbesserung von Entscheidungsfindungen. Sie untermauern außerdem eine Vielzahl anderer geschäftsanalytischer Methoden und Verfahren.

Die Konzepte lassen sich in drei allgemeine Kategorien unterteilen:

Konzepte, die zeigen, wie Data Science an die Organisation und die Wettbewerbslandschaft angepasst werden kann, inklusive verschiedener Methoden, Data-Science-Teams aufzubauen, zu strukturieren und zu fördern; wie Data Science zu Wettbewerbsvorteilen führen kann und taktische Konzepte zur praktischen Handhabung von Data-Science-Projekten.
Allgemeine Konzepte der Datenanalyse, die dabei helfen, geeignete Daten und angemessene Erfassungsmethoden zu erkennen. Diese Konzepte umfassen den Data-Mining-Prozess sowie eine Reihe verschiedener Aufgaben des High-Level-Data-Minings.
Allgemeine Konzepte zur Wissensextraktion aus Daten, die umfangreiche Data-Science-Verfahren und ihre Algorithmen unterstützen.

Eines der fundamentalen Konzepte ist beispielsweise die Erkennung der Ähnlichkeit zweier Objekte, die durch Daten beschrieben werden. Diese Fähigkeit bildet die Grundlage für verschiedene spezielle Aufgaben. Sie kann etwa direkt dazu genutzt werden, Kunden zu finden, die einem vorgegebenen Kunden ähnlich sind. Sie bildet den Kern verschiedener Vorhersage-Algorithmen, die einen Zielwert abschätzen, wie z.B. der zu erwartende Ressourcenverbrauch eines Kunden oder die Wahrscheinlichkeit, mit der ein Kunde ein Angebot akzeptiert. Sie bildet außerdem die Grundlage für Clustering-Verfahren, bei denen Objekte anhand gemeinsamer Merkmale gruppiert werden, ohne dabei ein festes Ziel zu verfolgen. Ähnlichkeit ist die Grundlage der Informationsgewinnung, bei der für eine Suchanfrage relevante Dokumente oder Webseiten abgerufen werden. Und schließlich liegt sie auch vielen gängigen Empfehlungs-Algorithmen zugrunde. Ein auf Algorithmen konzentriertes Buch würde all diese Aufgaben womöglich in jeweils eigenen Kapiteln abhandeln, mit unterschiedlichen Bezeichnungen hantieren und die übereinstimmenden Aspekte in den Details von Algorithmen oder mathematischen Sätzen vergraben. In diesem Buch fokussieren wir uns stattdessen auf die vereinheitlichenden Konzepte und stellen bestimmte Aufgaben und Algorithmen als deren natürliche Erscheinungsform vor.

Ein weiteres Beispiel, das bei der Beurteilung der Nützlichkeit eines Musters eine wichtige Rolle spielt, ist der sogenannte Lift, der in der Data Science immer wieder auftritt – ein Maß dafür, wie viel verbreiteter ein Muster ist, als man vielleicht erwarten würde. Er dient dazu, völlig verschiedene Muster in unterschiedlichen Kontexten zu beurteilen. Algorithmen für gezielte Werbung werden ausgewertet, indem man den Lift berechnet, den man für die anvisierte Zielgruppe erhält. Der Lift dient zur Beurteilung der Gewichtung von Hinweisen, die für oder gegen eine Schlussfolgerung sprechen. Er gestattet es, zu ermitteln, ob ein gleichzeitiges Auftreten (eine Assoziation) von Daten wirklich von Interesse oder einfach nur auf häufiges Vorkommen zurückzuführen ist.

Wir sind der Ansicht, dass die Erklärung von Data Science anhand dieser grundlegenden Konzepte nicht nur hilfreich für den Leser ist, sondern auch die Kommunikation zwischen geschäftlichen Interessengruppen und Data Scientists vereinfacht. Sie stellt eine gemeinsame Sprache bereit und erleichtert es beiden Seiten, einander besser zu verstehen. Die gemeinsamen Konzepte führen zu intensiveren Diskussionen, die wichtige Themen aufdecken, die anderenfalls vielleicht übersehen würden.

Hinweise für Dozenten

Dieses Buch wurde erfolgreich als Lehrbuch für ein breites Spektrum von Data Science-Lehrgängen eingesetzt. Es entstand ursprünglich durch die Entwicklung von Fosters fachübergreifenden Data-Science-Kursen an der Stern School der New York University (NYU) im Herbst 2005. [1] Der Kurs wurde eigentlich für Betriebswirtschaftler und Wirtschaftsinformatiker konzipiert, wurde aber auch von Studenten vieler anderer Fächer besucht. Es ist kaum erwähnenswert, dass dieser Kurs bei Betriebswirtschaftlern und Wirtschaftsinformatikern gut ankam, da er ja eigentlich für sie gedacht war. Wirklich interessant ist, dass auch Studenten, deren Fächer sich mit Machine Learning und anderen technischen Disziplinen befassten, ihn belegten und als sehr wertvoll ansahen. Der Grund dafür scheint zumindest teilweise darin zu liegen, dass in ihren Lehrplänen außer Algorithmen andere fundamentale Prinzipien und weitere diesbezügliche Themen nicht vorhandenen waren.

An der NYU nutzen wir dieses Buch inzwischen für eine Reihe von Kursen, die in irgendeinem Zusammenhang mit Data Science stehen: den ursprünglichen Kursen für Betriebswirtschaftler und Wirtschaftsinformatiker, Grundkursen für Geschäftsanalyse im Grundstudium, den neuen Vorlesungen über Geschäftsanalyse im Hauptstudium und als Einführung für den neuen Studiengang Data Science der NYU. Darüber hinaus wird das Buch von mehr als zwanzig weiteren Universitäten in neun Ländern an Wirtschaftshochschulen, in Informatikkursen und für allgemeine Einführungen in Data Science eingesetzt (das geschah auch schon vor der eigentlichen Veröffentlichung).

Hinweis

Wir führen eine aktuelle Liste der Institute, die das Buch nutzen. Besuchen Sie http://www.data-science-for-biz.com und klicken Sie oben auf Who's using it.

Weitere Kenntnisse und Konzepte

Es gibt eine Vielzahl weiterer Konzepte und Kenntnisse, die einem praktisch tätigen Data Scientist neben den grundlegenden Prinzipien der Data Science bekannt sein sollten. Diese werden in...

Erscheint lt. Verlag	27.10.2017
Reihe/Serie	mitp Business
Sprache	deutsch
Themenwelt	Mathematik / Informatik ► Informatik ► Netzwerke
Schlagworte	Big Data • Daten • Projektmanager
ISBN-10	3-95845-548-4 / 3958455484
ISBN-13	978-3-95845-548-1 / 9783958455481

Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?

EPUB (Ohne DRM)
Größe: 14,0 MB

Digital Rights Management: ohne DRM
Dieses eBook enthält kein DRM oder Kopierschutz. Eine Weitergabe an Dritte ist jedoch rechtlich nicht zulässig, weil Sie beim Kauf nur die Rechte an der persönlichen Nutzung erwerben.

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.