Datenqualität erfolgreich steuern (eBook)

Praxislösungen für Business-Intelligence-Projekte
eBook Download: PDF
2015 | 3. Auflage
390 Seiten
dpunkt (Verlag)
978-3-86491-641-0 (ISBN)

Lese- und Medienproben

Datenqualität erfolgreich steuern -  Detlef Apel,  Wolfgang Behme,  Rüdiger Eberlein,  Christian Merighi
Systemvoraussetzungen
69,90 inkl. MwSt
  • Download sofort lieferbar
  • Zahlungsarten anzeigen
Immer mehr Unternehmen begreifen ein gutes Datenqualitätsmanagement als einen entscheidenden Wettbewerbsvorteil: Die IT-Kosten sinken, Projekte werden beschleunigt, auf Änderungen am Markt oder von gesetzlichen Auflagen kann schneller und flexibler reagiert werden. Datenintegrationen über System-, Abteilungs- und Unternehmensgrenzen hinweg werden erleichtert und falsche Entscheidungen basierend auf mangelhaften Daten verhindert. Anhand praktischer Beispiele zeigt Ihnen dieses Buch, wie Sie die Qualität Ihrer Daten zielorientiert und nachhaltig verbessern können. Analysieren Sie die Ursachen und Auswirkungen schlechter Datenqualität und erfahren Sie, welche Investitionen sich wirklich lohnen. Lernen Sie die Grundlagen des Datenqualitätsmanagements kennen, die technische Umsetzung mit passgenauen Werkzeugen sowie die praktische Umsetzung in einem kompletten Zyklus eines BI-Projekts. Mit diesem umfassenden Wissen bieten Ihnen die Autoren einen wertvollen Leitfaden für ein erfolgreiches Datenqualitätsmanagement. Die 3. Auflage wurde komplett überarbeitet. Als neues Thema wurde Big Data aufgenommen, da es für die Welt der Business Intelligence eine neue Evolutionsstufe darstellt und somit Auswirkungen auf das Datenqualitätsmanagement hat.

Detlef Apel ist der Subject Matter Expert für Stammdaten- und Datenqualitätsmanagement bei Capgemini. Durch seine mehr als 17-jährige Erfahrung mit der Datenintegration aus heterogenen Systemen, dem Reporting, der Analyse und der Big Data Analytics ist er schnell auf das Datenqualitätsmanagement als wesentlichen Wettbewerbsvorteil für Unternehmen gestoßen. Er hat namhafte Kunden aus unterschiedlichen Branchen bei der Einführung und Optimierung ihres Datenmanagements erfolgreich beraten sowie als Architekt und Entwickler die technische Implementierung übernommen. Weiter ist ist Redner auf verschiedenen Konferenzen, Autor zahlreicher Fachpublikationen und Vertreter des Expert-Connect-Programms von Capgemini. Dr. Wolfgang Behme ist als Global Support Manager im Competence Center BI/CRM/eCom/Mobility bei der Continental Reifen Deutschland GmbH verantwortlich für den weltweiten Support der SAP BW Plattform, auf der alle BI-Anwendungen der Reifen-Division laufen. Er arbeitet seit mehr als 15 Jahren im BI-Umfeld und ist Autor und Herausgeber diverser Fachpublikationen. Sein Anliegen, den Austausch zwischen Theorie und Praxis zu fördern, wird durch zahlreiche Vorträge auf verschiedenen BI-Konferenzen sowie durch Lehraufträge an Hochschulen deutlich. Rüdiger Eberlein ist Chief Technology Officer Business Information Management bei Capgemini Deutschland. Als Architekt von Anwendungslandschaften hat er sich immer wieder mit der Problematik der Datenqualität auseinandergesetzt. Er hat BI- und Big-Data-Analytics-Lösungen für Unternehmen verschiedener Branchen wie Automobil, Finanzdienstleister, Telekommunikation und Öffentlicher Bereich mitgestaltet. Weiter hat er mehrere Fachartikel zu Architekturthemen aus Big Data Analytics und Business Intelligence veröffentlicht sowie Vorträge auf Konferenzen gehalten. Als Verantwortlicher der Rubrik Daten der Capgemini IT Trends Studie weiß er um die enorme Bedeutung, die das Thema Datenqualität für CIOs in Deutschland hat. Christian Merighi ist Senior Berater im Bereich BI/DWH Strategic Services bei Teradata GmbH in Österreich. Zu seinen Aufgabengebieten gehören die fachliche Konzeption von Business-Intelligence-/Data-Warehouse-Lösungen, die Erarbeitung von Kosten/Nutzen-Modellen sowie die Definition von Vorgehensmodellen für die Projektumsetzung in diesen Bereichen. In den letzten Jahren hat er sich im Rahmen dieser Tätigkeiten zudem auf den Bereich BI & Data Governance (Konzeption und Aufbau BICC) sowie das ganzheitliche Datenqualitätsmanagement fokussiert. In diesem Umfeld verantwortet er Projekte bei Unternehmen in Österreich, Deutschland und Osteuropa.

Detlef Apel ist der Subject Matter Expert für Stammdaten- und Datenqualitätsmanagement bei Capgemini. Durch seine mehr als 17-jährige Erfahrung mit der Datenintegration aus heterogenen Systemen, dem Reporting, der Analyse und der Big Data Analytics ist er schnell auf das Datenqualitätsmanagement als wesentlichen Wettbewerbsvorteil für Unternehmen gestoßen. Er hat namhafte Kunden aus unterschiedlichen Branchen bei der Einführung und Optimierung ihres Datenmanagements erfolgreich beraten sowie als Architekt und Entwickler die technische Implementierung übernommen. Weiter ist ist Redner auf verschiedenen Konferenzen, Autor zahlreicher Fachpublikationen und Vertreter des Expert-Connect-Programms von Capgemini. Dr. Wolfgang Behme ist als Global Support Manager im Competence Center BI/CRM/eCom/Mobility bei der Continental Reifen Deutschland GmbH verantwortlich für den weltweiten Support der SAP BW Plattform, auf der alle BI-Anwendungen der Reifen-Division laufen. Er arbeitet seit mehr als 15 Jahren im BI-Umfeld und ist Autor und Herausgeber diverser Fachpublikationen. Sein Anliegen, den Austausch zwischen Theorie und Praxis zu fördern, wird durch zahlreiche Vorträge auf verschiedenen BI-Konferenzen sowie durch Lehraufträge an Hochschulen deutlich. Rüdiger Eberlein ist Chief Technology Officer Business Information Management bei Capgemini Deutschland. Als Architekt von Anwendungslandschaften hat er sich immer wieder mit der Problematik der Datenqualität auseinandergesetzt. Er hat BI- und Big-Data-Analytics-Lösungen für Unternehmen verschiedener Branchen wie Automobil, Finanzdienstleister, Telekommunikation und Öffentlicher Bereich mitgestaltet. Weiter hat er mehrere Fachartikel zu Architekturthemen aus Big Data Analytics und Business Intelligence veröffentlicht sowie Vorträge auf Konferenzen gehalten. Als Verantwortlicher der Rubrik Daten der Capgemini IT Trends Studie weiß er um die enorme Bedeutung, die das Thema Datenqualität für CIOs in Deutschland hat. Christian Merighi ist Senior Berater im Bereich BI/DWH Strategic Services bei Teradata GmbH in Österreich. Zu seinen Aufgabengebieten gehören die fachliche Konzeption von Business-Intelligence-/Data-Warehouse-Lösungen, die Erarbeitung von Kosten/Nutzen-Modellen sowie die Definition von Vorgehensmodellen für die Projektumsetzung in diesen Bereichen. In den letzten Jahren hat er sich im Rahmen dieser Tätigkeiten zudem auf den Bereich BI & Data Governance (Konzeption und Aufbau BICC) sowie das ganzheitliche Datenqualitätsmanagement fokussiert. In diesem Umfeld verantwortet er Projekte bei Unternehmen in Österreich, Deutschland und Osteuropa.

1 Datenqualität


Der Begriff Datenqualität ist sehr stark subjektiv geprägt. Sowohl bei der Befragung von Fachleuten als auch in der Literatur erhält man zu diesem Thema sehr unterschiedliche Antworten. Viele Autoren gehen in Ermangelung einer einheitlichen Definition daher auf die beiden Grundbestandteile des Begriffs zurück und definieren sowohl Daten als auch Qualität allgemein und folgen damit Larry English, einem der Pioniere auf dem Gebiet der Datenqualität: »The best way to look at information quality is to look at what quality means in the general marketplace and then translate what quality means for information« (vgl. [English 1999, S. 15ff.]).

In diesem Kapitel werden zunächst die grundlegenden Begriffe Daten und Qualität und daraus abgeleitet der Begriff Datenqualität erläutert. Nach einer ausführlichen Beschreibung der Eigenschaften wird auf unterschiedliche Taxonomien eingegangen. Den Abschluss des Kapitels bildet das Thema Datenqualitätsmanagement.

1.1 Daten


Die aktuelle Situation in den Unternehmen ist durch eine steigende Datenflut gekennzeichnet. Beispielsweise fallen durch die Vernetzung von Scannerkassen in Supermärkten oder die Speicherung von Verbindungsdaten in der Telekommunikationsbranche große Datenmengen an. Dieser Trend wird durch neue Entwicklungen wie Radio Frequency Identification (RFID) noch verstärkt. Nach Schätzungen der Gartner-Gruppe würde die Einzelhandelskette Wal-Mart täglich Daten im Umfang von 7 Terabyte generieren, wenn alle Artikel mit RFID-Marken versehen würden (vgl. [Raskino/Fenn/Linden 2005]). Gemäß einer IDC-Studie (vgl. [IDC 2011]) ist die weltweit produzierte Datenmenge im Jahr 2011 auf ein Volumen von 1,8 Zettabyte1 angestiegen. Daten allein haben jedoch nur einen begrenzten Wert, erst in einem sinnvollen Kontext werden daraus unternehmensrelevante Informationen.

Bisher gibt es keine einheitliche Definition des Begriffs Daten. Den meisten Definitionen ist jedoch gemein, dass sie Daten nicht getrennt, sondern im Zusammenhang mit Information und Wissen betrachten, weil sich die Begriffe jeweils ergänzen (vgl. [English 1999, S. 18; Helfert 2002, S. 13; Müller 2000, S. 5ff. u.a.]). Zumeist findet eine Hierarchisierung statt, deren unterstes Glied die Daten darstellen. Hierbei wird häufig die Semiotik als Strukturierungshilfe (Syntaktik – Semantik – Pragmatik) genutzt, die die allgemeine Lehre von den Zeichen, Zeichensystemen und Zeichenprozessen in das Gebiet der Informatik überträgt.

Abb. 1–1 Semiotisches Dreieck (in Anlehnung an [Hinrichs 2002, S. 27])

Auf syntaktischer Ebene werden lediglich die Zeichen sowie ihre mathematisch-statistischen Beziehungen untereinander (z.B. relative Häufigkeit innerhalb bestimmter Grundstrukturen) untersucht, ohne dabei auf die Bedeutung der Zeichen einzugehen. Diese maschinenlesbaren Zeichenfolgen (Daten) bilden somit die Informationen der realen Welt ab.

Wird den Daten Bedeutung hinzugefügt, gelangt man auf die semantische Ebene, d.h., die Daten werden in einem bestimmten Kontext gesehen, und man spricht von Information.

Auf der pragmatischen Ebene steht der direkte Benutzer (Interpreter) im Mittelpunkt der Untersuchungen, d.h., hier spielt die Wirkung von Information auf die sie verarbeitenden Verwender (Menschen, Maschinen) eine wichtige Rolle. Somit kommt die pragmatische Ebene der Wirklichkeit am nächsten, indem sie sich über die ersten zwei Ebenen hinausgehend noch mit Fragen der jeweiligen Absicht und des Werts für den einzelnen Benutzer befasst. Erst dann wird aus der Information Wissen.

Aus Gründen der besseren Lesbarkeit bezieht sich in den nachfolgenden Kapiteln dieses Buches der Begriff Datenqualität sowohl auf die Qualität der Daten als auch auf die Qualität der Informationen.

1.2 Qualität


Der Begriff Qualität stammt ab vom lateinischen »qualitas« und bedeutet Eigenschaft oder Beschaffenheit. Ursprünglich weder positiv noch negativ belegt, wird der Begriff in der Umgangssprache automatisch als positiv angesehen. Die Suche nach einer einheitlichen Definition führt zu einer Vielzahl von Definitions- und Interpretationsversuchen. Eine allgemein akzeptierte Begriffsbeschreibung ist die DIN-Norm 55 350. Danach ist die »Qualität die Gesamtheit von Eigenschaften und Merkmalen eines Produktes oder einer Tätigkeit, die sich auf deren Eignung zur Erfüllung festgelegter oder vorausgesetzter Erfordernisse beziehen« (vgl. [DIN 55350]).

Einer der ersten Systematisierungsansätze geht auf Garvin (vgl. [Garvin 1984, S. 40ff.]) zurück, der fünf generelle Qualitätsvorstellungen unterscheidet:

  • Produktorientierter Ansatz

  • Anwenderorientierter Ansatz

  • Prozessorientierter Ansatz

  • Wertbezogener Ansatz

  • Transzendenter Ansatz

Die produktbezogene Sicht entspricht einem objektiven Qualitätsbegriff, weil Qualität als eine messbare, genau spezifizierbare Größe, die das Produkt beschreibt, gesehen wird. Qualität stellt dabei eine objektive Größe dar, die unabhängig von subjektiven Wahrnehmungen bestimmt werden kann, d.h., dieser Ansatz bezieht sich nur auf das Endprodukt, unabhängig von den Kunden (Benutzern). Qualitätsdifferenzen lassen sich damit auf die Unterschiede in den Produkteigenschaften zurückführen.

Der kunden- oder anwenderbezogene Ansatz hingegen definiert die Qualität eines Produkts über den Produktnutzer, und somit entscheidet ausschließlich der Kunde, inwieweit das Produkt der geforderten Qualität entspricht (subjektive Beurteilung des Kunden). In die amerikanische Literatur hat dieser Ansatz Eingang über die Definition »fitness for purpose« oder »fit for use« gefunden. Dabei können verschiedene Endbenutzer unterschiedliche Bedürfnisse haben, sodass die Qualität des gleichen Produkts unterschiedlich bewertet werden kann.

Beim Herstellungsbezug (prozessorientierter Ansatz) wird angenommen, dass Qualität dann entsteht, wenn der Herstellungsprozess optimal und kontrolliert verläuft und alle Vorgaben (Produktspezifikationen) eingehalten werden. Abweichungen von dem definierten Prozess werden als Qualitätsverlust angesehen.

Der wertbezogene Ansatz betrachtet Qualität unter Kostengesichtspunkten. Ein Produkt ist dann von hoher Qualität, wenn die Kosten und die empfangene Leistung in einem akzeptablen Verhältnis stehen.

Der transzendente Ansatz kennzeichnet Qualität als vorgegebene Vortrefflichkeit, Einzigartigkeit oder Superlativ. Qualität wird als Synonym für hohe Standards und Ansprüche angesehen. Dieser Grundgedanke setzt ein philosophisches Verständnis voraus, das davon ausgeht, dass Qualität nicht messbar, sondern nur erfahrbar ist. Dieser Ansatz ist für den hier zu betrachtenden Kontext von Business Intelligence nicht geeignet.

Auch wenn die hier beschriebenen Ansätze für die Fertigungsindustrie entwickelt wurden, lassen sie sich ohne Weiteres auf den Bereich der Datenqualität übertragen, wie die folgenden Analogien zeigen (vgl. [Wang/Ziad/Lee 2001, S. 3f.]. Ein Datenverarbeitungsprozess kann auch als Herstellungsprozess im Sinne der Fertigungsindustrie gesehen werden. Die Datenquellen (Lieferanten), die die Rohdaten (Rohmaterialien) bereitstellen, bilden den Ausgangspunkt der Wertschöpfungskette. Sie werden im Zuge der Integration/Transformation (Produktionsprozess) bearbeitet. Das Ergebnis des Prozesses sind die Datenprodukte, die den Datenbeziehern (Kunden) zu Auswertungszwecken zur Verfügung gestellt werden.

Abb. 1–2 Analogie zwischen industrieller Fertigung und Datenverarbeitung (Data Warehousing) (in Anlehnung an [Grimmer/Hinrichs 2001, S. 72])

Der wesentliche Unterschied liegt im Betrachtungsgegenstand sowie dessen Qualitätsmerkmalen. Im industriellen Fertigungsprozess werden physische Produkte erstellt, die Merkmale wie Haltbarkeit, Länge und Gewicht aufweisen. Im dargestellten Kontext der Datenverarbeitung entspricht das Produkt einem bestimmten Ausschnitt des Datenbestands, auch als Datenprodukt (gleichbedeutend mit einem Datensatz) bezeichnet. Zur Bestimmung der Qualität wird einem Produkt eine Menge von Merkmalen zugeordnet. Ein Merkmal ist dabei eine Eigenschaft, die zur Unterscheidung von Produkten in qualitativer oder quantitativer Hinsicht herangezogen werden kann (vgl. [Behme 2002, S. 52]).

Während in der Industrie der Qualitätsbegriff seit Jahrzehnten einen wichtigen Platz einnimmt, taucht der Begriff Datenqualität erst Mitte der 1990er-Jahre vermehrt auf. Die Vorgaben zu Datenqualität liegen damit in ihrer Entwicklung hinter den im Kontext der industriellen Fertigung entwickelten Standards hinsichtlich Qualität deutlich zurück.

1.3 Datenqualität


Es gilt nun, aus den obigen allgemeinen Daten- und Qualitätsdefinitionen den Begriff der Datenqualität abzuleiten. Helfert hat die in der Literatur vorhandenen Ansätze zur Definition von Datenqualität untersucht und einander gegenübergestellt (vgl. [Helfert 2002, S. 69ff.] und [Helfert 2000, S....

Erscheint lt. Verlag 26.2.2015
Reihe/Serie Edition TDWI
Edition TDWI
Verlagsort Heidelberg
Sprache deutsch
Themenwelt Mathematik / Informatik Informatik
Wirtschaft Betriebswirtschaft / Management Projektmanagement
Schlagworte business • Business Intelligence • Datenqualität • Datenqualitätsmanagement • Intelligence
ISBN-10 3-86491-641-0 / 3864916410
ISBN-13 978-3-86491-641-0 / 9783864916410
Haben Sie eine Frage zum Produkt?
PDFPDF (Wasserzeichen)
Größe: 16,1 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasser­zeichen und ist damit für Sie persona­lisiert. Bei einer missbräuch­lichen Weiter­gabe des eBooks an Dritte ist eine Rück­ver­folgung an die Quelle möglich.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seiten­layout eignet sich die PDF besonders für Fach­bücher mit Spalten, Tabellen und Abbild­ungen. Eine PDF kann auf fast allen Geräten ange­zeigt werden, ist aber für kleine Displays (Smart­phone, eReader) nur einge­schränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Mehr entdecken
aus dem Bereich
Agil – Klassisch – Hybrid

von Jürg Kuster; Christian Bachmann; Mike Hubmann …

eBook Download (2022)
Springer Berlin Heidelberg (Verlag)
46,99
ein praxisorientierter Leitfaden mit zahlreichen Hilfsmitteln und …

von Hannsjörg Ahrens; Klemens Bastian; Lucian Muchowski

eBook Download (2024)
Fraunhofer IRB Verlag
98,00