Entity Resolution and Information Quality -  John R. Talburt

Entity Resolution and Information Quality (eBook)

eBook Download: PDF | EPUB
2011 | 1. Auflage
256 Seiten
Elsevier Science (Verlag)
978-0-12-381973-4 (ISBN)
Systemvoraussetzungen
Systemvoraussetzungen
39,95 inkl. MwSt
  • Download sofort lieferbar
  • Zahlungsarten anzeigen
Entity Resolution and Information Quality presents topics and definitions, and clarifies confusing terminologies regarding entity resolution and information quality. It takes a very wide view of IQ, including its six-domain framework and the skills formed by the International Association for Information and Data Quality {IAIDQ). The book includes chapters that cover the principles of entity resolution and the principles of Information Quality, in addition to their concepts and terminology. It also discusses the Fellegi-Sunter theory of record linkage, the Stanford Entity Resolution Framework, and the Algebraic Model for Entity Resolution, which are the major theoretical models that support Entity Resolution. In relation to this, the book briefly discusses entity-based data integration (EBDI) and its model, which serve as an extension of the Algebraic Model for Entity Resolution. There is also an explanation of how the three commercial ER systems operate and a description of the non-commercial open-source system known as OYSTER. The book concludes by discussing trends in entity resolution research and practice. Students taking IT courses and IT professionals will find this book invaluable. - First authoritative reference explaining entity resolution and how to use it effectively - Provides practical system design advice to help you get a competitive advantage - Includes a companion site with synthetic customer data for applicatory exercises, and access to a Java-based Entity Resolution program.

Dr. John R. Talburt is Professor of Information Science at the University of Arkansas at Little Rock (UALR) where he is the Coordinator for the Information Quality Graduate Program and the Executive Director of the UALR Center for Advanced Research in Entity Resolution and Information Quality (ERIQ). He is also the Chief Scientist for Black Oak Partners, LLC, an information quality solutions company. Prior to his appointment at UALR he was the leader for research and development and product innovation at Acxiom Corporation, a global leader in information management and customer data integration. Professor Talburt holds several patents related to customer data integration and the author of numerous articles on information quality and entity resolution, and is the author of Entity Resolution and Information Quality (Morgan Kaufmann, 2011). He also holds the IAIDQ Information Quality Certified Professional (IQCP) credential.
Entity Resolution and Information Quality presents topics and definitions, and clarifies confusing terminologies regarding entity resolution and information quality. It takes a very wide view of IQ, including its six-domain framework and the skills formed by the International Association for Information and Data Quality {IAIDQ). The book includes chapters that cover the principles of entity resolution and the principles of Information Quality, in addition to their concepts and terminology. It also discusses the Fellegi-Sunter theory of record linkage, the Stanford Entity Resolution Framework, and the Algebraic Model for Entity Resolution, which are the major theoretical models that support Entity Resolution. In relation to this, the book briefly discusses entity-based data integration (EBDI) and its model, which serve as an extension of the Algebraic Model for Entity Resolution. There is also an explanation of how the three commercial ER systems operate and a description of the non-commercial open-source system known as OYSTER. The book concludes by discussing trends in entity resolution research and practice. Students taking IT courses and IT professionals will find this book invaluable. - First authoritative reference explaining entity resolution and how to use it effectively- Provides practical system design advice to help you get a competitive advantage- Includes a companion site with synthetic customer data for applicatory exercises, and access to a Java-based Entity Resolution program.

Front Cover 1
Entity Resolution and Information Quality 4
Copyright 5
Dedication 6
Contents 8
Foreword 10
Preface 14
Motivation for the Book 14
Audience 15
Organization of the Material 16
Acknowledgements 18
Chapter 1: Principles of Entity Resolution 20
Entity Resolution 20
Entity Resolution Activities 25
Summary 54
Review Questions 55
Chapter 2: Principles of Information Quality 58
Information Quality 58
IQ and the Quality of Information 61
Two IP Examples 68
IQ Management 69
Information versus Process 72
IQ and HPC 73
The Evolution of Information Quality 74
IQ as an Academic Discipline 78
IQ and ER 80
Summary 80
Review Questions 81
Chapter 3: Entity Resolution Models 82
Overview 82
The Fellegi-Sunter Model 82
SERF Model 90
Algebraic Model 98
ENRES Meta-Model 117
Summary 118
Review Questions 119
Chapter 4: Entity-Based Data Integration 122
Introduction 122
Formal Framework for Describing EBDI 123
Optimizing Selection Operator Accuracy 127
More Complex Selection Rules 133
Summary 136
Review Questions 137
Chapter 5: Entity Resolution Systems 140
Introduction 140
DataFlux dfPowerStudio 140
Infoglide Identity Resolution Engine 156
Acxiom AbiliTec 169
Summary 173
Review Questions 173
Chapter 6: The Oyster Project 176
Background 176
OYSTER Logic 177
Transitive Equivalence Example 184
Asserted Equivalence Example 188
Febrl: Open-Source Project 190
Summary 191
Review Questions 191
Chapter 7: Trends in Entity Resolution Research and Applications 192
Introduction 192
ER and Information Hubs 192
Association Analysis and Social Networks 195
HPC in ER 198
Integration of ER and IQ 200
Entity-Based Data Integration 202
Fundamental ER Research 206
Summary 208
Review Questions 209
Appendix A 232
OYSTER Configurations 232
OYSTER Setup for Students 233
OYSTER Merge-Purge Configuration 233
OYSTER Identity Capture Configuration 240
OYSTER Identity Build Configuration with Assertions 243
OYSTER Identity Resolution Configuration 247
Glossary 222
Bibliography 210
Index 250

Erscheint lt. Verlag 14.1.2011
Sprache englisch
Themenwelt Mathematik / Informatik Informatik Datenbanken
Informatik Office Programme Outlook
Informatik Weitere Themen SAP
Wirtschaft Betriebswirtschaft / Management Marketing / Vertrieb
ISBN-10 0-12-381973-3 / 0123819733
ISBN-13 978-0-12-381973-4 / 9780123819734
Haben Sie eine Frage zum Produkt?
PDFPDF (Adobe DRM)
Größe: 10,7 MB

Kopierschutz: Adobe-DRM
Adobe-DRM ist ein Kopierschutz, der das eBook vor Mißbrauch schützen soll. Dabei wird das eBook bereits beim Download auf Ihre persönliche Adobe-ID autorisiert. Lesen können Sie das eBook dann nur auf den Geräten, welche ebenfalls auf Ihre Adobe-ID registriert sind.
Details zum Adobe-DRM

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seiten­layout eignet sich die PDF besonders für Fach­bücher mit Spalten, Tabellen und Abbild­ungen. Eine PDF kann auf fast allen Geräten ange­zeigt werden, ist aber für kleine Displays (Smart­phone, eReader) nur einge­schränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen eine Adobe-ID und die Software Adobe Digital Editions (kostenlos). Von der Benutzung der OverDrive Media Console raten wir Ihnen ab. Erfahrungsgemäß treten hier gehäuft Probleme mit dem Adobe DRM auf.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen eine Adobe-ID sowie eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

EPUBEPUB (Adobe DRM)
Größe: 3,8 MB

Kopierschutz: Adobe-DRM
Adobe-DRM ist ein Kopierschutz, der das eBook vor Mißbrauch schützen soll. Dabei wird das eBook bereits beim Download auf Ihre persönliche Adobe-ID autorisiert. Lesen können Sie das eBook dann nur auf den Geräten, welche ebenfalls auf Ihre Adobe-ID registriert sind.
Details zum Adobe-DRM

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belle­tristik und Sach­büchern. Der Fließ­text wird dynamisch an die Display- und Schrift­größe ange­passt. Auch für mobile Lese­geräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen eine Adobe-ID und die Software Adobe Digital Editions (kostenlos). Von der Benutzung der OverDrive Media Console raten wir Ihnen ab. Erfahrungsgemäß treten hier gehäuft Probleme mit dem Adobe DRM auf.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen eine Adobe-ID sowie eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Mehr entdecken
aus dem Bereich