Linguistisches Identity Matching - Bertrand Lisbach

Linguistisches Identity Matching (eBook)

Paradigmenwechsel in der Suche und im Abgleich von Personendaten
eBook Download: PDF
2010 | 2011
XI, 188 Seiten
Vieweg & Teubner (Verlag)
978-3-8348-9791-6 (ISBN)
Systemvoraussetzungen
6,28 inkl. MwSt
  • Download sofort lieferbar
  • Zahlungsarten anzeigen
Identity Matching ist die Grundlage für die Suche mit und nach Personendaten. Und die betreibt heutzutage die ganze Welt: Banken suchen Geldwäscher in ihren Kundendateien, Polizeibehörden überprüfen Verdächtige mit ihren Registern und Privatpersonen stöbern alte Bekannte im Web auf. Mittels Identity Matching besorgen sich Studenten Fachartikel, Journalisten Nachrichten, Vermieter Bonitätsauskünfte und Verkäufer ihre nächsten Marketing-Opfer. Das Problem bisher ist: Sobald wir den Namen nicht genau so schreiben, wie er in der Quelle repräsentiert ist, finden wir ihn nicht. Jetzt hebt die Linguistik das Identity Matching auf ein neues Niveau. Mit dem Wissen über Sprachen, Schriften und globale Namenskonventionen ist eine zugleich präzise und zuverlässige Personensuche möglich. Dieses Buch beschreibt, was linguistisches Identity Matching ist, und gibt Ihnen praktische Tipps, wie auch Sie davon profitieren können.

Dr. Bertrand Lisbach ist CEO der Linguistic Search Solutions AG. Er studierte Psychologie, Sprachen und Informationswissenschaften und gilt als Vordenker und Experte auf dem Gebiet des linguistischen Identity Matching. Zu seiner international ausgerichteten Kundschaft zählen Softwareproduzenten, Behörden und Banken, die er berät und in der Produktevaluation und Lösungsumsetzung unterstützt.

Dr. Bertrand Lisbach ist CEO der Linguistic Search Solutions AG. Er studierte Psychologie, Sprachen und Informationswissenschaften und gilt als Vordenker und Experte auf dem Gebiet des linguistischen Identity Matching. Zu seiner international ausgerichteten Kundschaft zählen Softwareproduzenten, Behörden und Banken, die er berät und in der Produktevaluation und Lösungsumsetzung unterstützt.

Geleitwort 5
Inhaltsverzeichnis 7
Einleitung: Paradigmenwechsel im Identity Matching 12
Ein Elementarprozess in Wirtschaft und Gesellschaft 12
Die linguistische Herausforderung 13
Für wen wurde dieses Buch geschrieben? 15
Teil I: Grundlagen des linguistischen Identity Matching 17
1 Grundkonzepte 19
1.1 Identity Matching und Name Matching 19
1.2 Datenprofile und Suchabfragen 20
1.3 True und False Positives, True und False Negatives 22
1.4 Trefferquote und Genauigkeit (Recall und Precision) 23
1.5 Linguistisches Identity Matching 23
2 Anwendungsfelder 26
2.1 Know Your Customer (KYC) und Enhanced Due Diligence (EDD 26
2.2 Bekämpfung von Geldwäsche (AML) und Terrorismusfinanzierung(CFT) 27
2.3 Customer Data Integration (CDI) und Daten-Deduplizierung 29
2.4 Customer Relationship Management (CRM) 31
2.5 Kriminalitätsbekämpfung und Strafverfolgung 32
2.6 Informationsdienstleistungen 33
2.7 Fazit 34
3 Grundlegendes zu Personennamen 35
3.1 Drei Merkmale von Personennamen: Unterscheidungskraft, Konstanz, Bekanntheitsgrad 35
3.2 Personennamensysteme in ihrer historischer Entwicklung 36
3.2.1 Rufnamen und Beinamen 37
3.2.2 Patronyme und Metronyme 38
3.2.3 Vornamen und Familiennamen 39
3.3 Personennamensysteme der Welt 40
3.3.1 Westliche Personennamen 40
3.3.2 Russische Personennamen 42
3.3.3 Arabische Personennamen 43
3.3.4 Chinesische Personennamen 45
3.4 Implikationen für das Name Matching 46
4 Transkription 48
4.1 Transkription, Transliteration und Translation 48
4.2 Romanisierung 51
4.3 Romanisierung kyrillischer Namen 53
4.3.1 Geschichte und Verbreitung des kyrillischen Alphabets 53
4.3.2 Variationsquellen 55
4.4 Romanisierung arabischer Namen 57
4.4.1 Geschichte und Verbreitung des arabischen Alphabets 57
4.4.2 Variationsquellen 58
4.5 Romanisierung chinesischer Namen 62
4.5.1 Geschichte und Verbreitung der chinesischen Schrift 62
4.5.2 Variationsquellen 63
4.6 Fazit: Transkription als die Achillesferse des Name Matching 65
5 Abgeleitete Namensformen 68
5.1 Verniedlichungsformen 68
5.2 Namen in Übersetzung 70
5.3 Abgeleitete und übersetzte Formen in Namen juristischer Personen 72
6 Phonetisches Matchen 74
6.1 Homophonie 74
6.2 Das Matchen von Homophonen 75
7 Tippfehler 78
7.1 Begriffliche Abgrenzung: Variationen, Schreibfehler, Tippfehler 78
7.2 Motorisch bedingte Tippfehler und die Rolle der Computertastatur 79
7.3 Optical Character Recognition (OCR) 80
7.4 Fazit: Tippfehler im Name Matching 81
Teil II: Name-Matching-Verfahren 82
8 Name-Matching-Verfahren der 1. Generation 83
8.1 Einleitung 83
8.2 G1 String Comparison: Levensthein Distance und n-gram 84
8.2.1 Ähnlichkeit und Editieroperationen 84
8.2.2 Brauchbarkeit der Levenshtein Distance im Name Matching 86
8.2.3 Vergleich von Substrings mit n-gram-Verfahren 87
8.2.4 Brauchbarkeit von n-gram-Verfahren im Name Matching 88
8.3 G1 Phonetic Encoding mit Soundex 89
8.3.1 Phonetische Similarity Keys 89
8.3.2 Brauchbarkeit von Soundex im Name Matching 91
8.4 G1-Suche mit Varianten: Thesauri 92
8.4.1 Ein Katalog von Namensvariationen 92
8.4.2 Brauchbarkeit von Thesauri im Name Matching 93
8.5 Brauchbarkeit der G1-Verfahren im Überblick 94
8.6 Warum G1-Verfahren heute noch verbreitet sind 97
8.6.1 Name Matching als Mitgift 97
8.6.2 Strukturprobleme auf Anbieterseite 98
8.6.3 Fehlende Expertise auf der Käuferseite 99
8.6.4 Fehlen eines normativen Standards 100
9 Name-Matching-Verfahren der 2. Generation 102
9.1 Einleitung 102
9.2 G2 String Comparison: Erweiterungen von Levenshtein und n-gram 102
9.2.1 Erweiterungen 102
9.2.2 Brauchbarkeit von G2 String Comparison im Name Matching 103
9.3 G2 Phonetic Encoding: Erweiterungen von Soundex 104
9.3.1 Erweiterungen 104
9.3.2 Brauchbarkeit von G2-Phonetic Encoding im Name Matching 105
9.4 G2-Suche mit Varianten: Generative Algorithmen 106
9.4.1 Konzept 106
9.4.2 Anwendungsbeispiele 107
9.4.3 Brauchbarkeit generativer Algorithmen im Name Matching 110
9.5 Brauchbarkeit der G2-Verfahren im Überblick 111
9.6 Fazit: Drei Jahrzehnte Name Matching 113
10 Name-Matching-Verfahren der 3. Generation 115
10.1 Einleitung 115
10.2 Grundanforderungen an G3-Verfahren 115
10.2.1 Allgemeine Grundanforderungen 116
10.2.2 Spezielle Grundanforderungen 117
10.3 Multilinguale Similarity Keys für das Matchen von Transkriptionsvarianten und Homophonen 120
10.3.1 Komplexität durch Sprachenvielfalt 120
10.3.2 Komplexität durch Suchgenauigkeitsstufen 121
10.3.3 Komplexität durch Berücksichtigung des Zeichenkontextes 122
10.4 Thesauri für Vornamensformen und Spezialfälle 123
10.5 Generative Algorithmen für Tippfehler 124
10.6 Integration der Verfahren 126
10.7 Fazit 130
11 Benchmarkstudie: Die Verfahren im Vergleich 133
11.1 Datengrundlage und Testnamen 133
11.2 Verfahren und Versuchsbedingungen 134
11.3 Vorgehen und Ergebnisse 136
11.3.1 G1-Verfahren 136
11.3.2 G2-Verfahren 137
11.3.3 G3-Verfahren 139
11.3.4 Limitationen 140
11.3.5 Schlussfolgerungen 141
Teil III: Bereit für den Paradigmenwechsel 143
12 G3 Name Matching und Identity Matching 144
12.1 Raumbezogene Identitätsattribute 144
12.1.1 Länderdaten: Nationalität, Geburtsland, Gründungsland 145
12.1.2 Oikonyme: Namen von Städten, Stadtteilen und Ortschaften 147
12.1.3 Adressen 148
12.2 Zeitbezogene Identitätsattribute 149
12.3 Klassifikatorische Identitätsattribute 151
12.4 Identifikationscodes 153
12.5 Integration der Einzelvergleiche 154
12.5.1 Das Filtermodell 154
12.5.2 Das Gewichtungsmodell 155
12.5.3 Kombinierte Modelle 156
12.6 Fazit 157
13 Tipps zur Tool-Evaluation 159
13.1 Einleitung 159
13.2 Erhebung der Anforderungen 161
13.3 Long List, Short List und Request for Information 162
13.4 Testgegenstand und Testdesign 164
13.5 Auswahl der Testdaten und der Test-Queries 165
13.6 Vorabstimmung mit dem Anbieter 168
13.7 Auswertung 170
13.7.1 Trefferquote und Präzision 170
13.7.2 Trefferbewertung 171
13.7.3 Konfiguration 171
13.8 Schlussbetrachtung 172
14 The Linguistic Search Standard 174
14.1 Die Notwendigkeit eines Suchstandards 174
14.2 Die Prinzipien 176
14.2.1 Prinzipien 1-6 (Match Level Precise) 177
14.2.2 Zusatzprinzipien 7-10 (Match Level Close) 178
14.2.3 Zusatzprinzipien 11-13 (Match Level Broad) 179
14.3 Der Linguistic Search Standard im Original-Wortlaut 179
Literatur 186
Sachwortverzeichnis 187

Erscheint lt. Verlag 1.11.2010
Zusatzinfo XI, 188 S.
Verlagsort Wiesbaden
Sprache deutsch
Themenwelt Informatik Netzwerke Sicherheit / Firewall
Schlagworte Computerlinguistik • Identity Resolution • Name Matching • Onomastik • Personensuche • Search
ISBN-10 3-8348-9791-4 / 3834897914
ISBN-13 978-3-8348-9791-6 / 9783834897916
Haben Sie eine Frage zum Produkt?
PDFPDF (Wasserzeichen)
Größe: 4,4 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasser­zeichen und ist damit für Sie persona­lisiert. Bei einer missbräuch­lichen Weiter­gabe des eBooks an Dritte ist eine Rück­ver­folgung an die Quelle möglich.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seiten­layout eignet sich die PDF besonders für Fach­bücher mit Spalten, Tabellen und Abbild­ungen. Eine PDF kann auf fast allen Geräten ange­zeigt werden, ist aber für kleine Displays (Smart­phone, eReader) nur einge­schränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Mehr entdecken
aus dem Bereich
Umfassendes Sicherheits-, Kontinuitäts- und Risikomanagement mit …

von Klaus-Rainer Müller

eBook Download (2023)
Springer Vieweg (Verlag)
79,99
Methodische Kombination von IT-Strategie und IT-Reifegradmodell

von Markus Mangiapane; Roman P. Büchler

eBook Download (2024)
Springer Fachmedien Wiesbaden (Verlag)
42,99
Das umfassende Handbuch

von Michael Kofler; Klaus Gebeshuber; Peter Kloep …

eBook Download (2022)
Rheinwerk Computing (Verlag)
49,90