Informationsintegration in Biodatenbanken - Jan Hegewald

Blick ins Buch

Informationsintegration in Biodatenbanken (eBook)

Automatisches Finden von Abhängigkeiten zwischen Datenquellen

Jan Hegewald (Autor)

eBook Download: PDF

2009 | 2009
VII, 102 Seiten
Vieweg & Teubner (Verlag)
978-3-8348-9281-2 (ISBN)

Lese- und Medienproben

Ebook-Leseprobe (PDF)

Dieses Buch liefert einen Beitrag zur Integration von Informationen aus verschiedenen Datenquellen. Ein Algorithmus wird vorgestellt, mit dem gleiche Objekte in verschiedenen Datenbanken identifiziert werden können. Dieses Verfahren erlaubt es viele große Datenbanken schnell zu analysieren und im Folgenden die enthaltenen Informationen beinahe automatisiert zu integrieren. Verteilte Daten werden dadurch handhabbar und ermöglichen neue, tiefergehende Erkenntnisse.

Jan Hegewald studierte an der Humboldt-Universität zu Berlin Informatik. Am Hasso-Plattner-Institut in Potsdam fertigte er seine Diplomarbeit an, für die er mit dem 'Information Quality Best Master Degree Award' der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet wurde.

Jan Hegewald studierte an der Humboldt-Universität zu Berlin Informatik. Am Hasso-Plattner-Institut in Potsdam fertigte er seine Diplomarbeit an, für die er mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet wurde.

Geleitwort 6
Vorwort 7
Inhaltsverzeichnis 9
1 Einleitung 10
1.1 Definitionen 12
1.2 Aufgabenstellung 15
1.3 Aufbau der Arbeit 16
2 Stand der Forschung 18
2.1 Integration von Biodatenbanken 18
2.2 (Instanz-basiertes) Schema Matching 19
2.3 Erkennen von Inklusionsabhängigkeiten 20
2.4 SPIDER 22
3 Algorithmus zum Finden von PS-INDs 30
3.1 Kategorisierung möglicher Af.xe und Schlüsselwerte 30
3.2 LINK-FINDER: Finden von Suf.x-Inklusionsabhängigkeiten 31
3.3 Erweiterungen zu LINK-FINDER 60
3.4 Ermitteln der Metadaten einer PS-IND 69
3.5 Erkennen von Beziehungen zu mehreren anderen Datenquellen 74
3.6 Komplexitätsuntersuchung 75
4 Evaluierung des Algorithmus 81
4.1 Ergebnisse 81
4.2 Laufzeitmessung 87
5 Ausblick und Zusammenfassung 94
5.1 Ausblick 94
5.2 Zusammenfassung 101
A Anhang 103
A.1 Messergebnisse für LINK-FINDER 103
A.2 Abkürzungsverzeichnis 106
Literaturverzeichnis 107

2 Stand der Forschung (S. 9-10)

In diesem Kapitel wird der aktuelle Stand der Forschung zu verschiedenen, der Problemstellung verwandten Themen eruiert.

2.1 Integration von Biodatenbanken

Mit dem weiten Feld der Integration von Biodatenbanken befassen sich mehrere Arbeiten, meist im Rahmen konkreter Projekte. Im Jahr 2001 beschrieben Eckman, Lacroix und Raschid in [ELR01] die Optimierung von Anfragen an mehrere molekularbiologische Datenbanken in einer Mediator-Wrapper-Architektur. Diese bereits 1992 von Gio Wiederhold in [Wie92] vorgestellte Architektur kapselt einzelne Datenquellen durch sogenannte Wrapper und verwendet Mediatoren um die so verfügbaren Informationen zusammenzuführen. Die Mediatoren stellen ein globales, integriertes Mediatorschema bereit – anders als in Aladin. Eckman, Lacroix und Raschid untersuchten die Anfrageoptimierung in einer Mediator-Wrapper-Architektur für Biodatenbanken. Sind mehrere Datenbanken untereinander verknüpft, so existieren meist mehrere unterschiedliche Pfade zwischen den Datenquellen.

Dementsprechend sind auch mehrere Anfragepläne zur Beantwortung einer Anfrage möglich. Die Autoren optimierten Anfrageausführungen mittels Kostenschätzungen für die einzelnen Anfragepläne. In die Optimierung wurden auch Metadaten einbezogen, die die Semantik von Datenquellen und ihre Anfrageschnittstellen beschreiben können. Hernandez und Kambhampati veröffentlichten 2004 in [HK04] einen Überblick über aktuelle Integrationstechniken im Bereich der Biodatenbanken. Sie unterschieden die Ansätze in Warehouse Integration, Mediator-basierte Integration und Link-basierte Integration.

Zu jedem Ansatz wurden Vor- und Nachteile herausgearbeitet. Die vorliegende Arbeit und das Projekt Aladin fallen in die letzte Kategorie. Die Autoren hoben als Vorteil dieses Vorgehens hervor, dass kein globales Schema modelliert werden muss. Eine Herausforderung besteht jedoch laut den Autoren darin, aus den verschiedenen möglichen Pfaden zwischen zwei Datenquellen einen möglichst günstigen auszuwählen. Weiterhin wurden einzelne Projekte vorgestellt und den jeweiligen Kategorien zugeordnet. In der Kategorie Link- basierte Integration wurde nur ein Projekt, SRS, aufgeführt.

Dieses 2001 von Rodrigo Lopez in [Lop01] beschriebene System ist allerdings mehr ein Schlüsselwortbasiertes Retrieval-System und insofern nur schwer mit Aladin zu vergleichen. Im Jahr 2004 publizierten Lacroix, Naumann, Raschid und Murthy in [LMNR04] eine Arbeit, die sich ähnlich wie [ELR01] mit Anfragen an mehrere Datenquellen befasst. Die Autoren stellten Beziehungen zwischen Datenquellen als Graphen dar. Anhand dieses Formalismus untersuchten sie Anfragen als Pfade im Graph hinsichtlich verschiedener Eigenschaften.

Dazu gehören zum Beispiel die Zeit für die Anfragebearbeitung oder die Informationsqualität bei Quellen unterschiedlicher Reputation. Ferner stellten die Autoren ein Kostenmodell auf, mit dem die Größen von Anfrageergebnissen abgeschätzt werden können. Für solche Anfrageoptimierungen ist die Erkennung der Beziehungen zwischen Datenquellen und damit diese Arbeit eine Voraussetzung. Die Arbeiten, die sich mit der Integration von Datenbanken der Molekularbiologie befassen, zeigen, dass auf diesem Gebiet noch hoher Forschungsbedarf besteht. Die vorliegende Arbeit ist ein Beitrag hierzu.

Erscheint lt. Verlag	20.2.2009
Reihe/Serie	Ausgezeichnete Arbeiten zur Informationsqualität
Reihe/Serie	Ausgezeichnete Arbeiten zur Informationsqualität
Zusatzinfo	VII, 102 S.
Verlagsort	Wiesbaden
Sprache	deutsch
Themenwelt	Mathematik / Informatik ► Informatik ► Datenbanken
	Mathematik / Informatik ► Informatik ► Netzwerke
	Naturwissenschaften ► Biologie
	Technik
Schlagworte	Bioinformatik • Biowissenschaften • Datenanlyse • Datenbank • Datenbanken • Datenintegration • Informationsintegration
ISBN-10	3-8348-9281-5 / 3834892815
ISBN-13	978-3-8348-9281-2 / 9783834892812

Haben Sie eine Frage zum Produkt?

PDF (Wasserzeichen)
Größe: 3,5 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Print-Ausgabe

Buch | Softcover

69,99 €