Automatische Indexierung von Dokumenten in einer wissenschaftlichen Bibliothek - Thomas Groß

Automatische Indexierung von Dokumenten in einer wissenschaftlichen Bibliothek (eBook)

Implementierung und Evaluierung am Beispiel der Deutschen Zentralbibliothek für Wirtschaftswissenschaften

Thomas Groß (Autor)

eBook Download: PDF | EPUB

2011 | 1. Auflage
97 Seiten
Diplomica Verlag GmbH
978-3-8428-1614-5 (ISBN)

Die Bewertung der Indexierungsqualität bzw. -güte ist ein grundlegendes Problem von intellektuellen und automatischen Indexierungsverfahren. Letztere werden aber gerade im digitalen Zeitalter als einzige Möglichkeit angesehen, den zunehmenden Schwierigkeiten bibliothekarischer Informationsstrukturierung gerecht zu werden. Diese Studie befasst sich mit der Funktionsweise, Implementierung und Evaluierung der Sacherschließungssoftware MindServer Categorizer der Firma Recommind an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften. Grundlage der maschinellen Sacherschließung und anschließenden quantitativen und qualitativen Auswertung bilden rund 39.000 wirtschaftswissenschaftliche Dokumente aus den Datenbanken Econis und EconStor. Unter Zuhilfenahme des rund 6.000 Schlagwörter umfassenden Standard-Thesaurus Wirtschaft wird der ursprünglich rein statistische Indexierungsansatz des MindServer Categorizer zu einem begriffsorientierten Verfahren weiterentwickelt und zur Inhaltserschließung digitaler Informationsressourcen eingesetzt. Der zentrale Fokus dieser Studie liegt vor allem auf der Evaluierung der maschinell beschlagworteten Titel, in Anlehnung an die hierzu von Stock und Lancaster vorgeschlagenen Kriterien: Indexierungskonsistenz, -tiefe, -breite, -spezifität, -effektivität. Weiterhin wird die Belegungsbilanz des STW evaluiert und es erfolgt zusätzlich eine qualitative, stichprobenartige Bewertung der Ergebnisse seitens der zuständigen Fachreferenten und -referentinnen.Thomas Groß, Jahrgang 1980, studierte von 2001 bis 2006 Politikwissenschaft auf Diplom mit den Nebenfächern Volkswirtschaftslehre und Rechtswissenschaft, zuerst an der Universität Leipzig, später an der Freien Universität Berlin. Seit 2007 ist er Fachreferent an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften in Kiel. Von 2008-2010 absolvierte der Autor berufsbegleitend ein Masterstudium der Bibliotheks- und Informationswissenschaft an der Humboldt-Universität zu Berlin.

Thomas Groß, Jahrgang 1980, studierte von 2001 bis 2006 Politikwissenschaft auf Diplom mit den Nebenfächern Volkswirtschaftslehre und Rechtswissenschaft, zuerst an der Universität Leipzig, später an der Freien Universität Berlin. Seit 2007 ist er Fachreferent an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften in Kiel. Von 2008-2010 absolvierte der Autor berufsbegleitend ein Masterstudium der Bibliotheks- und Informationswissenschaft an der Humboldt-Universität zu Berlin.

Zusammenfassung 3
Inhaltsverzeichnis 5
Abbildungsverzeichnis 6
Tabellenverzeichnis 7
Abkürzungsverzeichnis 8
1 Einleitung 9
2 Forschungsstand 18
2.1 Überblicks- und theoretische Arbeiten 18
2.2 Evaluierungsverfahren I: Retrievaltests 21
2.3 Evaluierungsverfahren II: Indexierungskonsistenz 23
2.3.1 Manuelle Sacherschließung 24
2.3.2 Manuelle vs. automatische Sacherschließung 28
2.4 Evaluierungsverfahren III: Sonstige 30
2.5 Evaluierung des MindServers 31
3 Methode, Daten, Messverfahren 33
3.1 Der MindServer als statistisches Verfahren 33
3.2 Datenlage und Stichprobenumfang 37
3.3 Zum Messverfahren: Die Evaluierung der Indexierungsqualität 38
4 Ergebnisse 44
4.1 Indexierungskonsistenz 44
4.2 Indexierungstiefe 47
4.2.1 Indexierungsbreite 48
4.2.2 Indexierungsspezifität 53
4.3 Indexierungseffektivität 55
4.4 Belegungsbilanz 58
4.5 Referentenauswertung 61
5 Fazit 66
Literaturverzeichnis 73
Anhang 79

Textprobe: Kapitel 3.1, Der MindServer als statistisches Verfahren: Automatische Indexierungsverfahren können in vier Kategorien eingeteilt werden. Statistische Verfahren (1. Kategorie) bestimmen die Häufigkeit von Wörtern bzw. Termen in einem Text und weisen den signifikanten, weil in der ermittelten Häufigkeitsliste oben stehenden Wörtern eine sinntragende Bedeutung für den Dokumenteninhalt zu. Die informationslinguistischen (bzw. computerlinguistischen) Verfahren (2. Kategorie) fokussieren demgegenüber auf die Sprach- und Schriftsystemerkennung von Texten. Diese Verfahren gehen deshalb folgendermaßen vor, um die sprachliche Ebene des Dokumentes zu analysieren Entfernung nicht sinntragender Wörter, Rückführung der Flexionsform eines Wortes auf seine Grund- oder Stammform, Erkennung zusammengehöriger Wortterme und Pronomina sowie Kompositazerlegung. Informationslinguistische Verfahren können wiederum unterteilt werden in regelbasierte und wörterbuchbezogene Ansätze, die sich aber auch miteinander kombinieren lassen. Pattern-Matching- bzw. Mustererkennungsverfahren (3. Kategorie) bestimmen auf Basis vorher trainierter Muster die in Dokumenten entsprechend relevanten/sinntragenden Wortgruppen. Begriffsorientierte (oder additive) Verfahren (4. Kategorie) abstrahieren vom Dokumenteninhalt auf die Bedeutung des Textes und weisen diesem dann eine oder mehrere Kategorien (Deskriptoren oder Notationen) aus einem kontrollierten Vokabular zu. Letzteres Verfahren beinhaltet auch ordnungstheoretische Aspekte, gilt es doch, die Vorlage in ein ontologisches Begriffssystem - hierzu zählen domänenspezifische Konzepträume - einzuordnen. Zudem weist Luckhardt darauf hin, dass ein Additionsverfahren, wie es in dieser Arbeit zur Anwendung kommt, generell zu einer geringeren Indexierungskonsistenz führt als eingesetzte Extraktionsverfahren. Die in der ZBW zur automatischen Indexierung eingesetzte MindServer-Software bedient sich der PLSA (Probabilistic Latent Semantic Analysis). Dahinter verbirgt sich eine Maschinenlerntechnik, mit deren Hilfe in einer vorhandenen Dokumentensammlung relevante Konzepte oder Themen automatisch identifiziert und entsprechend strukturiert werden. Die Analyse der sinntragenden Teile eines Dokumentes erfolgt hierbei über ein konsequent statistisches Verfahren, das 'im Gegensatz zu linguistischen Ansätzen ein Kategorieverständnis über das gemeinsame Auftreten von Worten erlangt. Im Kategorisierungsfall werden dem System Kategorien/Taxonomien vorgegeben, die zur Verschlagwortung herangezogen werden sollen. Für jede der Kategorien werden dann Trainingsdokumente, die bereits kategorisiert sind, in das Softwaresystem eingespeist. Über diese vorkategorisierten Trainingsdokumente ist das System in der Lage, eine Konfiguration für jede Kategorie zu extrahieren, die es dem System ermöglicht, Dokumente unter Angabe der Konfidenz in die Kategorien einzusortieren'. Der PLSA-Algorithmus benötigt für diese eben beschriebene Kategorisierung generell keinen Input in Form von Lexika, Klassifikationen, Thesauri oder Ontologien. Die Software stellt ein lernendes System dar, welches Informationsstrukturen aus einer Gesamtdokumentenanzahl abstrahiert und Lernmuster generiert. Dies geschieht mit Hilfe eines statistischen Verfahrens und mündet in einer quantitativen und zugleich qualitativen Beschreibung aller Dokumente. Die semantische Verknüpfung von Worttermen oder Inhaltsaspekten erfolgt über die statistische Ermittlung von Häufigkeiten. Diese Vorgehensweise ermöglicht eine sprach- und fachspezifisch unabhängige Analyse der vorliegenden Texte. Zudem ermöglicht dieser Ansatz, latent im Dokument enthaltene Inhalte durch den Abgleich mit der Gesamtdokumentenzahl zu erkennen, die ein manueller Indexierer durch seinen eingeschränkten Blickwinkel normalerweise nicht erkennen kann. Die generelle Lernfähigkeit der eingesetzten Indexierungssoftware wird durch deren Einsatz im Rahmen eines semi-automatischen Verfahrens noch erhöht. Mit Hilfe dieses Verfahrens können durch die FachreferentInnen Indexierungsfehler ausgebessert und Wortkombinationen, eine Schwachstelle vieler maschineller Verfahren, dem System als Regeldefinition vorgegeben werden, um die Kontexterkennung zu verbessern. Dadurch werden nicht nur statistisch häufige Muster erkannt, sondern darüber hinaus durch die Trainingsdokumente auch Gesetzmäßigkeiten konstruiert, die bei der Erschließung von neuen Dokumenten ('unseen documents') Berücksichtigung finden. Die in der ZBW momentan vorgenommene Implementierung einer semi-automatischen Indexierung läuft folgendermaßen ab. Zuerst wird ein Trainingsset benötigt, auf dessen Basis die Indexierungssoftware die Vergabe der einzelnen Kategorien/Schlagwörter auf Grundlage des manuellen Indexierungsverhaltens trainieren kann. In der Regel braucht das System eine ausreichende Anzahl an Dokumenten pro Kategorie (mindestens 50 Titel), um diese eindeutig zuzuordnen. Hierbei extrahiert das System nicht nur einzelne, häufig vorkommende Stichworte, sondern Wortmuster, die wiederum für die Entscheidung bezüglich einer Kategoriezuordnung genutzt werden. Dieser Lernvorgang wird mit Hilfe des sog. Taxonomie-Browsers durchgeführt. Auf dieser Erfahrungsbasis können jetzt neue Dokumente dem System im Rahmen des alltäglichen Geschäftsprozesses zur Verschlagwortung zur Verfügung gestellt werden. Neue Dokumente stellen damit das jeweilige Testset dar, welches unter Zuhilfenahme des Annotationstoolskategorisiert wird. Diese Kategorien bzw. Deskriptoren können nun vom menschlichen Indexierer angenommen, geändert oder abgelehnt werden. Das dann vollendet erschlossene Testdokument wird im Anschluss an diesen Arbeitsvorgang publiziert, d. h. durch den Fachreferenten als fertig bearbeiteter Titel angesehen. Gleichzeitig dient dieses Testdokument wiederum als Verbreiterung der Lernbasis innerhalb des Trainingssets. Damit wird erreicht, dass nicht nur die Oberbegriffe innerhalb einer vorgegebenen Thesaurusstruktur ausreichend trainiert werden, sondern auch die entsprechenden Unterbegriffe. Neben dem Taxonomie-Browser und dem Annotationstool steht das Administrationstool zur Verwaltung der eingespielten und wieder auszuwerfenden Daten zur Verfügung. Während die eingesetzte Indexierungssoftware MindServer auf der Basis von PLSA bei der Kategorisierung von Dokumenten grundsätzlich ohne manuellen Input, d. h. irgendeine Form von vorgegebenen Kategorien, auskommt, weil es auf Basis der vorliegenden Dokumenteninhalte lernt, erfolgt im Rahmen ihres Einsatzes an der ZBW nunmehr eine qualitative, weil semantische Erweiterung des ursprünglich rein statistischen Ansatzes. Die Ergebnisse der statistischen Textanalyse werden anschließend mit entsprechenden Thesaurusbegriffen abgebildet. Dadurch erfolgt eine Zuordnung in einen domänenspezifischen Konzeptraum, in diesem Falle die Volks- und Betriebswirtschaftslehre. Durch diese Verbindung erfährt das ursprünglich rein statistische Verfahren eine Erweiterung hin zu einem begriffsorientierten Verfahren. Diese Art automatischer Sacherschließung ermöglicht eine 'sprachunabhängige, auf Bedeutung abhebende Analyse', weil sie inhalts- und nicht stichwortbezogen funktioniert. Aus diesen Gründen kann das Verfahren, das dieser Arbeit zugrunde liegt, gleichfalls in den Bereich der Additionsverfahren subsumiert werden, denn es erfolgt keine reine Wortextraktion aus einem Text, sondern diese Extraktion wird mit einem informatorischen Mehrwert versehen. Gerade in Bezug auf die Informationsstrukturierung im Semantic-Web-Kontext, die vor allem auf die Bedeutungsebene von Informationen und dessen Kontextualisierungsfunktion bei der Wissensgenerierung abzielt, wird sich im weiteren Verlauf dieser Arbeit zeigen, ob das anzuwendende und zu evaluierende Verfahren geeignet ist, dies zu gewährleisten. Grundsätzlich kommen begriffsorientierte Ansätze dem Verhalten eines menschlichen Indexierers näher als statistische oder informationslinguistische Verfahren. Die Imitation eines manuellen Arbeitsprozesses wird aber auch mit diesem Verfahren nicht vollständig gelingen, denn es wird zunächst mit statistischen Methoden und damit 'letztlich wiederum über die Sprachoberfläche auf Bedeutungen geschlossen'. Trotzdem kann über die Messung der Indexierungskonsistenz dieser Abbildungsvorgang, bei dem Inhalte über zugewiesene Deskriptoren beschrieben werden, gemessen und entsprechend bewertet werden.

Erscheint lt. Verlag	1.7.2011
Zusatzinfo	24 Abb.
Sprache	deutsch
Themenwelt	Informatik ► Office Programme ► Outlook
Schlagworte	Automatische Indexierung • Deutschland • Indexierungskonsistenz • Indexierungsqualität • Informationsstrukturierung • Schlagwort • Wissenschaftliche Bibliothek
ISBN-10	3-8428-1614-6 / 3842816146
ISBN-13	978-3-8428-1614-5 / 9783842816145

Haben Sie eine Frage zum Produkt?

PDF (Ohne DRM)
Größe: 884 KB

Digital Rights Management: ohne DRM
Dieses eBook enthält kein DRM oder Kopierschutz. Eine Weitergabe an Dritte ist jedoch rechtlich nicht zulässig, weil Sie beim Kauf nur die Rechte an der persönlichen Nutzung erwerben.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

EPUB (Ohne DRM)
Größe: 7,7 MB

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Andere eBook-Ausgabe

PDF (Ohne DRM)
EPUB (Ohne DRM)