Mehrfach annotierte Textkorpora

Strukturierte Speicherung und Abfrage

(Autor)

Buch | Softcover
315 Seiten
2019 | 1. Auflage
Narr Francke Attempto (Verlag)
978-3-8233-8286-7 (ISBN)

Lese- und Medienproben

Mehrfach annotierte Textkorpora - Roman Schneider
98,00 inkl. MwSt
Textdatenbanken bilden heutzutage die empirische Basis für mathematisch präzise Generalisierungen über Phänomene natürlicher Sprache. Das vorliegende Buch greift die damit verbundenen technischen Probleme auf und stellt einen datenbankbasierten Ansatz für mehrfach annotierte Korpora vor. Ausgehend von einer Charakterisierung der Anforderungsmerkmale linguistisch motivierter Recherchen werden Speicherungs- und Abfragestrategien entwickelt und anhand eines linguistischen Anforderungskatalogs evaluiert. Ein Schwerpunkt liegt dabei in der Einführung problemorientierter Segmentierung und Parallelisierung.
Digitale Korpora haben die Voraussetzungen, unter denen sich Wissenschaftler mit der Erforschung von Sprachphänomenen beschäftigen, fundamental verändert. Umfangreiche Sammlungen geschriebener und gesprochener Sprache bilden mittlerweile die empirische Basis für mathematisch präzise Generalisierungen über zu beschreibende Wirklichkeitsausschnitte. Das Datenmaterial ist hochkomplex und besteht neben den Rohtexten aus diversen linguistischen Annotationsebenen sowie außersprachlichen Metadaten. Als unmittelbare Folge stellt sich die Konzeption adäquater Recherchelösungen als beträchtliche Herausforderung dar. Im vorliegenden Buch wird deshalb ein datenbankbasierter Ansatz vorgestellt, der sich der Problematiken multidimensionaler Korpusrecherchen annimmt. Ausgehend von einer Charakterisierung der Anforderungsmerkmale linguistisch motivierter Suchen werden Speicherungs- und Abfragestrategien für mehrfach annotierte Korpora entwickelt und anhand eines linguistischen Anforderungskatalogs evaluiert. Ein Schwerpunkt liegt dabei in der Einführung problemorientierter Segmentierung und Parallelisierung.

PD Dr. Roman Schneider leitet den Programmbereichs "Sprachtechnologie und Informationssysteme" am Institut für Deutsche Sprache (IDS) in Mannheim. Daneben engagiert er sich kontinuierlich in der akademischen Lehre, u.A. an den Universitäten Gießen, Leipzig, Mannheim, Trier und Augsburg.

1 Einführung und Motivation

2 Linguistische Anforderungen an Sprachkorpora
2.1 Natürlichsprachliche Korpora in der Sprachwissenschaft
2.2 Deutschsprachige Korpora im internationalen Kontext
2.3 Recherche in ausgewählten Korpussammlungen
2.4 Multidimensionale Suchkriterien
2.5 Anforderungskatalog für linguistisch motivierte Korpusabfragen

3 Design und Implementierung eines Korpusabfragesystems
3.1 Spektrum der Speicherungsmodelle
3.2 Ein Referenzsystem für die relationale Korpusspeicherung
3.3 Evaluierung einzelner Designentscheidungen

4 Evaluation des Anforderungskatalogs
4.1 Abfrage 1: Einfaches Suchmuster
4.2 Abfrage 2: Suffixsuche mit Platzhalterzeichen
4.3 Abfrage 3: Komplexes Relativsatz-Muster
4.4 Abfrage 4: ACI-Konstruktionen
4.5 Abfrage 5: W-Fragen ohne Verb
4.6 Abfrage 6: Movierung in virtuellen Subkorpora
4.7 Abfrage 7: Genitivobjekte
4.8 Abfrage 8: Partizipialphrase vor niederfrequentem Nomen
4.9 Abfrage 9: Regulärer Ausdruck mit Rechts-Trunkierung
4.10 Abfrage 10: Regulärer Ausdruck mit Links-Trunkierung
4.11 Einflussfaktoren auf die Abfrage-Laufzeiten

5 Versuch einer Laufzeitoptimierung durch segmentierte Abfragen
5.1 Parallelisierung als Chance für das Korpusretrieval
5.2 Problemorientierte Algorithmisierung
5.3 Evaluation des alternativen Suchalgorithmus

6 Integration in ein Online-Framework
6.1 Suchformulare
6.2 Speicherung von Beleglisten
6.3 Schnittstellen zu Statistikwerkzeugen
6.4 Übersichtslisten

7 Zusammenfassung und Fazit

Literaturverzeichnis

Erscheinungsdatum
Reihe/Serie Korpuslinguistik und Interdisziplinäre Perspektiven auf Sprache - Corpus linguistics and Interdisciplinary perspectives on Language (CLIP) ; 8
Sprache deutsch
Maße 150 x 220 mm
Gewicht 492 g
Themenwelt Geisteswissenschaften Sprach- / Literaturwissenschaft Germanistik
Geisteswissenschaften Sprach- / Literaturwissenschaft Sprachwissenschaft
Schlagworte Annotationen • Korpusrecherche • Retrieval • Sprachkorpora • Textdatenbanken
ISBN-10 3-8233-8286-1 / 3823382861
ISBN-13 978-3-8233-8286-7 / 9783823382867
Zustand Neuware
Haben Sie eine Frage zum Produkt?
Mehr entdecken
aus dem Bereich
Faszination und Feindschaft

von W. Daniel Wilson

Buch | Hardcover (2024)
C.H.Beck (Verlag)
29,90
und der systematischen schulischen Leseförderung

von Cornelia Rosebrock; Daniel Nix

Buch | Softcover (2024)
WBV Media (Verlag)
15,80