Blick ins Buch

Korpora in der germanistischen Sprachwissenschaft (eBook)

Mündlich, schriftlich, multimedial

Arnulf Deppermann, Christian Fandrych, Marc Kupietz, Thomas Schmidt (Herausgeber)

eBook Download: EPUB

2023
262 Seiten
De Gruyter (Verlag)
978-3-11-108589-0 (ISBN)

Lese- und Medienproben

Ebook-Leseprobe (EPUB)

Die in diesem Band versammelten Beiträge zur Jahrestagung 2022 des Instituts für Deutsche Sprache geben einen Überblick zu aktuellen Entwicklungen der Erschließung und Nutzung von Korpora in der germanistischen Linguistik und darüber hinaus. Dabei steht im Vordergrund, wie bekannte und neue Korpora für die Untersuchung verschiedenster linguistischer Fragestellungen, z.B. der Lexikografie, der Gesprächsforschung, des Spracherwerbs oder der historischen Sprachwissenschaft, genutzt werden können. Im Einzelnen geht es um:

Korpusangebote und Korpusdesign
Software für die Arbeit mit Korpora
Korpusaufbereitung
den Zusammenhang von Korpusaufbereitung und Forschungsfragestellungen
ethisch-rechtliche Aspekte der Arbeit mit Korpora
Anwendungs- und Nutzungsmöglichkeiten von Korpora

Diese Fragen werden im Kontext wissenschaftstheoretischer Überlegungen zur Frage des Nutzens von Korpora für die linguistische Erkenntnisbildung behandelt. Es werden dabei sowohl klassische Schrift- und Tonkorpora, als auch Korpora mit Daten aus anderen Medialitäten (Video und Social Media) vorgestellt. Eine weitere Dimension sind Vergleichskorpora mehrerer Sprachen oder Medialitäten (mündlich vs. schriftlich) sowie diachrone (Vergleichs-)Korpora und der Blick auf nicht-deutschsprachige Korpusangebote.

Arnulf Deppermann & Marc Kupietz, IDS, Mannheim; Christian Fandrych, Universität Leipzig; Thomas Schmidt, Universität Basel.

Marc Kupietz/Harald Lüngen/Nils Diewald (Mannheim)

Das Gesamtkonzept des Deutschen Referenzkorpus DEREKO

Vom Design bis zur Verwendung und darüber hinaus

Abstract: Das Deutsche Referenzkorpus DEREKO dient als eine empirische Grundlage für die germanistische Linguistik. In diesem Beitrag geben wir einen Überblick über Grundlagen und Neuigkeiten zu DEREKO und seine Verwendungsmöglichkeiten sowie einen Einblick in seine strategische Gesamtkonzeption, die zum Ziel hat, DEREKO trotz begrenzter Ressourcen für einerseits möglichst viele und andererseits auch für innovative und anspruchsvolle Anwendungen nutzbar zu machen. Insbesondere erläutern wir dabei Strategien zur Aufbereitung sehr großer Korpora mit notwendigerweise heuristischen Verfahren und Herausforderungen, die sich auf dem Weg zur linguistischen Erschließung solcher Korpora stellen.

1 Einleitung

Dieser Beitrag gibt einen Überblick über die Gesamtkonzeption des Deutschen Referenzkorpus DEREKO – von seinen Designprinzipien, über Ausbau- und Aufbereitungsstrategien, bis hin zur Erweiterung seiner linguistischen Nutzungsmöglichkeiten. Besonderes Augenmerk gilt dabei aktuellen Herausforderungen und der Vorstellung unserer Lösungsansätze, die jeweils durch eine enge Integration allgemein methodischer, linguistischer, informatischer und infrastruktureller Aspekte charakterisiert sind.

Im folgenden Abschnitt 2 werden kurz DEREKO’s Aufgaben und Ziele, Designprinzipien und Erweiterungsstrategien zusammengefasst. Abschnitt 3 berichtet über die aktuelle Vorgehensweise bei der Akquisition und Aufbereitung von Texten und will außerdem auf einen in der Literatur bisher wenig explizit diskutierten Umstand aufmerksam machen: Die Forschungsdatenaufbereitung für sehr große Korpora wie DEREKO erfordert im großen Maßstab den Einsatz heuristischer Verfahren, was u. a. auch erhebliche Konsequenzen für die Methodik der Korpusnutzung hat. Dazu werden einige Beispiele dargestellt und die im Kontext von DEREKO angewendeten Lösungsstrategien skizziert. Abschnitt 4 berichtet über die jüngsten Ergebnisse der zuvor dargestellten Ansätze: aktuelle DEREKO-Erweiterungen und Verbesserungen in der Abdeckung in den Bereichen Internetbasierte Kommunikation und Fachsprache. Im Abschnitt 5 geht es um die sich anschließende Herausforderung, wie trotz rechtlicher, methodischer, technischer und ökonomischer Grenzen sehr große Korpora wie DEREKO, für einerseits möglichst viele, andererseits aber auch für innovative und anspruchsvolle linguistische Anwendungen möglichst niedrigschwellig nutzbar gemacht werden können. Wir stellen dazu eine aktualisierte und verfeinerte Fassung unseres „put the computation near the data“-Ansatzes (Gray 2003; Kupietz et al. 2010) vor und gehen auf konkrete Verbesserung der Möglichkeiten programmatischer Nutzung ein, insbesondere für kontrastive und vergleichende Forschung.

2 DEREKO-Grundlagen

2.1 Aufgaben und Ziele

Das Deutsche Referenzkorpus DEREKO wird am Leibniz-Institut für Deutsche Sprache bereits seit dessen Gründung 1964 aufgebaut. Aufgabe und Ziel von DEREKO ist es, eine allgemeine Forschungsdatengrundlage für das IDS und für die synchron arbeitende germanistische Linguistik insgesamt dauerhaft zu sichern und dabei möglichst breit einsetzbar zu sein, z. B. für Forschung in den Bereichen Lexikographie, Grammatik und Orthographie über DaF, Forensische Linguistik, Diskurslinguistik bis zu Sprachkritik: Linguist/-innen und, sofern möglich, auch Forschende aus angrenzenden Disziplinen sollen durch DEREKO in die Lage versetzt werden, sich für eine große Bandbreite an Fragestellungen und Sprachdomänen geeignet stratifizierte Sub-Korpora zu definieren, mithilfe derer sie bestehende Hypothesen zuverlässig testen und interessante neue Hypothesen gewinnen können. Zu diesem Zweck wird DEREKO laufend stichprobenartig um ein möglichst breit gefächertes Spektrum des aktuellen deutschen Schriftsprachgebrauchs erweitert und mehrfach morphosyntaktisch und syntaktisch annotiert. Zuständig für DEREKO ist seit 2004 das IDS-Dauerprojekt Ausbau und Pflege der Korpora geschriebener Gegenwartssprache.

2.2 Urstichproben-Design: Stratifizierte nutzerdefinierte Korpora

Seit der Einführung von COSMAS I (al Wadi 1994) ist DEREKO einem Urstichproben-Design (Kupietz et al. 2010) verpflichtet, d. h. DEREKO gilt als eine Urstichprobe (engl. primordial sample) der deutschen Schriftsprache. DEREKO zielt somit in der Akquisitionsphase nicht auf eine formale Ausgewogenheit, wie es vielleicht von anderen Referenzkorpora bekannt ist, die nach einem bestimmten Schlüssel feste Anteile an Genres vereinen, wie das wegweisende British National Corpus (BNC Consortium 2007). Vielmehr strebt DEREKO eine möglichst breite Streuung und Besetzung potenziell relevanter Strata wie Zeit, Ort, Genre oder Thema an, um seine Nutzer in die Lage zu versetzen, sich aus DEREKO anhand seiner Metadaten selbst gezielt stratifiziert virtuelle Korpora zusammenzustellen, die bezüglich ihrer konkreten Forschungsfrage und Sprachdomäne eine geeignete und im besten Fall repräsentative Stichprobe darstellen.

2.3 Steuerung des DEREKO-Ausbaus

Bei der Steuerung des Ausbaus von DEREKO werden verschiedene Faktoren berücksichtigt, die wie bei einem Optimierungsproblem koordiniert werden müssen.

1. Die Steigerung der Größe und Diversität sind grundsätzliche Ziele, um den Status von DEREKO als Urstichprobe der schriftlichen Gegenwartssprache fortlaufend zu konsolidieren.

2. Insbesondere ist dabei auch die Kontinuität und Aktualität hervorzuheben, um (zeitnah) Sprachwandelprozesse erfassen zu können.1

3. Zur Gewährleistung der Kontinuität ist die Wahrung des Renommees des IDS als verlässlicher Partner für Text- und Lizenzspender notwendig.

4. Außerdem spielen langfristige Strategien und Prognosen (z. B. über die Ubiquität von Digitalisierung oder die Entwicklung der Presselandschaft) eine Rolle.

5. Besonders bzgl. der Diversitätsverbesserung wird auf die Nachfrage und den Bedarf von IDS-internen und gegebenenfalls externen Forschungsprojekten eingegangen.

6. Die Akquisition ist grundsätzlich abhängig vom tatsächlichen Angebot – es kann nur akquiriert werden, was auf der Seite von Textgebern und Rechteinhabern (wie Zeitungs- und Buchverlagen, Datenbankprovidern, Portalbetreibern) sowie Forschungseinrichtungen oder Einzelpersonen, die selbst Korpora aufbauen, angeboten wird.

7. Die Datenakquisition wird auch priorisiert anhand der anfallenden Kosten für Verhandlungsaufwand und Lizenzgebühren sowie für die anschließende Erschließung (Aufwand an Analyse, Konvertierung und Aufbereitung zur Integration in DEREKO) und Wartung.

DEREKO wird zwei Mal im Jahr aktualisiert und in Form eines sogenannten DEREKO-Releases veröffentlicht, das daraufhin in die Korpusrecherchesysteme COSMAS II (Bodmer 1996; b. a. w.) und KorAP eingepflegt wird.

3 Herausforderungen der Forschungsdatengewinnung

Viele Herausforderungen, die sich bei der Erweiterung von DEREKO ergeben, sind unmittelbar auf seine Größe und sein Wachstum zurückzuführen. Der Stichprobenumfang ist jedoch ein entscheidender Faktor für die Verallgemeinerbarkeit ihrer Eigenschaften und für Gewinnung interessanter linguistischer Erkenntnisse. „More data are better data“ (cet. par.) gilt in der Linguistik mehr noch als in vielen anderen Disziplinen, da lexikalische Häufigkeitsverteilungen eine large number of rare events (LNRE) aufweisen, mit linguistisch interessanten Phänomenen oft weit hinten im sogenannten long tail (vgl. Kupietz/Schmidt 2015, S. 302). Hinzu kommt, dass sprachliche Variation von vielen inner- und außersprachlichen Kontextvariablen abhängt, so dass auch in sehr großen Korpora Beobachtungen zu bestimmten relevanten Kombinationen dieser Variablen rar sein können.

Unabhängig von solchen methodischen Überlegungen leitet sich die Notwendigkeit der kontinuierlichen DEREKO-Erweiterung, speziell um aktuelle Daten, auch aus dem Stiftungszweck des...

Erscheint lt. Verlag	30.1.2023
Reihe/Serie	ISSN
	ISSN
	Jahrbuch des Instituts für Deutsche Sprache
	Jahrbuch des Instituts für Deutsche Sprache
Zusatzinfo	68 b/w ill., 17 b/w tbl.
Sprache	deutsch
Themenwelt	Geisteswissenschaften ► Sprach- / Literaturwissenschaft ► Sprachwissenschaft
Schlagworte	Conversation Research • Corpus Linguistics • Deutsch • German • Germanistik • German Studies • Gesprächsforschung • Korpuslinguistik
ISBN-10	3-11-108589-9 / 3111085899
ISBN-13	978-3-11-108589-0 / 9783111085890

Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?

EPUB (Wasserzeichen)
Größe: 30,4 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Print-Ausgabe

Buch | Hardcover

99,95 €