Sprachverarbeitung und Sprachübertragung - Klaus Fellbaum

Blick ins Buch

Sprachverarbeitung und Sprachübertragung (eBook)

Klaus Fellbaum (Autor)

eBook Download: PDF

2013 | 2. Aufl. 2012
XV, 398 Seiten
Springer Berlin (Verlag)
978-3-642-31503-9 (ISBN)

Lese- und Medienproben

Ebook-Leseprobe (PDF)

In dem Standardwerk der Informationsverarbeitung werden nicht nur die elektroakustischen und nachrichtentechnischen Grundlagen dargestellt, auch die Sprache als menschliche Kommunikationsform wird aus linguistischer und physiologischer Perspektive beschrieben. Berücksichtigt wird dabei neben der Theorie stets die Anwendung - auf dem neuesten Stand der Technik. Die 2. Auflage bietet neue Abschnitte zu den Grundzügen der Signalanalyse und zu Sprachdialogsystemen. Audiobeispiele und multimediale Vortragselemente zum Download auf extras.springer.com.

Prof. Dr.-Ing. Klaus Fellbaum, Jahrgang 1942, studierte Elektrotechnik (Nachrichtentechnik) an den Technischen Universitäten Hannover und Berlin. Von 1971 bis 1975 war er wissenschaftlicher Mitarbeiter am Forschungsinstitut der AEG-Telefunken in Ulm und auf dem Gebiet der elektronischen Sprachsignalverarbeitung tätig. 1975 promovierte er über Sprachcodierverfahren. Daran anschließend war er Oberingenieur am Lehrstuhl für Nachrichtentechnik der Universität Dortmund und wurde 1977 als Professor an die TU Berlin, Fachgebiet Digitale Übertragungstechnik berufen. Von 1994 bis 2007 war er Lehrstuhlinhaber für Kommunikationstechnik an der BTU Cottbus.

Vorwort zur 2. Auflage 6
Vorwort zur 1. Auflage 7
Inhaltsverzeichnis 9
Kapitel-1 14
Grundzüge der Linguistik 14
1.1 Zum Sprachbegriff 14
1.2 Sprache als Zeichensystem semiotische Aspekte 20
1.3 Sprache als Kommunikationsform 23
1.4 Informationstheoretische Aspekte 25
Literatur 30
Kapitel-2 31
Grundzüge der Schallausbreitung und Elektroakustik 31
2.1 Schallfeld, Schallausbreitung 31
2.1.1 Schallfeldgrößen, Ausbreitungsformen 31
2.1.2 Grundgleichungen der Schallausbreitung 33
2.1.3 Wellengleichung 36
2.1.4 Ebene Schallabstrahlung 37
2.1.4.1 Lösung der Wellengleichung für den ebenen Fall 37
2.1.4.2 Größen zur Kennzeichnung des ebenen Schallfeldes 39
2.1.4.3 Pegeldefinitionen 41
2.1.4.4 Pegelrechnung 41
2.1.5 Ebene Wellenausbreitung in Röhren 43
2.1.6 Kugelförmige Schallausbreitung 47
2.1.6.1 Lösung der Wellengleichung 47
2.1.6.2 Wichtige Kenngrößen für die kugelförmige Schallausbreitung 48
2.1.6.3 Kugelförmige Schallabstrahlung in Abhängigkeit von der Frequenz 50
2.1.6.4 Kugelförmige Schallabstrahlung in Abhängigkeit von der Entfernung 53
2.1.6.5 Schallfluss einer Kugelwelle 53
2.1.6.6 Gebündelte Schallabstrahlung 54
2.1.7 Webstersche Gleichung 55
2.2 Elektroakustische Wandler 60
2.2.1 Einteilungsprinzipien, Definitionen 60
2.2.2 Elektrodynamische Wandler 61
2.2.3 Elektrostatische Wandler 63
2.2.4 Elektret-Mikrofone 66
2.2.5 Weitere Mikrofontypen 67
2.2.5.1 Piezoelektrische Mikrofone 67
Literatur 68
Kapitel-3 69
Grundzüge der Phonetik und Darstellungsmöglichkeiten von Sprachsignalen 69
3.1 Entwicklungsgeschichtliches zur Funktion des Sprechens und Hörens 69
3.2 Sprachproduktion 70
3.2.1 Atmung 70
3.2.2 Stimmproduktion (Phonation) 71
3.2.3 Artikulation 74
3.3 Lautklassifikation 74
3.3.1 Konsonanten 74
3.3.2 Vokale (Selbstlaute) 76
3.4 Zur Klassifikation von Einzellauten 78
3.5 Lautschriftsysteme 80
3.6 Weitere phonologische Begriffe 81
3.7 Modelle für die Spracherzeugung 83
3.8 Darstellungsmöglichkeiten von Sprachsignalen 89
3.8.1 Zeitfenster 89
3.8.2 Darstellung im Zeitbereich 91
3.8.3 Darstellung im Frequenzbereich 93
3.9 Signaleigenschaften von Einzellauten 97
3.9.1 Konsonanten 98
3.9.2 Vokale 101
3.10 Koartikulationseffekte 106
3.11 Langzeitmessung von Sprache 106
Literatur 109
Kapitel-4 111
Hörphysiologie und Psychoakustik 111
4.1 Hörphysiologie 111
4.1.1 Überblick 111
4.1.2 Außenohr 112
4.1.3 Mittelohr 113
4.1.4 Innenohr 114
4.1.5 Zum Hörvorgang Hörhypothesen 117
4.2 Grundzüge der Psychoakustik 119
4.2.1 Hörfläche, Lautstärke, Lautheit 119
4.2.2 Frequenzgruppen 124
4.2.3 Pegelzuwachs bei mehreren Schallereignissen 127
4.2.4 Mithörschwelle, Verdeckungseffekt 130
4.2.5 Lautstärkebestimmung bei breitbandigen Schallereignissen Zwicker-Diagramm 132
4.2.6 Tonhöhenwahrnehmung 133
4.2.6.1 Gerade wahrnehmbare Frequenzänderungen (JNVF) 135
4.2.6.2 Verhältnistonhöhe 135
Literatur 137
Kapitel-5 139
Sprachqualitätsmessungen 139
5.1 Zum Begriff der Sprachqualität 139
5.2 Dimensionen der Sprachqualität 140
5.3 Formen der Sprachqualitätsmessung und Anwendungen 142
5.3.1 Sprachqualitätsmessungen im Überblick 142
5.3.2 Skalierungs- und Antwortformen bei Sprachqualitätsmessungen 144
5.3.2.1 Arten von Skalen 144
5.3.2.2 Antwortformen 145
5.3.3 Anwendungen von Sprachqualitätsmessungen 145
5.4 Auditive Verfahren zur Beurteilung der Sprachqualität 146
5.4.1 Überblick 146
5.4.2 Randbedingungen bei auditiven Messungen 146
5.4.3 Globale Qualitätsbewertung 151
5.4.3.1 Absoluter Qualitätsbewertungstest (Absolute Category Rating Test, ACR-Test) 152
5.4.3.2 Paarvergleichstests 155
5.4.4 Diagnostische Qualitätsbewertung 158
5.4.4.1 Verständlichkeitstests 158
5.4.4.2 Verständlichkeitstests für Wörter 166
5.4.4.3 Verständlichkeitstests für Sätze 166
5.4.4.4 Prosodietest 168
5.4.5 Weitere Verfahren von auditiven Tests 168
5.5 Instrumentelle Verfahren zur Beurteilung der Sprachqualität 169
5.5.1 Nutzen und Einteilungsprinzipien 169
5.5.2 Einseitig gerichtete Sprachkommunikation (Hörsituation) 171
5.5.2.1 Verfahren mit Referenzsignal 172
5.5.2.2 Verfahren ohne Referenzsignal 179
5.5.3 Planung und Qualitätsbeurteilung von Fernsprechnetzen das E-Modell 180
5.5.4 Zusammenstellung der wichtigsten ITU-T-Standards für auditive und instrumentelle Sprachqualitätsmessungen 181
Literatur 183
Kapitel-6 185
Sprachcodierverfahren 185
6.1 Einleitung 185
6.2 Analoge und digitale Darstellung von Signalen 186
6.3 Einteilung der Sprachcodierverfahren 187
6.4 Signalformcodierung 188
6.4.1 Pulscodemodulation (PCM) 188
6.4.2 Differenz-Puls-Code-Modulation (DPCM) 201
6.4.2.1 Zum Prinzip der Linearen Prädiktion 201
6.4.2.2 Zur Problematik der Fehlerrückkopplung 210
6.4.3 Adaptive Differenz-Pulscodemodulation (ADPCM) 211
6.4.3.1 Kovarianz-Methode 212
6.4.3.2 Autokorrelationsmethode 214
6.4.4 Lineare Prädiktion und inverse Filterung 219
6.5 Parametrische Verfahren 226
6.5.1 Grundprinzip 226
6.5.2 Kanalvocoder 227
6.5.3 Linearer Prädiktionsvocoder (LPC-Vocoder) 228
6.5.4 LPC-Vocoder Realisierung 230
6.5.5 Grundfrequenzanalyse (GFA) 233
6.6 Hybride Codierung 244
6.6.1 Grundprinzip 244
6.6.1.1 Langzeit- und Kurzzeitprädiktion 245
6.6.1.2 Vektorquantisierung 245
6.6.1.3 „Analyse-durch-Synthese“-Prinzip 248
6.6.2 Restsignal-Codierung (RELP Residual Excited Linear Prediction) 249
6.6.3 CELP 249
6.7 Frequenzbereichscodierung 253
6.7.1 Transformationscodierung 253
6.7.2 Teilbandcodierung (Subband Coding) 254
6.7.3 MPEG-basierteAudiocodierung 255
6.8 Internationale Standards und Ausblick 258
Literatur 261
Kapitel 7 262
Merkmalextraktion und Klassifikation 262
7.1 Vorbetrachtung 262
7.2 Merkmalextraktion 263
7.2.1 Linear Predictive Cepstral Coding (LPCC) 264
7.2.2 Mel-Frequency Cepstral Coefficients (MFCCs) 264
7.2.3 Perceptual Linear Predictive (PLP)-Analyse 269
7.2.4 RASTA-Perceptual Linear Predictive (RASTA-PLP)-Verfahren 269
7.3 Klassifikation 270
7.4 Entscheidungstheoretische Klassifikation 271
7.4.1 Prinzip der Bayes-Klassifikation 271
7.4.2 Statistische Klassifikatoren mit bekannten Wahrscheinlichkeitsverteilungen 279
7.5 Lineare Klassifikatoren 281
7.6 Abstandsklassifikatoren 282
7.7 Hidden-Markov-Modelle 284
7.7.1 Vorbetrachtung: Markov-Modelle 284
7.7.2 Hidden-Markov-Modelle 286
7.8 Künstliche Neuronale Netze 293
7.8.1 Einführung 293
7.8.2 Struktur künstlicher neuronaler Netze 294
7.8.3 Beispiel für eine neuronale Anwendung: ADALINE 296
7.8.4 Perzeptron 300
7.8.5 Netzstrukturen 301
7.8.6 Multilayer Perzeptron (MLP) 302
Forward Pass 304
Fehlerberechnung 304
Backward Pass 304
Ausgangsschicht 305
Interne Schicht 305
7.9 DTW-Klassifikator 306
7.9.1 Dynamische Zeitnormalisierung 306
Literatur 311
Kapitel-8 313
Spracheingabe 313
8.1 Vorbetrachtung 313
8.2 Spracherkennung 314
8.2.1 Spracherkennung beim Menschen 314
8.2.2 Überblick 316
8.2.3 Einteilung der Verfahren 316
8.2.4 Erkennung als mathematische Optimierungsaufgabe 319
8.2.5 Einzelwort-Erkennung 321
8.2.5.1 Prinzipielle Vorgehensweise 321
8.2.5.2 Spracherkennung mit Hidden-Markov-Modellen 323
8.2.5.3 Einzelwort-Erkennung mit neuronalen Netzen 324
8.2.5.4 Akustisch-phonetische Erkennung 325
8.2.6 Beurteilung der Erkennungsleistung 326
8.2.7 Schlüsselwort-Erkennung („Word Spotting“) 328
8.2.8 Erkennung fortlaufender Sprache 330
8.3 Sprechererkennung 334
8.3.1 Übersicht 334
8.3.2 Sprecherverifizierung 335
8.3.3 Verifizierung auf der Basis von akustisch-phonetischen Merkmalen 342
8.3.4 Heutiger Stand der Sprecherverifizierung 346
8.3.5 Sprecheridentifizierung 346
8.4 Sprachenerkennung 348
Literatur 349
Kapitel-9 352
Sprachausgabe 352
9.1 Einteilungsprinzipien 352
9.2 Sprachwiedergabe 353
9.2.1 Prinzipielle Verfahren 353
9.2.2 Anwendungsbeispiele für die Sprachwiedergabe 355
9.3 Sprachsynthese 356
9.3.1 Übersicht 356
9.3.2 Linguistisch-phonetische Transkription 357
9.3.3 Phonetisch-akustische Transkription 362
9.3.4 Verkettung der Lautelemente (Konkatenation) 365
9.3.4.1 PSOLA-Verfahren 366
9.3.4.2 Parametrische Konkatenation in Verbindung mit dem LPC-Verfahren 367
9.3.4.3 Formant-Synthese 368
9.3.4.4 Korpus-basierte Synthese (Non-uniform unit selection) 371
9.3.5 Aktuelle Entwicklungen in der Sprachsynthese 371
Literatur 375
Kapitel-10 378
Sprachdialogsysteme 378
10.1 Einleitende Betrachtungen zur Kommunikation 378
10.2 Eigenschaften des Mensch-Mensch-Dialogs 379
10.3 Mensch-Maschine-Dialog 381
10.3.1 Vorbemerkung 381
10.3.2 Dialogformen 381
10.3.3 Dialogphasen 382
10.3.4 Beispiel für eine Dialoggestaltung 383
10.3.5 Anforderungen an Dialogsysteme 384
10.4 Klassifikation und Funktion von Dialogsystemen 386
10.4.1 Klassifikation 386
10.4.2 Allgemeines Schema eines sprachbasierten Dialogsystems 387
10.4.3 Beispiel für ein Sprachdialogsystem: VERBMOBIL 389
10.5 Multimediale Dialogsysteme 390
10.5.1 Begriffsdefinitionen 390
10.5.2 Beispiel für ein multimediales Dialogsystem 391
10.5.3 Anwendungsbeispiele 393
10.6 Experimentierfeld ‚Wizard of Oz‘ 395
Literatur 397
Sachverzeichnis 399

Erscheint lt. Verlag	11.2.2013
Zusatzinfo	XV, 398 S. 264 Abb., 10 Abb. in Farbe.
Verlagsort	Berlin
Sprache	deutsch
Themenwelt	Mathematik / Informatik ► Informatik ► Web / Internet
Themenwelt	Technik ► Elektrotechnik / Energietechnik
Schlagworte	Psychakustik • Signalanalyse • Sprachdialogsysteme • Sprachkodierung • Sprachqualität
ISBN-10	3-642-31503-8 / 3642315038
ISBN-13	978-3-642-31503-9 / 9783642315039

Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?

PDF (Wasserzeichen)
Größe: 19,1 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Print-Ausgabe

Buch | Hardcover

84,99 €