Speech Application SDK mit ASP.NET (eBook)
XIV, 361 Seiten
Springer Berlin (Verlag)
978-3-540-28086-6 (ISBN)
Das Speech Application SDK ermöglicht den Aufbau von sprachgestützten Web-Applikationen innerhalb des .NET-Frameworks.
Im vorliegenden Buch wird die Implementierung entsprechender Programme anhand fundierter und praxisnaher Code-Beispiele dargestellt. Als Werkzeuge werden das .NET Framework 1.1 und das aktuelle SASDK 1.0 zum Einsatz kommen, wobei die einzelnen Komponenten des Visual Studio 2003 ebenso beschrieben werden wie auch SML (Semantic Markup Language) und SALT (Speech Application Language Tags) sowie JScript/JScript.NET und C#. Hierbei soll das Verständnis dieser Technologien für den Aufbau und Einsatz von sprachgestützten, Web-basierten Applikationen im Vordergrund stehen.
Ferner werden Tipps und Tricks aufgezeigt, die bei der Implementierung unter ASP.NET zu beachten sind. Der Leser sollte nach der Lektüre des Buches in der Lage sein, selbständig sprachgesteuerte Web-Applikationen entwickeln zu können.
Studium der Betriebswirtschaft an der FH Mainz, Fachbereich Wirtschaftsinformatik,
Abteilung Wirtschaftswissenschaften. Abschluß: Diplom-Betriebswirt (FH)
Seit 1983 im IT-Umfeld tätig Sun Certified Java Programmer
Mehrjährige Tätigkeiten in deutschen und amerikanischen Unternehmen als Softwareentwickler, Projektleiter und Trainer, u.a. in den Bereichen Multimedia, Finanzsoftware, Content Management Programmierfokus: Java, C++, C#
Derzeit freiberuflicher Technologieberater, Trainer und Softwareentwickler mit dem Schwerpunkt .NET Fokussierung auf die Bereiche Mobility und Speech Sprecher auf Konferenzen
Veröffentlichung von Artikeln in einschlägigen Fachzeitschriften Co-Initiator und Co-Betreiber der .NET Usergroup Hamburg (INETA member)
Studium der Betriebswirtschaft an der FH Mainz, Fachbereich Wirtschaftsinformatik, Abteilung Wirtschaftswissenschaften. Abschluß: Diplom-Betriebswirt (FH) Seit 1983 im IT-Umfeld tätig Sun Certified Java Programmer Mehrjährige Tätigkeiten in deutschen und amerikanischen Unternehmen als Softwareentwickler, Projektleiter und Trainer, u.a. in den Bereichen Multimedia, Finanzsoftware, Content Management Programmierfokus: Java, C++, C# Derzeit freiberuflicher Technologieberater, Trainer und Softwareentwickler mit dem Schwerpunkt .NET Fokussierung auf die Bereiche Mobility und Speech Sprecher auf Konferenzen Veröffentlichung von Artikeln in einschlägigen Fachzeitschriften Co-Initiator und Co-Betreiber der .NET Usergroup Hamburg (INETA member)
Widmung 6
Vorwort 8
Inhaltsverzeichnis 10
1 Spracherkennung und Sprachsteuerung 18
1.1 Entwicklung der Spracherkennungssysteme 19
1.2 Desktopbasierte Sprachsteuerung 20
1.3 Webbasierte Sprachsteuerung 21
1.4 Erweiterungen von Webseiten durch SALT 21
1.5 Vergleichende Betrachtung von SALT und VoiceXML 23
Teil 1 Das Speech Application SDK ( SASDK) 26
2 Entwicklungshistorie 28
2.1 Von COM zu .NET 28
2.2 Die Entwicklung des SASDK 30
2.3 Microsoft Speech Server (SES, TAS und TIM) 35
3 Überblick über die Einsatzmöglichkeiten 38
3.1 Multimodale Applikationen 38
3.2 Voice-only Applikationen 40
3.3 DTMF-Applikationen 45
4 Installation und Anpassung 48
4.1 Hardware- und Softwarevoraussetzungen 48
4.2 Installation von EIF und SASDK 50
5 Speech Controls im Visual Studio .NET 60
5.1 Basic Speech Controls 60
5.2 Dialog Speech Controls 73
5.3 Application Speech Controls 95
5.4 Call Management Controls 121
6 Wizards, Editors und andere Tools 136
6.1 Erstellen des Applikationsgerüsts 136
6.2 Integrierte Tools 139
6.3 Externe Tools 158
Teil 2 Programmieren mit dem SASDK 172
7 Sprachverarbeitung und Debugging 174
7.1 Speech Application Language Tags (SALT) 174
7.2 Laufzeitobjekte 182
7.3 Scriptfunktionen 190
7.4 Debugging 195
7.5 Benutzereingaben 197
8 Überprüfen von Eingaben 214
8.1 Integrierte Validierung 214
8.2 Vergleichende Validierung 221
8.3 Benutzerdefinierte Validierung 222
9 Arbeiten mit Grammatiken 226
9.1 Das XML Grammar Format 226
9.2 Grammatikelemente und Zuordnungen 227
9.3 Aufbau einer SML-Grammatikstruktur 235
9.4 Testen und Zuordnen von Grammatiken 241
9.5 SML-Struktur und XPath 244
9.6 Die Speech Grammar Libraries 246
10 Prompts und die Prompt-Datenbank 248
10.1 Synthetische Prompts 249
10.2 Natürlichsprachliche Prompts 251
10.3 Arbeiten mit Prompt-Funktionen 274
10.4 Prompt-Optionen in Speech Controls 279
10.5 Verwendung spezieller Prompt Controls 283
Teil 3 Designkriterien und Best Practices 292
11 Multimodale Applikationen 294
11.1 Unterschiede zu Telefonieapplikationen 294
11.2 Typische Umsetzungsvarianten 295
11.3 Zusätzliche Anwendungsoptionen 295
11.4 Anforderungs- und Umsetzungskriterien 296
12 Voice-only Applikationen 300
12.1 Betrachtung unterschiedlicher Systemtypen 300
12.2 Der Projektlebenszyklus 301
12.3 Dialogorganisation und Dialogfluss 306
13 Tuning, Tipps und Tricks 316
13.1 TASim und die Speech Debugging Console 316
13.2 Optimieren der Qualität natürlichsprachlicher Prompts 316
13.3 Kompilieren von Grammatikdateien 317
13.4 Weitere Einsatzmöglichkeiten bei Grammatiken 319
13.5 Verbessern der Erkennungsrate 321
13.6 Normalisierung von Daten 325
13.7 Globale Applikationseinstellungen 328
Anhang A Speech Controls Einstellungen und Parameter 332
14 Timeouts 334
14.1 InitialTimeout 335
14.2 BabbleTimeout 335
14.3 EndSilence 336
14.4 MaxTimeout 336
14.5 FirstInitialTimeout 337
14.6 ShortInitialTimeout 337
14.7 Timer 338
15 Events 340
15.1 Client-side events 340
15.2 Server-side events 351
16 Thresholds 356
16.1 ConfirmThreshold 356
16.2 ConfirmRejectThreshold 357
16.3 RejectThreshold 357
16.4 AcceptRejectThreshold 358
16.5 DenyRejectThreshold 358
16.6 AcceptCommandThreshold 359
Anhang B Webverweise 360
Anhang C Index 364
12 Voice-only Applikationen (S. 285-286)
Voice-only Applikationen sind die „klassische" Umsetzung, wenn es um ausschließlich sprachgestützte Anwendungen geht. Während multimodale Anwendungen derzeit noch nicht so sehr verbreitet sind (aber ein sehr großes Potential bergen), werden Ihnen sicher viele aktuelle Beispiele einfallen, in denen Sie sich schon einmal mithilfe Ihrer Stimme oder per Telefontastatur mit einem Sprachcomputer „unterhalten" haben (oder unterhalten mussten) – entweder bei Buchungen und Reservierungen (Flug/Zug), bei Banktransaktionen oder Serviceanfragen von IT-Dienstleistern. Für den Nutzer dieser Dienste ist es wichtig, komfortabel, sicher und vor allem schnell zum gewünschten Ergebnis zu kommen, da diese Systeme meistens nur unter kostenpflichtigen Servicerufnummern betrieben werden.
12.1 Betrachtung unterschiedlicher Systemtypen
Bei der Entwicklung sprachgestützter Webapplikationen lässt sich keine Aussage über ein pauschales Konzept treffen, sozusagen eine Blaupause, die immer und überall einsetzbar ist. Dazu gibt es zu viele unterschiedliche Einflussfaktoren und entsprechend zahlreiche Varianten für eine Umsetzung. Ein Parameter muss jedoch als Grundlage für die zu entwickelnde Anwendung feststehen: Der Systemtyp, dessen Festlegung maßgeblich Einfluss auf die weitere Gestaltung hat. Nachfolgend werden die wesentlichen Systemtypen des Oberbegriffs „Voice-only Applikation" betrachtet.
Dual tone multi frequency (DTMF)
Anwender, die in Kontakt mit einem DTMF-Interface treten, haben in der Regel nur über das Tastentelefon (bzw. dessen Töne) die Möglichkeit, innerhalb der Anwendung zu navigieren. Geführt werden Sie durch Sprachausgaben mit einer natürlich oder – immer seltener – synthetisch klingenden Stimme.
Interactive voice response (IVR)
Diese Systeme werden meistens mit DTMF-Anwendungen gleichgesetzt, auch sie reagieren auf Tastentöne und erlauben manchmal zusätzlich die Eingabe von Sprachbefehlen. Ein IVR ist normalerweise die Vorstufe zu einem Callcenter, um einerseits vor der Weiterleitung an einen Agenten (Sachbearbeiter) gezielte Informationen zu kanalisieren und andererseits die Mitarbeiter sowie die Vermittlung zu entlasten.
Natural language (NL)
Natürlichsprachliche Dialogsysteme (Konversationssysteme) sind die bislang am weitesten entwickelte Form der Mensch-Maschine-Kommunikation auf sprachlicher Basis. Der größte Vorteil ist der – wie der Name bereits ausdrückt – natürliche Austausch von Informationen, genauer gesagt, die Art und Weise, wie Mensch und Maschine miteinander umgehen. Durch entsprechend umfangreiche Grammatikbibliotheken sind die NLSysteme (oder auch NDS) in der Lage, aus längeren Sätzen die relevanten Kerninformationen herauszufiltern und zu verarbeiten. Im Gegenzug wird der Anwender nicht mit stakkatoartigen Befehlen oder Ansagen konfrontiert, sondern ebenfalls mit umgangssprachlichen Sätzen. Die Aufzeichnungen sind oft sehr hochwertig und von professionellen Sprechern vorbereitet, was diese Systeme zusätzlich aufwertet.
Multimodal open microphone
Die Zukunft wird sicherlich in der Nutzung multimodaler Anwendungen unter Einsatz völlig freier, umgangssprachlicher Sätze bestehen, und zwar zu jeder Zeit an jedem Ort mit jedem sprach- und webtauglichen (mobilen) Gerät. Bislang scheitet die Umsetzung sowohl an den Bandbreiten als auch an den zur Verfügung stehenden Geräten, außerdem sind viele technische Voraussetzungen noch unklar, unter anderem Sicherheitsaspekte (security options), Personalisierung, Transaktionsverwaltung (transaction handling) oder auch Sitzungsmanagement (session management). Doch durch die rapide Entwicklung in diesen Segmenten – zum Beispiel im Bereich Voice over IP (VoIP) oder drahtlosen Netzen (WLANs) – und der zunehmenden Miniaturisierung wird es diese Systeme wohl in absehbarerer Zukunft zu erschwinglichen Preisen und in tragbaren Kleidungsstücken eingenäht geben, vielleicht die Killerapplikation der nächsten Jahre?
Erscheint lt. Verlag | 4.10.2005 |
---|---|
Reihe/Serie | Xpert.press | Xpert.press |
Zusatzinfo | XIV, 361 S. |
Verlagsort | Berlin |
Sprache | deutsch |
Themenwelt | Mathematik / Informatik ► Informatik ► Programmiersprachen / -werkzeuge |
Mathematik / Informatik ► Informatik ► Software Entwicklung | |
Mathematik / Informatik ► Informatik ► Web / Internet | |
Schlagworte | ASP.NET • C# • Debugging • Framework • Interaktion • Java • JavaScript • .NET • SALT • SASDK • SML • XML |
ISBN-10 | 3-540-28086-3 / 3540280863 |
ISBN-13 | 978-3-540-28086-6 / 9783540280866 |
Haben Sie eine Frage zum Produkt? |
Größe: 4,9 MB
DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.
Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.
Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich