All About Voice (eBook)
229 Seiten
Haufe Verlag
978-3-648-13465-8 (ISBN)
Tim Kahle ist Mitgründer von 169 Labs in München und Köln, eine der führenden Agenturen für Sprachassistenten in Deutschland. Mit Expertise im UX/UI Design und einigen Jahren Erfahrungen im Bereich 'Conversational Design' ist er für die Konzeption, das Design und die Vermarktung von Voice Anwendungen verantwortlich. Tim ist außerdem einer von 38 Alexa Champions weltweit.
Tim Kahle Tim Kahle ist Mitgründer von 169 Labs in München und Köln, eine der führenden Agenturen für Sprachassistenten in Deutschland. Mit Expertise im UX/UI Design und einigen Jahren Erfahrungen im Bereich "Conversational Design" ist er für die Konzeption, das Design und die Vermarktung von Voice Anwendungen verantwortlich. Tim ist außerdem einer von 38 Alexa Champions weltweit. Dominik Meißner Dominik Meißner ist Co-Gründer von 169 Labs in München, einer der führenden Voice Assistant Agenturen Deutschlands für Amazon Alexa und Google Home. Er arbeitet seit über 15 Jahren an der Digitalisierung der Medienbranche als Gründer oder Berater. Sein Steckenpferd sind neue Geschäftsmodelle, digitale Prozesse und innovative Medienanwendungen.
1 Das Zeitalter der unsichtbaren Benutzeroberfläche
Vor allem seit der Einführung von Amazon Alexa in Deutschland im Frühjahr 2017 müssen wir uns als Unternehmen neuen Herausforderungen im Marketing stellen. Nachdem wir mit der Mobiloptimierung unseres Internetauftritts gekämpft und eine Social-Media-Strategie entwickelt haben, wurde in den vergangenen Jahren vielleicht noch über den Einsatz eines Messenger-Chatbots nachgedacht. Nun stehen wir plötzlich einem weiteren neuen, komplexen Ökosystem gegenüber, das (grundsätzlich) ohne Bildschirm daherkommt und mit dem Nutzer per Sprache interagieren kann. Verfallen wir in Schockstarre oder nehmen wir die neue Herausforderung an? Die letzten technologischen Entwicklungen wie Augmented Reality (AR) und Virtual Reality (VR) haben zunächst für ein ähnliches Bild in den Medien gesorgt, aber von Leuchtturmprojekten großer, internationaler Unternehmen abgesehen bis jetzt keine Breitenwirkung in Deutschland erzielt. Warum sollten wir uns jetzt also mit Voice User Interfaces (VUI) beschäftigen?
In diesem Kapitel grenzen wie Begrifflichkeiten voneinander ab, werfen einen Blick auf die nationalen und internationalen Marktzahlen und Akteure im Markt der digitalen Sprachassistenten. Wir erfahren außerdem, wofür diese bisher vorzugsweise genutzt wurden. Damit erhalten wir die Grundlage für eine Einschätzung, ob auch Ihre Inhalte, Services und Produkte in Zukunft dialogfähig werden sollten.
1.1 Die Magie von digitalen Sprachassistenten
Die Steuerung unserer Umgebung per Sprache hat bis vor wenigen Jahren nur in Film- oder Fernsehproduktionen reibungslos funktioniert. In diesem Zusammenhang verweisen wir gerne auf Serienklassiker wie Star Trek und Knightrider oder das Hollywood-Drama »Her« (2013), in dem sogar eine romantische Beziehung mit einem digitalen Sprachassistenten gesellschaftlich anerkannt war. Bewusst oder unterbewusst, unsere Gesellschaft treibt die Faszination für die Sprachsteuerung von Maschinen und Computern schon seit Jahrzehnten um.
Es gleicht zuerst einem surrealen Erlebnis, wenn sich die Technologie dem Menschen anpasst und – wie bei Sprachassistenten – auf unsere Stimme reagiert. Vor allem, wenn wir uns alleine in unseren eigenen vier Wänden befinden. Unter Calm Technology verstehen wir Systeme, die sich unauffällig und natürlich in unsere Umgebung einbetten. Digitale Sprachassistenten zählen dazu und können uns in Zukunft auf Zuruf zielgerichtet unterstützen. Sie zeichnen sich dadurch aus, dass sie im Vergleich zu anderen Technologien wie Smartphones einen weniger stark ausgeprägten Lockin-Effekt erzeugen und damit ein geringeres Ablenkungspotenzial aufweisen.
1.2 Die Funktionsweise von digitalen Sprachassistenten
Um Anwendungen für Sprachassistenten zu entwickeln, ist es unerlässlich, dass wir das Grundprinzip der technischen Abläufe im Hintergrund verstehen. Einerseits, um die Infrastruktur auf Anwendungsseite ordnungsgemäß einrichten zu können, andererseits, um auf mögliche Fragen der Projektbeteiligten, Kunden oder anderer Stakeholder besser vorbereitet zu sein.
Lassen Sie uns einen Blick auf die Funktionsweise des Sprachassistenten Amazon Alexa werfen. Ein ähnliches Prinzip kommt auch bei Google Assistant, Samsung Bixby und anderen Sprachassistenten zum Tragen. Nachfolgend umreißen wir die wesentlichen Technologien, die bei der Interaktion mit Ihrem Sprachassistenten involviert sind:
a) Automatic Speech Recognition (ASR) und Natural Language Understanding (NLU)
Wenn wir mit unseren Amazon-Echo-Gerät sprechen, wird der Audiomitschnitt der Eingaben nach Nennung des Aufwecknamens (Wakeword) »Alexa« an den Alexa Voice Service (AVS) gesendet. Dort wird das gesprochene Wort in Text umgewandelt (Speech-To-Text, kurz STT). Vereinfacht gesagt sorgt ASR und NLU dafür, dass der Sprachassistent unsere Eingaben grundsätzlich entgegennehmen und verstehen kann.
b) Natural Language Processing (NLP)
Für jeden digitalen Sprachassistenten ist es das Herzstück, natürliche Sprache verarbeiten zu können. Im täglichen Umgang mit unserem Assistenten merken wir, wie gut oder weniger gut das gelingen kann. In unserem Beispiel sorgt der Alexa Voice Service dafür, dass aus dem durch NLU erkannten Text eine Intention erkannt wird. Der transkribierte Text wird dann in Form einer Anfrage (Request) der Anwendungsfunktion bereitgestellt. Dieser Request enthält neben der erkannten Absicht (Intent) Informationen wie beispielsweise eine Nutzer-ID, Zeitstempel, verschiedene Geräteinformationen des Nutzers oder die eingestellte Sprache auf Nutzerseite.
c) Natural Language Generation (NLG)
Mithilfe des Datensatzes, der bei der Nutzeranfrage an unsere Anwendungsfunktion übergeben wurde, können wir wiederum die Antwort bereitstellen und zurück an den Alexa Voice Service übergeben. Wir senden im Wesentlichen die Antwort als Text zurück und optional auch Zusatzinformationen zur Anzeige auf Geräten mit Bildschirm.
NLG hilft nun dabei, dass aus dem geschriebenen Text wieder gesprochenes Wort wird (Text-To-Speech, kurz TTS). Alexa spricht zum Nutzer und antwortet auf die Anfrage.
All das passiert im Bruchteil einer Sekunde.
Die folgende Abbildung zeigt den Informationsfluss und die technischen Abläufe einer Wetter-Anwendung für Amazon Alexa (sog. Alexa Skill).
Abb. 1: Vereinfachte Darstellung der Funktionsweise des Sprachassistenten Amazon Alexa
1.3 Der richtige Jargon – Einordnung der Begriffe
Jede technologische Neuerung bringt in der Regel neue Begrifflichkeiten mit sich. Diese finden sich in Handbüchern zur Hardware oder Dokumentationen zur Software-Erstellung wieder. Außerdem werden viele der Fachbegriffe durch eine Community geprägt, die sich intensiv mit der Technologie beschäftigt. Diese Begriffe werden in einem Glossar am Ende dieses Buches erläutert. Hier möchten wir Ihnen die wichtigsten Begrifflichkeiten kurz vorstellen:
Begriff | Erläuterung |
Natural Language Understanding (NLU) | Ermöglicht das Verständnis natürlicher Sprache durch einen digitalen Sprachassistenten |
Natural Language Processing (NLP) | Hauptverantwortlich für die Erkennung der Nutzerabsicht |
Natural Language Generation (NLG) | Ermöglicht die Sprachausgabe durch Nutzung einer künstlich generierten Stimme |
Text-To-Speech (TTS) | Text zu gesprochenem Wort Generierung |
Speech-To-Text (STT) | Gesprochenes Wort zu Text Generierung |
Voice Assistant | Digitaler Sprachassistent (Software) |
Smart Speaker | Smart Lautsprecher, Hardware zum Zugriff auf einen Voice Assistant |
Wakeword | Aufweckwort, um einen Sprachassistenten zu aktivieren |
Prompt | Ausgabe des Sprachassistenten |
Reprompt | Ausgabe des Sprachassistenten, wenn der Nutzer nicht antwortet, z. B. auf Fragen/Aufforderungen |
Multimodal | Ausgabe von Zusatzinformationen (z. B. visuell) zusätzlich zur Sprachausgabe bzw. Interakation mit dem Sprachassistent über Touch- oder Gestensteuerung |
Card | Text oder Bild auf einem Gerät mit Bildschirm (Smartphone oder Smart Speaker mit Bildschirm) zur Anzeige unterstützender Informationen |
Endpoint | Adresse (URL) der Anwendungsfunktion zur Erfüllung der gewünschten Aufgabe. Enthält einen Großteil der Business-Logik der Voice-Anwendung. |
Intent | Erkannte Nutzerabsicht, die der Anwendungslogik entsprechend zugeordnet wird, um Datenbank- und Schnittstellenanfragen durchzuführen und die Antwort an den Nutzer vorzubereiten |
Interaction Model | Modell der gesamten Intents inkl. Beispieleingaben. Maßgeblich verantwortlich für die korrekte Zuordnung der Nutzerabsichten zu Intents in der Anwendungsfunktion |
(Sample) Utterances | Beispielformulierungen, durch die Intents in der Anwendungsfunktion angesprochen werden können |
Slots, Entities | Dynamische Werte/Platzhalter in Utterances |
Voice User Interface (VUI) | Sprachbenutzeroberfläche zur Interaktion per Sprache |
VUI-Diagramm | Grafische Darstellung des Entscheidungsbaumes bzw. der Nutzerführung in einer Anwendung... |
Erscheint lt. Verlag | 13.1.2020 |
---|---|
Reihe/Serie | Haufe Fachbuch |
Verlagsort | Freiburg |
Sprache | deutsch |
Themenwelt | Wirtschaft ► Betriebswirtschaft / Management ► Marketing / Vertrieb |
Schlagworte | 169 labs • Alexa • amazon • Amazon Alexa • Amazon Echo • Apple Siri • Assistenten • bixby kapseln • clubhouse • digitale sprachassistenten • dominik meißner • google action • google actions • google assistant • marketing auf alexa • Prototyping • samsung bixby • Siri • Skill • Skills • Smart Home • Sprachassistenten • Sprachassistenzsysteme • Sprachsuche • Sprachtechnologie • Technology • tim kahle • UI • User Interfaces • UX • Voice • voice anwendung • voice app • voice app development • voice app entwicklung • voice design • voice-first • Voice Marketing • voice-only • Voice Search • voice search optimization • voice strategie • Voice Strategien • voice user experience • Voice User Interface Design • vui design |
ISBN-10 | 3-648-13465-5 / 3648134655 |
ISBN-13 | 978-3-648-13465-8 / 9783648134658 |
Haben Sie eine Frage zum Produkt? |
Größe: 2,7 MB
DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.
Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich