All About Voice - Tim Kahle, Dominik Meißner

Blick ins Buch

All About Voice (eBook)

Konzeption, Design und Vermarktung von Anwendungen für digitale Sprachassistenten - inkl. Arbeitshilfen online

Tim Kahle, Dominik Meißner (Autoren)

eBook Download: EPUB

2020 | 1. Auflage
229 Seiten
Haufe Verlag
978-3-648-13465-8 (ISBN)

Lese- und Medienproben

Ebook-Leseprobe (EPUB)
Blick ins Buch (midvox)

Der Markt der digitalen Sprachassistenten hat sich in den letzten Jahren stark weiterentwickelt und erfordert eine neue Bestandsaufnahme der Möglichkeiten und Chancen für Unternehmen und Marken. Tim Kahle und Dominik Meißner sind Experten auf dem Gebiet der Voice Technologie und liefern die Grundlagen für eigene Voice Strategien und Voice App Projekte sowie die Vermarktungsmöglichkeiten über digitale Sprachassistenten, wie Amazon Alexa oder Google Assistant. Inhalt - Begriffseinordnung, die Entwicklungen rund um Sprachassistenten und deren Einfluss auf unseren Alltag - Strategische Aspekte in der Konzeption von Anwendungen für Sprachassistenten - Konzeption und Design für Voice User Interfaces - Prototyping: Tools, Best Practices, Testing-Methoden, Bedeutung der Multimodalität - Best Practices zur Umsetzung von Anwendungen für die Sprachassistenten Amazon Alexa und Google Assistant - Marketing auf Sprachassistenten: Auffindbarkeit der eigenen Voice Anwendungen, Möglichkeiten der Vermarktung kennen und nutzen Mit eigenem Voice Guru als Arbeitshilfe online: - Companion Voice App für Amazon Alexa und Google Assistant mit demonstrativen Inhalten - Praktische Online-Tools zur Optimierung des Arbeitsworkflows an Voice Projekten - Checklisten, Links, Events

Tim Kahle ist Mitgründer von 169 Labs in München und Köln, eine der führenden Agenturen für Sprachassistenten in Deutschland. Mit Expertise im UX/UI Design und einigen Jahren Erfahrungen im Bereich 'Conversational Design' ist er für die Konzeption, das Design und die Vermarktung von Voice Anwendungen verantwortlich. Tim ist außerdem einer von 38 Alexa Champions weltweit.

Tim Kahle Tim Kahle ist Mitgründer von 169 Labs in München und Köln, eine der führenden Agenturen für Sprachassistenten in Deutschland. Mit Expertise im UX/UI Design und einigen Jahren Erfahrungen im Bereich "Conversational Design" ist er für die Konzeption, das Design und die Vermarktung von Voice Anwendungen verantwortlich. Tim ist außerdem einer von 38 Alexa Champions weltweit. Dominik Meißner Dominik Meißner ist Co-Gründer von 169 Labs in München, einer der führenden Voice Assistant Agenturen Deutschlands für Amazon Alexa und Google Home. Er arbeitet seit über 15 Jahren an der Digitalisierung der Medienbranche als Gründer oder Berater. Sein Steckenpferd sind neue Geschäftsmodelle, digitale Prozesse und innovative Medienanwendungen.

1 Das Zeitalter der unsichtbaren Benutzeroberfläche

Vor allem seit der Einführung von Amazon Alexa in Deutschland im Frühjahr 2017 müssen wir uns als Unternehmen neuen Herausforderungen im Marketing stellen. Nachdem wir mit der Mobiloptimierung unseres Internetauftritts gekämpft und eine Social-Media-Strategie entwickelt haben, wurde in den vergangenen Jahren vielleicht noch über den Einsatz eines Messenger-Chatbots nachgedacht. Nun stehen wir plötzlich einem weiteren neuen, komplexen Ökosystem gegenüber, das (grundsätzlich) ohne Bildschirm daherkommt und mit dem Nutzer per Sprache interagieren kann. Verfallen wir in Schockstarre oder nehmen wir die neue Herausforderung an? Die letzten technologischen Entwicklungen wie Augmented Reality (AR) und Virtual Reality (VR) haben zunächst für ein ähnliches Bild in den Medien gesorgt, aber von Leuchtturmprojekten großer, internationaler Unternehmen abgesehen bis jetzt keine Breitenwirkung in Deutschland erzielt. Warum sollten wir uns jetzt also mit Voice User Interfaces (VUI) beschäftigen?

In diesem Kapitel grenzen wie Begrifflichkeiten voneinander ab, werfen einen Blick auf die nationalen und internationalen Marktzahlen und Akteure im Markt der digitalen Sprachassistenten. Wir erfahren außerdem, wofür diese bisher vorzugsweise genutzt wurden. Damit erhalten wir die Grundlage für eine Einschätzung, ob auch Ihre Inhalte, Services und Produkte in Zukunft dialogfähig werden sollten.

1.1 Die Magie von digitalen Sprachassistenten

Die Steuerung unserer Umgebung per Sprache hat bis vor wenigen Jahren nur in Film- oder Fernsehproduktionen reibungslos funktioniert. In diesem Zusammenhang verweisen wir gerne auf Serienklassiker wie Star Trek und Knightrider oder das Hollywood-Drama »Her« (2013), in dem sogar eine romantische Beziehung mit einem digitalen Sprachassistenten gesellschaftlich anerkannt war. Bewusst oder unterbewusst, unsere Gesellschaft treibt die Faszination für die Sprachsteuerung von Maschinen und Computern schon seit Jahrzehnten um.

Es gleicht zuerst einem surrealen Erlebnis, wenn sich die Technologie dem Menschen anpasst und – wie bei Sprachassistenten – auf unsere Stimme reagiert. Vor allem, wenn wir uns alleine in unseren eigenen vier Wänden befinden. Unter Calm Technology verstehen wir Systeme, die sich unauffällig und natürlich in unsere Umgebung einbetten. Digitale Sprachassistenten zählen dazu und können uns in Zukunft auf Zuruf zielgerichtet unterstützen. Sie zeichnen sich dadurch aus, dass sie im Vergleich zu anderen Technologien wie Smartphones einen weniger stark ausgeprägten Lockin-Effekt erzeugen und damit ein geringeres Ablenkungspotenzial aufweisen.

1.2 Die Funktionsweise von digitalen Sprachassistenten

Um Anwendungen für Sprachassistenten zu entwickeln, ist es unerlässlich, dass wir das Grundprinzip der technischen Abläufe im Hintergrund verstehen. Einerseits, um die Infrastruktur auf Anwendungsseite ordnungsgemäß einrichten zu können, andererseits, um auf mögliche Fragen der Projektbeteiligten, Kunden oder anderer Stakeholder besser vorbereitet zu sein.

Lassen Sie uns einen Blick auf die Funktionsweise des Sprachassistenten Amazon Alexa werfen. Ein ähnliches Prinzip kommt auch bei Google Assistant, Samsung Bixby und anderen Sprachassistenten zum Tragen. Nachfolgend umreißen wir die wesentlichen Technologien, die bei der Interaktion mit Ihrem Sprachassistenten involviert sind:

a) Automatic Speech Recognition (ASR) und Natural Language Understanding (NLU)

Wenn wir mit unseren Amazon-Echo-Gerät sprechen, wird der Audiomitschnitt der Eingaben nach Nennung des Aufwecknamens (Wakeword) »Alexa« an den Alexa Voice Service (AVS) gesendet. Dort wird das gesprochene Wort in Text umgewandelt (Speech-To-Text, kurz STT). Vereinfacht gesagt sorgt ASR und NLU dafür, dass der Sprachassistent unsere Eingaben grundsätzlich entgegennehmen und verstehen kann.

b) Natural Language Processing (NLP)

Für jeden digitalen Sprachassistenten ist es das Herzstück, natürliche Sprache verarbeiten zu können. Im täglichen Umgang mit unserem Assistenten merken wir, wie gut oder weniger gut das gelingen kann. In unserem Beispiel sorgt der Alexa Voice Service dafür, dass aus dem durch NLU erkannten Text eine Intention erkannt wird. Der transkribierte Text wird dann in Form einer Anfrage (Request) der Anwendungsfunktion bereitgestellt. Dieser Request enthält neben der erkannten Absicht (Intent) Informationen wie beispielsweise eine Nutzer-ID, Zeitstempel, verschiedene Geräteinformationen des Nutzers oder die eingestellte Sprache auf Nutzerseite.

c) Natural Language Generation (NLG)

Mithilfe des Datensatzes, der bei der Nutzeranfrage an unsere Anwendungsfunktion übergeben wurde, können wir wiederum die Antwort bereitstellen und zurück an den Alexa Voice Service übergeben. Wir senden im Wesentlichen die Antwort als Text zurück und optional auch Zusatzinformationen zur Anzeige auf Geräten mit Bildschirm.

NLG hilft nun dabei, dass aus dem geschriebenen Text wieder gesprochenes Wort wird (Text-To-Speech, kurz TTS). Alexa spricht zum Nutzer und antwortet auf die Anfrage.

All das passiert im Bruchteil einer Sekunde.

Die folgende Abbildung zeigt den Informationsfluss und die technischen Abläufe einer Wetter-Anwendung für Amazon Alexa (sog. Alexa Skill).

Abb. 1: Vereinfachte Darstellung der Funktionsweise des Sprachassistenten Amazon Alexa

1.3 Der richtige Jargon – Einordnung der Begriffe

Jede technologische Neuerung bringt in der Regel neue Begrifflichkeiten mit sich. Diese finden sich in Handbüchern zur Hardware oder Dokumentationen zur Software-Erstellung wieder. Außerdem werden viele der Fachbegriffe durch eine Community geprägt, die sich intensiv mit der Technologie beschäftigt. Diese Begriffe werden in einem Glossar am Ende dieses Buches erläutert. Hier möchten wir Ihnen die wichtigsten Begrifflichkeiten kurz vorstellen:

Begriff

Erläuterung

Natural Language Understanding (NLU)

Ermöglicht das Verständnis natürlicher Sprache durch einen digitalen Sprachassistenten

Natural Language Processing (NLP)

Hauptverantwortlich für die Erkennung der Nutzerabsicht

Natural Language Generation (NLG)

Ermöglicht die Sprachausgabe durch Nutzung einer künstlich generierten Stimme

Text-To-Speech (TTS)

Text zu gesprochenem Wort Generierung

Speech-To-Text (STT)

Gesprochenes Wort zu Text Generierung

Voice Assistant

Digitaler Sprachassistent (Software)

Smart Speaker

Smart Lautsprecher, Hardware zum Zugriff auf einen Voice Assistant

Wakeword

Aufweckwort, um einen Sprachassistenten zu aktivieren

Prompt

Ausgabe des Sprachassistenten

Reprompt

Ausgabe des Sprachassistenten, wenn der Nutzer nicht antwortet, z. B. auf Fragen/Aufforderungen

Multimodal

Ausgabe von Zusatzinformationen (z. B. visuell) zusätzlich zur Sprachausgabe bzw. Interakation mit dem Sprachassistent über Touch- oder Gestensteuerung

Card	Text oder Bild auf einem Gerät mit Bildschirm (Smartphone oder Smart Speaker mit Bildschirm) zur Anzeige unterstützender Informationen

Endpoint

Adresse (URL) der Anwendungsfunktion zur Erfüllung der gewünschten Aufgabe. Enthält einen Großteil der Business-Logik der Voice-Anwendung.

Intent

Erkannte Nutzerabsicht, die der Anwendungslogik entsprechend zugeordnet wird, um Datenbank- und Schnittstellenanfragen durchzuführen und die Antwort an den Nutzer vorzubereiten

Interaction Model

Modell der gesamten Intents inkl. Beispieleingaben. Maßgeblich verantwortlich für die korrekte Zuordnung der Nutzerabsichten zu Intents in der Anwendungsfunktion

(Sample) Utterances

Beispielformulierungen, durch die Intents in der Anwendungsfunktion angesprochen werden können

Slots, Entities

Dynamische Werte/Platzhalter in Utterances

Voice User Interface (VUI)

Sprachbenutzeroberfläche zur Interaktion per Sprache

VUI-Diagramm

Grafische Darstellung des Entscheidungsbaumes bzw. der Nutzerführung in einer Anwendung...

Erscheint lt. Verlag	13.1.2020
Reihe/Serie	Haufe Fachbuch
Verlagsort	Freiburg
Sprache	deutsch
Themenwelt	Wirtschaft ► Betriebswirtschaft / Management ► Marketing / Vertrieb
Schlagworte	169 labs • Alexa • amazon • Amazon Alexa • Amazon Echo • Apple Siri • Assistenten • bixby kapseln • clubhouse • digitale sprachassistenten • dominik meißner • google action • google actions • google assistant • marketing auf alexa • Prototyping • samsung bixby • Siri • Skill • Skills • Smart Home • Sprachassistenten • Sprachassistenzsysteme • Sprachsuche • Sprachtechnologie • Technology • tim kahle • UI • User Interfaces • UX • Voice • voice anwendung • voice app • voice app development • voice app entwicklung • voice design • voice-first • Voice Marketing • voice-only • Voice Search • voice search optimization • voice strategie • Voice Strategien • voice user experience • Voice User Interface Design • vui design
ISBN-10	3-648-13465-5 / 3648134655
ISBN-13	978-3-648-13465-8 / 9783648134658

Haben Sie eine Frage zum Produkt?

EPUB (Wasserzeichen)
Größe: 2,7 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.