Künstliche Intelligenz (eBook)
XXII, 496 Seiten
Springer Fachmedien Wiesbaden (Verlag)
978-3-658-30211-5 (ISBN)
Grußwort von Minister Prof. Dr. Andreas Pinkwart 5
Vorwort 7
Über dieses Buch 7
Danksagung 8
Inhaltsverzeichnis 10
Über die Autoren 19
1: Was ist intelligent an Künstlicher Intelligenz? 21
1.1 Menschliche Intelligenz hat viele Dimensionen 21
1.2 Woran erkennt man Künstliche Intelligenz 22
1.3 Computer lernen 23
1.4 Tiefe neuronale Netze können Objekte erkennen 26
1.5 Wie kann man Künstliche Intelligenz verstehen? 28
1.6 Die Geschichte der Künstlichen Intelligenz 30
1.7 Zusammenfassung 32
Literatur 33
2: Was kann Künstliche Intelligenz? 35
2.1 Objekterkennung in Bildern 35
2.1.1 Medizinische Diagnose 37
2.1.2 Vorhersage der 3D-Struktur von Proteinen 38
2.2 Spracherkennung 39
2.3 Maschinelle Übersetzung 40
2.4 Die Beantwortung natürlichsprachiger Fragen 42
2.5 Dialoge und persönliche Assistenten 45
2.6 Brettspiele 47
2.6.1 Das Strategiespiel Go 48
2.6.2 Künstliche Intelligenz gewinnt gegen fünf Poker-Professionals 49
2.7 Videospiele 49
2.7.1 Atari 2600 Spielekonsole 50
2.7.2 Capture the Flag 50
2.7.3 Das Echtzeit-Strategiespiel Dota2 52
2.8 Selbstfahrende Autos 53
2.8.1 Weiterentwicklung der selbstfahrenden Autos 54
2.9 Der Computer als kreatives Medium 55
2.9.1 Neue Bilder komponieren 56
2.9.2 Geschichten erfinden 58
2.10 Allgemeine Künstliche Intelligenz 59
2.11 Zusammenfassung 60
Literatur 60
3: Einige Grundbegriffe des maschinellen Lernens 64
3.1 Die wichtigsten Arten des maschinellen Lernens 64
3.1.1 Überwachtes Lernen 64
3.1.2 Unüberwachtes Lernen 65
3.1.3 Bestärkungslernen 66
3.2 Programmieren und Lernen 67
3.2.1 Modelle transformieren eine Eingabe in eine Ausgabe 67
3.2.2 Algorithmen arbeiten schrittweise eine Liste von Anweisungen ab 69
3.2.3 Ein Lernproblem: Die Erkennung von Ziffern 69
3.2.4 Vektoren, Matrizen und Tensoren 70
3.3 Lernen eines Zusammenhangs 72
3.3.1 Schema für das Lernen: Modell, Verlustfunktion und Optimierung 72
3.3.2 Detaillierter Ablauf des Lernens 72
3.4 Ein simples Modell: Die logistische Regression 75
3.4.1 Berechnung eines Punktwertes 75
3.4.2 Die gleichzeitige Berechnung aller Punktwerte 77
3.4.3 Lineare Transformation 78
3.4.4 Die Softmaxfunktion erzeugt einen Wahrscheinlichkeitsvektor 79
3.4.5 Das logistische Regressionsmodell 80
3.5 Die Güte des Modells 81
3.5.1 Maßstab für die Modellgüte: Die Wahrscheinlichkeit der kompletten Trainingsdaten 81
3.5.2 Wie misst man den Lernerfolg: Die Verlustfunktion 82
3.5.3 Verdeutlichung für zwei Klassen und zwei Eingabemerkmale 84
3.6 Optimierung, oder wie findet man die besten Parameterwerte 85
3.6.1 Der Gradient zeigt in Richtung des steilsten Anstiegs 86
3.6.2 Der Gradient für mehrere Dimensionen 86
3.6.3 Der Gradient der Verlustfunktion 88
3.6.4 Schrittweise Minimierung durch Gradientenabstieg 90
3.6.5 Die Lernrate bestimmt die Länge eines Optimierungschritts 91
3.6.6 Gradientenabstieg mit Minibatch benötigt viel weniger Rechenaufwand 91
3.7 Überprüfung des Lernerfolges 93
3.7.1 Anwendung des Modells auf neue Daten 93
3.7.2 Überprüfung der Genauigkeit auf der Testmenge 94
3.7.3 Präzision und Recall für Klassen unterschiedlichen Umfangs 95
3.8 Zusammenfassung 96
Literatur 97
4: Tiefes Lernen kann komplexe Zusammenhänge erfassen 98
4.1 Beim XOR-Problem gibt es Interaktionen zwischen den Merkmalen 98
4.2 Nichtlinearitäten erzeugen gebogene Trennflächen 101
4.3 Tiefe neuronale Netze sind Stapel von nichtlinearen Schichten 106
4.3.1 Vektoren und Tensoren repräsentieren die umgeformten Inhalte 107
4.4 Training von TNN mit Backpropagation-Verfahren 109
4.5 Toolkits erleichtern die Formulierung und das Training von TNN 112
4.5.1 Parallele Berechnungen beschleunigen das Training von TNN 112
4.5.2 Toolkits erleichtern die Arbeit mit TNN 113
4.6 Wie mache ich das Netz besser? 115
4.6.1 Iterative Konstruktion eines guten Modells mit der Validationsmenge 115
4.6.2 Unteranpassung und Überanpassung führen zu höheren Fehlern 116
4.6.3 Ein Beispiel für Überanpassung 117
4.6.4 Regularisierungsverfahren reduzieren den Generalisierungsfehler 119
Bestrafung großer Parameterwerte reduziert abrupte Ausgabeänderungen 119
Dropout legt Teile des Netzes lahm 120
Batch-Normalisierung vermeidet zu kleine und große Werte von verdeckten Vektoren 121
Mathematischer Beweis: Der stochastische Gradientenabstieg findet gut generalisierende TNN 122
4.7 Unterschiedliche Anwendungen erfordern Netze unterschiedlichen Aufbaus 122
4.7.1 Mehrschichtiges Feedforward-Netz 123
4.7.2 Convolutional Neural Network (CNN) 124
4.7.3 Rekurrentes neuronales Netz (RNN) 124
4.7.4 Bestärkungslernen-Netz 124
4.7.5 Generatives adversariales Netz (GAN) 125
4.7.6 Autoencoder-Netze erzeugen eine komprimierte Darstellung 125
4.7.7 Architekturen für bestimmte Medien und Anwendungsbereiche 125
4.8 Die Konstruktion eines tiefen neuronalen Netzes ist ein Suchprozess 127
4.8.1 Auswahl der Anzahl der Parameter und der Hyperparameter 127
4.8.2 Der Standard-Prozess der Modellsuche führt zu besseren Modellen 128
4.8.3 Automatische Suche von Modellarchitekturen und Hyperparametern 130
4.9 Biologische neuronale Netze funktionieren anders 133
4.10 Zusammenfassung und Trends 135
Literatur 136
5: Bilderkennung mit tiefen neuronalen Netzen 138
5.1 Was bedeutet eigentlich Bilderkennung? 138
5.1.1 Arten der Objekterkennung in Bildern 138
5.1.2 Inspirationen aus der Biologie 139
5.1.3 Warum ist eine Bilderkennung schwierig? 142
5.2 Die Bestandteile eines Convolutional Neural Networks 142
5.2.1 Der Kernel einer Convolution-Schicht analysiert kleine Bildbereiche 142
5.2.2 Convolution-Schicht mit vielen Kerneln reagiert auf viele Merkmale 145
5.2.3 Die Pooling-Schicht wählt die wichtigsten Merkmale aus 146
5.3 Ein einfaches Convolutional Neural Network für die Ziffernerkennung 147
5.4 Der ImageNet Wettbewerb befeuert die Methodenentwicklung 149
5.5 Fortschrittliche Convolutional Neural Networks 151
5.5.1 AlexNet nutzt erfolgreich GPUs zum Training 151
5.5.2 ResNet erleichtert die Optimierung durch Umgehungspfade 152
ResNet benötigt eine enorme Rechenpower 153
5.5.3 DenseNet verwendet zusätzliche Umgehungspfade 155
5.5.4 ResNeXt nutzt transformierte Bilder zum Training 156
5.6 Analyse der CNN Ergebnisse 157
5.6.1 Einzelne Kernel reagieren auf Merkmale unterschiedlicher Art und Größe 157
5.6.2 Ähnlichen Bildern entsprechen benachbarte verdeckte Vektoren 158
5.7 Transferlernen reduziert den Bedarf an Trainingsdaten 159
5.8 Lokalisierung eines Objektes im Bild 162
5.8.1 Objektlokalisierung durch Rechtecke 162
5.8.2 Bildsegmentierung zur pixelgenaue Bestimmung von Klassen 164
5.8.3 Max-Unpooling belegt ein vergrößertes Feld mit Werten 165
5.8.4 Das U-Net erkennt zunächst Objekte und findet dann die zugehörigen Pixel 166
5.9 Die 3D-Rekonstruktion einer Szene 168
5.10 Gesichter können mit sehr hoher Genauigkeit zugeordnet werden 169
5.11 Abschätzung der Genauigkeit von Modellprognosen 171
5.11.1 Unsicherheit der Modellprognosen 172
5.11.2 Der Bootstrap erzeugt eine Menge plausibler Modelle 174
5.11.3 Bayessche neuronale Netze 174
5.12 Zuverlässigkeit der Bilderkennung 176
5.12.1 Der Einfluss von Bildverzerrungen 176
5.12.2 Gezielte Konstruktion von falschklassifizierten Bildern 179
5.13 Zusammenfassung und Trends 182
Literatur 183
6: Erfassung der Bedeutung von geschriebenem Text 186
6.1 Wie kann man die Bedeutung von Wörtern durch Vektoren darstellen? 189
6.1.1 Das Konzept der Embeddingvektoren 191
6.1.2 Berechnung von Embeddingvektoren mit Word2vec 192
6.1.3 Die Approximation der Softmaxfunktion reduziert den Rechenaufwand 194
6.2 Eigenschaften der Embedding-Vektoren 195
6.2.1 Nächste Nachbarn von Embeddings haben ähnliche Bedeutungen 195
6.2.2 Differenzen zwischen Embeddings lassen sich als Relationen interpretieren 197
6.2.3 FastText nutzt n-Gramme von Buchstaben 199
6.2.4 StarSpace erzeugen Embeddings für andere Objekte 201
6.3 Rekurrente neuronale Netze zur Erfassung von Sequenzen 202
6.3.1 Rekurrente neuronale Netze als Sprachmodelle 203
6.3.2 Training der rekurrenten neuronalen Netze 205
6.3.3 Die Eigenschaften der Gradienten beim RNN 206
6.4 Das Long-Short Term Memory (LSTM) ist ein Langzeitspeicher 208
6.4.1 Gatter steuern die Speichervorgänge 208
6.4.2 LSTMs mit mehreren Schichten 211
6.4.3 Anwendungen des LSTM 212
6.4.4 Bidirektionale LSTM-Netze zur Prognose von Worteigenschaften 214
6.4.5 Visualisierung von rekurrenten neuronalen Netzen 216
6.5 Übersetzung: Transformation einer Sequenz in eine andere Sequenz 217
6.5.1 Sequence-to-Sequence Netze zur Übersetzung 218
Erzeugen und Bewertung einer Übersetzung 219
6.5.2 Attention: Verbesserung der Übersetzung durch Rückgriff auf die Eingabeworte 222
6.5.3 Übersetzungsergebnisse mit Attention 224
6.6 Transformer-Übersetzungsmodelle 227
6.6.1 Selbstattention analysiert die Abhängigkeiten der Worte eines Satzes 228
6.6.2 Kreuzattention analysiert die Abhängigkeiten zwischen Ein- und Ausgabe 229
6.6.3 Transformer-Architektur nutzt Selbst- und Kreuzattention 231
6.6.4 Training des Transformers für die Sprachübersetzung 233
6.6.5 Byte-Pair Kodierung zur Reduktion des Vokabulars und zur Repräsentation unbekannter Wörter 235
6.6.6 Ergebnisse für das Transformer-modell 235
6.6.7 Simultane Übersetzung erfordert Wartezeiten 238
6.7 BERT: Sprachmodelle für die Repräsentation von Bedeutungen 240
6.7.1 BERT-Architektur 240
6.7.2 BERT-Prognoseaufgaben zum unüberwachten Vortraining 241
6.8 Transferlernen mit umfangreichen BERT-Modellen der Sprache 243
6.8.1 Semantische Klassifikationsaufgaben 243
6.8.2 Die Beantwortung von Fragen 245
6.8.3 Extraktion von Weltwissen 247
6.8.4 Transferlernen für Übersetzungsmodelle 250
6.8.5 Anwendung von BERT in der Web-Suche 252
6.9 Die Beschreibung von Bildern durch Text 253
6.10 Die Erklärung der Prognosen von TNN 256
6.10.1 Erklärungen sind notwendig 256
6.10.2 Globale Erklärungsmodelle 257
6.10.3 Lokale Erklärungsmodelle 258
6.11 Zuverlässigkeit der Texterkennung 260
6.11.1 Robustheit bei Textfehlern und Änderung der Domäne 260
6.11.2 Anfälligkeit für böswillige Änderung von Eingaben 261
6.12 Zusammenfassung und Trends 262
Literatur 264
7: Gesprochene Sprache verstehen 268
7.1 Spracherkennung 268
7.1.1 Warum ist Spracherkennung schwierig? 268
7.1.2 Wie kann man Sprachsignale im Computer darstellen? 269
7.1.3 Messung der Genauigkeit der Spracherkennung 272
Die Wortfehlerrate WER 272
Bekannte Testdatensätze zur Spracherkennung 272
7.1.4 Die Geschichte der Spracherkennung 273
7.2 Tiefe Sequence-to-Sequence-Modelle 274
7.2.1 Listen-Attend-Spell erzeugt eine Folge von Buchstaben 275
7.2.2 Sequence-To-Sequence Modell für Worte und Silben 278
7.3 Convolutional Neural Network zur Spracherkennung 278
7.3.1 CNN Modelle 279
7.3.2 Kombinierte Modelle 282
ResNet und BiLSTM 282
Vergrößerung der Trainingsdaten 283
7.4 Lippenlesen 283
7.5 Erzeugung von gesprochener Sprache aus Text 284
7.5.1 WaveNet mit gedehnten Convolution-Schichten für lange Abhängigkeiten 285
7.5.2 Das Tacotron erzeugt ein Spektrogramm 287
7.6 Dialoge und Sprachassistenten 289
7.7 Gunrock: Ein erweiterter Alexa-Sprachassistent 291
7.7.1 Sprachverstehen 292
7.7.2 Dialogmanagement 293
7.7.3 Antworterzeugung 294
7.7.4 Erprobung des Sprachassistenten 294
7.8 Analyse der Inhalte von Videos 295
7.8.1 Aufgaben der Videoinhaltsanalyse 296
7.8.2 Trainingsdaten zur Klassifikation von Videos nach Aktivitäten 296
7.8.3 Convolution-Schichten zur Erkennung von Videoinhalten 297
7.8.4 Genauigkeit der Videoklassifikation 300
7.8.5 Die Erzeugung von Untertiteln für Videos 301
7.9 Zuverlässigkeit der Verarbeitung gesprochener Sprache 304
7.9.1 Der Effekt von Rauschen und anderen Verzerrungen auf die Spracherkennung 305
7.9.2 Adversariale Attacken auf die automatische Spracherkennung 305
7.10 Zusammenfassung 306
Literatur 308
8: Lernen von optimalen Strategien 311
8.1 Einige Grundbegriffe 313
8.2 Tiefes Q-Netz 316
8.2.1 Strategie zur Maximierung der Summe der Belohnungen 316
8.2.2 Eine kleine Navigationsaufgabe 316
8.2.3 Diskontierter zukünftiger Gewinn belohnt schnelle Lösungen 317
8.2.4 Die Q-Funktion bewertet Zustands-Aktionspaare 317
8.2.5 Die Bellmangleichung stellt eine Beziehung zwischen Q-Werten her 318
8.2.6 Approximation der Q-Funktion durch ein tiefes neuronales Netz 319
8.2.7 Q-Lernen: Training eines tiefen Q-Netzes 319
Erzeugung einer Episode mit dem tiefen Q-Netz 319
Optimierung mit der erzeugten Episode 320
Praktische Tricks: Auswahl der Trainingsbeispiele und Verlustfunktionsberechnung 321
Exploration 322
8.3 Anwendung von Q-Lernen auf Atari Videospiele 323
8.3.1 Definition des Spielzustands bei Atari-Spielen 323
8.3.2 Architektur des Atari-Netzes 324
8.3.3 Training 324
8.3.4 Auswertung der tiefen neuronalen Netze der Atari-Videospiele 325
8.4 Strategiegradienten zum Erlernen von stochastischen Strategien 327
8.4.1 Notwendigkeit von Strategien mit Zufallselementen 327
8.4.2 Direkte Optimierung einer Strategie durch Strategiegradienten 328
8.4.3 Erweiterungen des Strategiegradienten: Actor-Critic und Proximal Policy Optimization 330
8.4.4 Anwendung auf Robotik und Go 332
8.4.5 Anwendung in Dota2 334
8.5 Selbstfahrende Autos 335
8.5.1 Sensoren selbstfahrender Autos 336
8.5.2 Funktionalität eines Agenten fürs autonome Fahren 337
8.5.3 Feintuning durch Simulation 340
8.6 Zuverlässigkeit des Bestärkungslernens 343
8.6.1 Training in Simulationsumgebungen oft schwierig übertragbar 343
8.6.2 Adversariale Attacken auf Modelle zum Bestärkungslernen 344
8.7 Zusammenfassung und Trends 345
Literatur 346
9: Kreative Künstliche Intelligenz und Emotionen 349
9.1 Bilder erzeugen mit generativen adversarialen Netzen (GAN) 349
9.1.1 Fälscher und Kunstexperte 349
9.1.2 Generator und Diskriminator 350
9.1.3 Optimierungskriterium für Generator und Diskriminator 350
9.1.4 Die Ergebnisse generativer adversarialer Netze 351
9.1.5 Interpolation zwischen Bildern 355
9.1.6 Transformation von Bildern 356
9.1.7 Transformation von Bildern ohne Trainingspaare 357
9.1.8 Creative Adversarial Network 360
9.1.9 Erzeugung von Bildern aus Text 363
9.1.10 GAN-generierte Modelle von Personen in drei Dimensionen 364
9.2 Texte verfassen 365
9.2.1 Automatischer Reporter: Daten in Zeitungsmeldungen darstellen 365
9.2.2 Generierung von längeren Geschichten 365
9.2.3 GPT2 erfindet komplexe Geschichten 366
Prognosefähigkeit von GPT-2 369
Visualisierung der Modellprognosen 370
Weiterentwicklungen von GPT-2 371
9.3 Musik automatisch komponieren 373
9.3.1 MuseNet komponiert Mischungen von Klassik und Pop 374
9.3.2 Der Music Transformer erfindet Klavierstücke 376
9.4 Emotionen und Persönlichkeit 377
9.4.1 Ein XiaoIce Dialog 377
9.4.2 Das Ziel: Personen zum Weiterreden animieren 379
9.4.3 Architektur von XiaoIce 380
9.4.4 Anzahl der Benutzerantworten als Optimierungskriterium 382
9.4.5 Emotionale Empathie und Unterstützung 384
9.5 Zusammenfassung und Trends 387
Literatur 390
10: KI und ihre Chancen, Herausforderungen und Risiken 393
10.1 Chancen für Wirtschaft und Gesellschaft 396
10.1.1 Smart Home, mein Haus kümmert sich um mich 396
Was ist der Vorteil für den Nutzer? 397
10.1.2 Diagnose, Therapie, Pflege und Verwaltung in der Medizin 398
KI in Früherkennung und Diagnose 399
KI in der Therapie 401
KI in der Pflege 401
KI in der Krankenhausverwaltung 403
10.1.3 Maschine Learning in der industriellen Anwendung 404
10.1.4 Weitere Einsatzgebiete der KI 407
10.2 Wirtschaftliche Auswirkungen und Zusammenhänge 412
10.2.1 Die Monetarisierung von Daten 412
10.2.2 Die neue digitale Servicewelt – KI as a service 416
10.2.3 Große Unternehmen als Treiber der KI 419
Der KI-Konzern Google 420
Die chinesische Konkurrenz 420
Chance für Europa 422
10.2.4 Die Auswirkungen auf den Arbeitsmarkt 422
Bildung für eine digitale Welt 424
Das Berufsbild des Data Scientists 425
10.3 Gesellschaftliche Herausforderungen 428
10.3.1 Herausforderungen der KI in der Medizin 430
10.3.2 1984 2.0: KI als Instrument der Überwachung 431
10.3.3 Krieg der Maschinen 434
10.3.4 Starke Künstliche Intelligenz 436
10.4 Methodische Herausforderungen 438
10.4.1 Kombination von Daten und unscharfem Schließen 439
10.4.2 Schnelles und Langsames Denken 440
10.5 Vertrauen schaffen in die KI 444
10.5.1 Wie baut man vertrauenswürdige KI-Systeme? 447
10.5.2 Wie kann man tiefe neuronale Netze testen? 448
10.5.3 Ist eine selbstbestimmte, effektive Nutzung eines KI-Systems möglich? 449
10.5.4 Behandelt das KI-System alle Betroffenen fair? 451
10.5.5 Sind Funktionsweise und Entscheidungen der KI nachvollziehbar? 452
10.5.6 Ist das KI-System sicher gegenüber Angriffen, Unfällen und Fehlern? 453
10.5.7 Funktioniert die KI-Komponente zuverlässig und ist sie robust? 454
10.5.8 Schützt die KI die Privatsphäre und sonstige sensible Informationen? 455
10.5.9 Die Herausforderungen für ein KI-Gütesiegel 456
10.6 Zusammenfassung 457
Literatur 459
A Anhang 463
A.1 Glossar 464
A.2 Verzeichnis der Abbildungen und deren Quellen 483
A.3 Literatur zum Anhang 498
A.4 Stichwortverzeichnis 504
Erscheint lt. Verlag | 15.2.2021 |
---|---|
Zusatzinfo | XXII, 496 S. 402 Abb., 395 Abb. in Farbe. |
Sprache | deutsch |
Themenwelt | Mathematik / Informatik ► Informatik |
Schlagworte | Artificial Intelligence • Bilderkennung • Datenschutz • Deep learning • Künstliche Intelligenz Buch • machine learning • Maschinelles Lernen • Robotersteuerung • Spracherkennung • Textmining • Tiefes Lernen • Verlässlichkeit • Vertrauenswürdige KI |
ISBN-10 | 3-658-30211-9 / 3658302119 |
ISBN-13 | 978-3-658-30211-5 / 9783658302115 |
Haben Sie eine Frage zum Produkt? |
Größe: 42,2 MB
DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.
Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.
Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich