KI in der Unternehmenspraxis (eBook)
240 Seiten
Schäffer-Poeschel Verlag
978-3-7910-6227-3 (ISBN)
Christof Seeger Christof Seeger ist Professor an der Hochschule der Medien (HdM) in Stuttgart mit einem kommunikationswissenschaftlichen Fokus auf die digitale Transformation von Medien, insb. der Pressebranche. Neben dem Schwerpunkt des Publishing hat er 2021 das Themen- und Forschungsfeld auf die Sportkommunikation ausgeweitet. An der HdM engagiert er sich im Institute for Applied Artificial Intelligence (IAAI).
Christof Seeger Christof Seeger ist Professor an der Hochschule der Medien (HdM) in Stuttgart mit einem kommunikationswissenschaftlichen Fokus auf die digitale Transformation von Medien, insb. der Pressebranche. Neben dem Schwerpunkt des Publishing hat er 2021 das Themen- und Forschungsfeld auf die Sportkommunikation ausgeweitet. An der HdM engagiert er sich im Institute for Applied Artificial Intelligence (IAAI).
3.3 Transformer
Ein Transformer besteht allgemein aus einem Encoder und einem Decoder (vgl. Vaswani et al. 2017). Der Encoder nimmt eine sequenzielle Eingabe entgegen und erzeugt eine entsprechende sequenzielle Repräsentation . Der Decoder verwendet diese Repräsentation , um schrittweise eine Ausgabesequenz zu generieren. Dieser Prozess ist in Abbildung 3-5 abstrakt dargestellt.
Abbildung 3-5: Generell enthält ein Transformer einen Encoder und einen Decoder. Beide bestehen aus einer konfigurierbaren Anzahl entsprechender Blöcke. Im Encoder wird generell eine Eingabesequenz x (typisch Sequenz von kontextfreien Wortvektoren) in eine bessere Repräsentation abgebildet. Der Decoder berechnet schrittweise aus bereits berechneten Elementen der Zielsequenz y das jeweils nächste Element.Ein Transformer muss nicht zwingend Encoder und Decoder enthalten. Es gibt Transformer, die nur aus einem Encoder bestehen, zum Beispiel BERT10 (vgl. Devlin et al. 2018) und sämtliche auf BERT basierende Varianten. Ebenfalls gibt es Transformer, die nur aus einem Decoder bestehen, zum Beispiel die verschiedenen GPT-Varianten. Da in diesem Beitrag der Fokus auf GPT liegt, werden im Folgenden ausschließlich Transformer, die nur einen Decoder enthalten, beschrieben.
GPT
GPT-3 ist ein Transformer, der 96 Decoder-Blöcke enthält (vgl. Brown et al. 2020). Ein einzelner Decoder-Block ist in Abbildung 3-6 dargestellt. Eingabe in den Decoder-Block ist eine Sequenz von maximal 2048 Wordembeddings. Im ersten Decoder-Block sind das die kontextfreien Embeddings der Eingabewörter (genauer: Eingabetokens). Zu den kontextfreien Embeddings der Eingabewörter wird noch ein sogenannter Positionsvektor gleicher Länge addiert. Damit wird gewährleistet, dass im Decoder die Reihenfolge der am Eingang anliegenden Worte mitberücksichtigt wird. Für alle nach dem ersten Block folgenden Blöcke sind die Eingabevektoren jeweils die vom vorigen Block ausgegebenen kontextuellen Wordembeddings. Die Embeddings erhalten dadurch Block für Block mehr Kontextinformation. Das zentrale Modul innerhalb eines einzelnen Decoder-Blocks ist die Multi-Head Self-Attention. Dieses Modul wird im Folgenden beschrieben:
Abbildung 3-6: Einzelner Decoder-Block in GPT3. Layer-Normalisierung sorgt dafür, dass die Wortvektoren an der entsprechenden Stelle eine einheitliche Länge haben. Short-Cut Connections addieren zur Ausgabe eines Moduls die zugehörige Moduleingabe. Das Feed Forward ist ein herkömmliches neuronales Netz mit zwei Fully-Connected-Schichten. Es wird auf jedes einzelne der im Self-Attention-Modul berechneten Embeddings angewandt. Im Self-Attention-Block werden die Wordvektoren am Eingang in mit mehr Kontextinformation angereicherte Wordvektoren abgebildet. Die Ausgabe des letzten Decoder-Blocks wird auf ein herkömmliches neuronales Netz mit einem Fully-Connected Layer gegeben. Die Anzahl der Neuronen in diesem Layer ist gleich der Anzahl der Tokens im Vokabular. Jedes Neuron gehört zu einem Token. Die Ausgabe eines Neurons ist die bedingte Wahrscheinlichkeit, dass das zu diesem Neuron gehörende Token auf die am Eingang gegebene Tokensequenz folgt.Multi-Head Self-Attention
Ziel des Multi-Head Self-Attention-Moduls ist es, aus einer Sequenz von Wordembeddings (genauer: Tokenembeddings) am Eingang des Moduls eine neue, bessere Sequenz von Wordembeddings am Ausgang zu berechnen. Die neue Repräsentation der Wörter soll dabei bessere Kontextinformation von den benachbarten Wörtern enthalten als die Wortrepräsentationen am Eingang. Hierfür werden in einem Self-Attention-Block sogenannte Attention-Koeffizienten berechnet. Ein Attention-Koeffizient gibt an, wie viel Einfluss das Wort an der Stelle j auf die Bedeutung des Wortes an der Stelle i hat. Das neue Wordembedding an der Stelle i ist dann einfach die gewichtete Summe der alten Repräsentationen aller Eingabewörter, wobei die Attention-Koeffizienten die Gewichtung beschreiben. Ein Attention-Koeffizient impliziert demnach, dass das j-te Wort für die Berechnung des neuen Wordembeddings an der Stelle i keinen Einfluss hat, wohingegen ein Attention-Koeffizient einen maximalen Einfluss des j-ten auf das i-te Wort beschreibt. Dieser Zusammenhang ist in Abbildung 3-7 skizziert und wird im Folgenden mathematisch beschrieben.
Abbildung 3-7: Single-Head Self-Attention. Für jeden Wortvektor xi am Eingang wird ein mit mehr Kontextinformation versehener Wortvektor yi berechnet. Die Attention-Koeffizienten aij reflektieren den Einfluss des j-ten auf das i-te Wort.Aus jedem Wordembedding am Eingang werden zunächst durch Multiplikation mit 3 lernbaren Matrizen und die Repräsentationen Query q, Key k und Value v berechnet:
Implementiert werden diese lernbaren Matrizen einfach durch ein herkömmliches neuronales Netz mit einem einzigen Fully-Connected Layer. Die Koeffizienten der Matrizen sind also Verbindungsgewichte zwischen Neuronen und werden im Training des Transformers gelernt. Für die Berechnung der Attention-Koeffizienten werden jetzt die Vektoren Query q und Key k skalar miteinander multipliziert und durch die Wurzel aus der Länge d der Wortvektoren geteilt:
Das Ergebnis wird durch Anwendung der Softmax-Funktion normiert.
Schließlich wird die neue Repräsentation als Linearkombination der Values v mit den normierten Attention-Koeffizienten gebildet:
Das bis hierher vorgestellte Konzept der Single-Head Self-Attention berechnet für ein gegebenes Paar von Wörtern an den Stellen i und j immer den gleichen Attention-Koeffizienten . Das ist ein Nachteil, weil der gegenseitige Einfluss zweier Wörter aufeinander in unterschiedlichen Kontexten stark variieren kann. Dieser Nachteil wird durch Multi-Head Self-Attention behoben, indem einfach h Self-Attention-Module, wie in Abbildung 3-8 dargestellt, parallelgeschaltet werden. In jedem Head werden jeweils eigene Matrizen und gelernt. Entsprechend werden in den verschiedenen Heads unterschiedliche Attention-Koeffizienten berechnet.
Abbildung 3-8: Multi-Head Self-Attention: Parallelschalten mehrerer Self-Attention Heads ermöglicht die Berechnung von unterschiedlichen Attention-Koeffizienten für ein gegebenes Wortpaar. In jedem Head wird für jede Stelle ein jeweils eigenes kontextuelles Wordembedding berechnet. Die zu einer Stelle gehörenden Wordembeddings werden dann aneinandergehängt und auf einen Fully-Connected Layer mit der lernbaren Gewichtsmatrix Wo gegeben.In jedem Head r wird für jede Stelle i ein jeweils eigenes kontextuelles Wortembedding berechnet. Die zu einer Stelle gehörenden Wordembeddings , , …, werden schließlich zu einem kontextuellen Wortembedding für die Position i verbunden. Für diese Verbindung gibt es unterschiedliche Optionen. Die gebräuchlichste Variante ist, dass die Eingabe-Wordembeddings der Länge d in h gleich große Teile zerlegt werden. Dann sind die Eingaben in einen einzelnen Head, die entsprechenden Matrizen und und das Embedding im Head r um den Faktor h kleiner als im Single-Head-Fall. Durch einfaches Aneinanderhängen der h-Teile erhält man dann wieder einen Vektor, dessen Länge d gleich groß ist wie die Länge des Vektors am Eingang vor der Partitionierung. Dieser Vektor wird noch mit der lernbaren Matrix der Größe multipliziert (realisiert durch einen Fully-Connected Layer). Das resultierende kontextuelle Wordembedding ist entsprechend gleich groß wie das Embedding am Eingang.
Multi-Head Self-Attention ist das essenzielle Konzept, sowohl in den Encoder- als auch in den Decoder-Blöcken eines Transformers. Zu beachten ist allerdings, dass im Encoder jeweils die gesamte Sequenz von Wörtern parallel anliegt, im Decoder jedoch im i-ten Zeitschritt nur die ersten i Wörter bekannt sind. Für die Berechnung der Ausgabe an der i-ten Stelle können also nur die Vorgänger betrachtet werden. Konkret heißt das, dass im Decoder die Linearkombination
nicht über alle S Stellen der Eingabesequenz berechnet werden kann, sondern nur über die Stellen :
Diese Form von Self-Attention im Decoder wird Masked Self-Attention bezeichnet. Üblich wird auch diese Form in einer Multi-Head-Konstellation implementiert.
Die Einbettung des Multi-Head-Self-Attention-Moduls in einen Decoder-Block ist in Abbildung 3-6 beschrieben. GPT-3 realisiert ein LLM, das aus einem Decoder mit insgesamt 96 Decoder-Blöcken besteht. In jedem dieser Blöcke werden 96 Masked Self-Attention Heads parallelgeschaltet. Die Länge der Tokenembeddings am Eingang und Ausgang der Blöcke ist 12.888. Insgesamt müssen in dieser Architektur ca. 175 Milliarden Gewichte in den neuronalen Verbindungen gelernt werden. Für das Training wurden 5 große Textkorpora – Common Crawl, WebText2, Books1, Books2 und Wikipedia – mit einer Größe von insgesamt 600 GByte eingesetzt. Anzumerken ist, dass für das Training eines LLM nur zusammenhängende Texte notwendig sind, denn das neuronale Netz wird so trainiert, dass für eine Eingabesequenz jeweils das wahrscheinlichste Folgewort vorhergesagt wird. In zusammenhängenden Texten sind die jeweiligen Folgewörter, also die im Training notwendigen Soll-Ausgaben, bekannt – es braucht demnach keine durch Menschen vorgenommene Annotation. Diese Form von Lernen nennt man Self-Supervised Learning.
10 BERT ist ein Akronym für »Bidirectional Encoder Representations from Transformers«, eine von Google...
Erscheint lt. Verlag | 24.6.2024 |
---|---|
Verlagsort | Freiburg |
Sprache | deutsch |
Themenwelt | Wirtschaft ► Betriebswirtschaft / Management ► Unternehmensführung / Management |
Schlagworte | Anwendungsfelder Künstliche Intelligenz • Christof Seeger • digitale Transformation • Funktionsweisen von KI • Geschichte der Künstlichen Intelligenz • Industrie 4.0 • KI • KI in der Praxis • Künstliche Intelligenz • Künstliche Intelligenz für den Mittelstand • Künstliche Intelligenz im Mittelstand • künstliche intelligenz in der praxis • Mittelstand • Nutzen von KI • rechtliche Aspekte von KI |
ISBN-10 | 3-7910-6227-1 / 3791062271 |
ISBN-13 | 978-3-7910-6227-3 / 9783791062273 |
Informationen gemäß Produktsicherheitsverordnung (GPSR) | |
Haben Sie eine Frage zum Produkt? |
Größe: 12,6 MB
DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.
Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich