c't KI-Praxis (eBook)

Mit Künstlicher Intelligenz produktiv arbeiten

c't-Redaktion (Autor)

eBook Download: EPUB

2023 | 1. Auflage
164 Seiten
Heise Zeitschriften Verlag
978-3-95788-355-1 (ISBN)

Das Sonderheft c't KI-Praxis liefert Tests und praktische Anleitungen für die Arbeit mit Chatbots. Es erklärt, warum Sprachmodelle Fehler machen und wie man sie verringern kann. Dies hilft nicht nur, wenn man Fragen und Aufträge an einen der online angebotenen Chatbots übermittelt. Will oder darf man beispielsweise aus Datenschutzgründen die Cloud-Dienste nicht nutzen, kann man sich auch eine eigene Sprach-KI einrichten. Die c't-Redaktion erklärt, wo man ein geeignetes Sprachmodell findet, wie man es lokal hostet und bei welchen Dienstleistern man es hosten kann. Dass generative KI immer produktiver einsetzbar ist, birgt Chancen und Risiken zugleich. Um Chancen zu nutzen und Risiken zu minimieren, helfen geeignete Spielregeln für den KI-Einsatz in Schule, Ausbildung und Beruf.

c't magazin für computertechnik ist der meistabonnierte Computertitel Europas. Seit über 40 Jahren zeichnet sich c't durch thematisch vielfältigen, fachlich fundierten und redaktionell unabhängigen Journalismus aus. Über 80 Experten berichten regelmäßig über aktuelle Entwicklungen im IT-Bereich und nehmen im c't-Testlabor die neueste Hard- und Software unter die Lupe. Online bietet c't Computerprofis und anspruchsvollen Anwendern unter anderem eine umfassende Sammlung von Tipps und Tricks für den PC-Einsatz, Leseproben aus Magazinartikeln, umfassende Serviceleistungen sowie Informationen rund um das Magazin (z. B. Recherche im Heftarchiv). Abgerundet wird auch dieses Angebot durch ein eigenes Forum.

Freie Sprach-KIs ohne Cloud betreiben

LLaMA, Alpaca, Vicuna: In Netz finden sich haufenweise mittelgroße Sprachmodelle mitsamt allen Parametern. Die laufen auch auf dem eigenen Rechner.

Von Pina Merkert

Bild: Moritz Reichartz

Nimm mir Arbeit ab, KI: „Formuliere mir eine freundliche Mail an den Support mit einer Nachfrage, wo mein Paket mit Gleitcreme abgeblieben ist.“ – Manche Aufgaben an KI-Sprachmodelle will man nicht so gern an einen Clouddienst schicken. Firmen können sogar rechtliche Probleme bekommen, wenn sie Text mit personenbezogenen Daten außerhalb der EU von KI lesen lassen. Deswegen muss man aber nicht auf Sprach-KI verzichten. Open-Source-Modelle, also neuronale Netze, deren Parameter öffentlich verfügbar sind, laufen auch ganz ohne Cloud auf der eigenen Hardware.

Die Qualität der Antworten kommt dabei durchaus an die des Sprachmodells GPT-3.5 des kostenlosen ChatGPT heran. Zusätzlich bieten die freien Modelle viel mehr Möglichkeiten, weil es Dutzende auf verschiedene Datensätze feingetunte, also nachtrainierte Varianten gibt und weil man volle Kontrolle über den Prompt hat. Mit einem eigenen Prompt kann man einem KI-Chatpartner ruckzuck zynische oder lustige Antworten entlocken, verschiedene Sprachstile vorgeben oder aktuelle Kontextinformationen, beispielweise aus einer eigenen-Datenbank vor dem Chat mitgeben.

Live on the bleeding edge

von Pina Merkert

Es ist toll, dass man inzwischen mit gigantisch großen Sprachmodellen auf dem eigenen Rechner herumspielen kann. Die Modelle sind aber alle noch sehr neu und die Software, um sie auszuführen, ist ständigen Änderungen unterworfen. Das GGML-Format hat dieses Jahr schon drei Versionen durchlaufen und es kann einem leicht passieren, dass das Datenformat eines heruntergeladenen Modells nun doch wieder nicht zur neuesten Version von llama.cpp passt.

Diese Software öffnet sich gerade durch die Umstellung auf die GGML-Variante GGUF für andere Architekturen (vor allem, um gleichzeitig LLaMA-1 und -2 zu unterstützen). Für die nicht auf LLaMA aufbauenden Falcon-Modelle gibt es aber längst einen Fork namens ggllm.cpp, bei dem nicht klar ist, ob er durch GGUF obsolet wird.

Das sind nur Beispiele für die Schnelllebigkeit der gesamten Software-Infrastruktur. Dass Bibliotheken mit neuen CUDA-Versionen funktionieren, ist ein Stück weit Glückssache. Neue Torch-Versionen können Einfluss auf Bibliotheken haben, die Torch gar nicht benutzen. Wrapper und Helper werden oft für eine bestimmte Version geschrieben und dann nicht weiter gepflegt, weil Entwickler auf ein anderes Basismodell gewechselt sind.

Man kann sich momentan weder auf stabile APIs noch auf Langzeit-Support verlassen. Bibliotheken und Frontends funktionieren meist nur dann zusammen, wenn die Entwickler genau mit dieser Kombination gearbeitet haben. Die Information, was zusammenarbeitet, ist aber schwer zu finden und fast nie dokumentiert.

Wir haben bei unserer Recherche Tage damit verschwendet zu versuchen, Torch für CUDA 12.2 zu kompilieren, llama.cpp mit dem Visual-Studio-Compiler zu übersetzen und das Python-Binding zu llama.cpp mit dessen Low-Level-API für einen browserbasierten Chat zu benutzen. Meist hat etwas funktioniert, aber nicht alles und wir mussten die Recherche abbrechen, weil wir niemandem zumuten wollten, mit eigenen Patches Code zu flicken, der noch nicht reif für eine halbwegs stressfreie Nutzung ist.

Probieren Sie die hier erwähnten Modelle gerne aus. Es macht Spaß zu experimentieren und ein Stück weit entwickelt man ein Gefühl dafür, wohin sich die Sprachmodell-KI-Community gerade entwickelt. Wir empfehlen aber nicht zu viel Zeit in einzelne Experimente zu stecken. Für 99 Prozent der Nutzer lohnt es sich zu warten, bis die Software gereift ist und nicht mehr irgendwo zwischen einem Technical Preview und einer Alpha-Version rangiert.

Wir geben Ihnen eine kleine Tour durch den Wald an frei verfügbaren Sprachmodellen und erklären die Installation von llama.cpp, einem Programm für die Kommandozeile, mit der sie sich einfach nutzen lassen.

Wollviecher überall

Anders als OpenAI und Google veröffentlichte die KI-Forschungsabteilung von Meta (Facebook) ihre LLaMA-Modelle im Februar 2023 mit sämtlichen Parametern. LLaMA nutzt genau wie GPT und Bart auf gigantischen Mengen Text vortrainierte Transformer [1] für enorm große Sprachmodelle. Zur gleichen Zeit erschienen Modelle mit 7, 13, 33 und 65 Milliarden Parametern. Meta wollte die Parameter eigentlich nur anderen Forschern zur Verfügung stellen, aber bereits einen Tag nach dem Release standen sie an mehreren Orten im Netz zum Download bereit.

Kein PyTorch, kein Training

Außer Google nutzen ziemlich alle Forschungsgruppen das Framework PyTorch, um ihre Modelle zu strukturieren und zu trainieren. LLaMA und alle nachtrainierten Varianten wie Alpaca und Guanaco sind Torch-Modelle. Nur leider ist die Installation von Torch nicht trivial, weil man je nach Hardware vorab unterschiedliche Bibliotheken installieren muss. Besonders schwer ist es beispielsweise, mit PyTorch volle Hardwarebeschleunigung bei M1- und M2-Chips von Apple hinzubekommen.

Dazu kommt, dass sich neuronale Netze nur dann trainieren lassen, wenn die Parameter in einem Zahlenformat vorliegen, das auch sehr kleine Veränderungen an den Werten darstellen kann. Das ist nötig, weil das Training in winzigen, aber dafür vielen Schritten vorangeht. Wer selbst schon Netze trainiert hat, weiß, dass das Training nämlich schnell instabil wird, wenn man die Lernrate zu hoch einstellt, was im Endeffekt auf zu große Schritte hinausläuft.

Wenn Sie überschlagen, wie viel Speicher 7, 13, 40 oder 75 Milliarden Parameter belegen wenn jede Zahl 16 Bit lang ist (inzwischen wird meist im Format bfloat16 statt mit float32 trainiert), stellen Sie fest, dass der Grafikspeicher und oft sogar der gesamte Hauptspeicher des PC ruck, zuck überlaufen. In der Praxis heißt das: Die meisten Modelle können Sie auf dem PC nicht trainieren und nicht feintunen (Parameter Efficient Fine Tuning – PEFT ist zwar möglich, der Trick lässt die Original-Parameter aber auch unangetastet). Die Summe dieser Schwierigkeiten ist auch der Grund, warum wir das „kleine“ Falcon-Modell mit 7 Milliarden Parametern bisher nur in Google-Colab, also in der Cloud ausgeführt hatten (siehe nachfolgenden Artikel).

Fürs Inferencing, also das Benutzen eines schon trainierten Modells, muss die Software aber keine kleinen Schritte darstellen können. Multipliziert man die Neuronen-Aktivierungen mit Zahlen deutlich größer 1, kann man sogar mit ganzzahligen Gewichten weiterrechnen. Ganzzahlen berechnen sowohl CPUs als auch GPUs mit weniger Taktzyklen und wenn die wenige Bits lang sind, passen mehr davon nebeneinander in die Register der Vektor-Einheiten. Ein Modell so umzubauen, dass es mit kurzen Ganzzahlen rechnet, bezeichnet man als Quantisierung [2]. Für den Preis nicht trainierbar zu sein, lassen sich quantisierte Modelle viel schneller und auf weniger komplexer Hardware berechnen und verbrauchen viel weniger Speicher.

Die Entwickler von llama.cpp bezeichnen das Programm als Spielwiese für die Entwicklung der GGML-Bibliothek. GGML ist gleichzeitig ein Quantisierungsalgorithmus und ein Datenformat, um die Parameter von KI-Modellen zusammen mit Metainformationen zur Architektur in eine Datei zu packen. Beim Quantisieren ergibt sich schnell die Notwendigkeit für so ein Datenformat, weil das gleiche neuronale Netz an verschiedenen Stellen mit unterschiedlich langen Datentypen hantieren kann und bei großen Modellen viele Metainformationen anfallen, die man ohnehin gemeinsam mit den Parametern teilen muss.

Das Vortrainieren so großer Modelle kostet Gigawattstunden an Strom und erfordert gut ausgestattete Rechenzentren. Diversen Forschungsgruppen fehlt deshalb häufig das Geld, eigene Modelle mit zufällig initialisierten Parametern neu zu trainieren. Mit LLaMA stand aber plötzlich ein trainiertes Modell zur Verfügung, das auch kleine Teams in Tagen auf diversen Datensätzen nachtrainieren (feintunen) konnten.

Einen besonders dreisten Weg beschritt eine Gruppe von der Stanford-Universität. Sie nutzten das API von OpenAI, um sich von ChatGPT zuerst Tausende Fragen erzeugen und danach auch beantworten zu lassen. Mit dem so eingesammelten Datensatz trainierten sie das kleinste LLaMA-Modell mit 7 Milliarden Parametern nach. Das Ergebnis war eine viel kleinere KI als ChatGPT (1/25 an Speicherbedarf), die aber fast genauso viel wusste und fast genauso gut schreiben konnte. Wegen der wolligen Verwandtschaft mit LLaMA nannten sie das neue Modell Alpaca.

Mehr Modelle, mehr Datensätze

Forschungsgruppen und Open-Source-Projekte begannen nach dem Erscheinen direkt, LLaMA auf eigenen Datensätzen feinzutunen. Datensätze wie Orcas, OpenAssistant, Falcon RefinedWeb und ShareGPT sind für sich alleine aber meist zu...

Erscheint lt. Verlag	15.11.2023
Sprache	deutsch
Themenwelt	Mathematik / Informatik ► Informatik
ISBN-10	3-95788-355-5 / 3957883555
ISBN-13	978-3-95788-355-1 / 9783957883551

Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?

EPUB (Wasserzeichen)
Größe: 37,1 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.