Diese Seite wurde von der Cloud Translation API übersetzt.

LLMs: Was ist ein Large Language Model?

Eine neuere Technologie, Large Language Models (LLMs), sagt ein Token oder eine Sequenz von Tokens vorher, manchmal viele Absätze mit vorhergesagten Tokens. Ein Token kann ein Wort, ein Teilwort (eine Teilmenge eines Worts) oder sogar ein einzelnes Zeichen sein. LLMs treffen viel bessere Vorhersagen als N-Gramm-Sprachmodelle oder rekurrenten neuronalen Netze, weil:

LLMs enthalten viel mehr Parameter als rekurrenten Modelle.
LLMs erfassen viel mehr Kontext.

In diesem Abschnitt wird die erfolgreichste und am weitesten verbreitete Architektur zum Erstellen von LLMs vorgestellt: der Transformer.

Was ist ein Transformer?

Transformer sind die modernste Architektur für eine Vielzahl von Anwendungen für Sprachmodelle, z. B. für die Übersetzung:

Abbildung 1: Die Eingabe lautet: Ich bin ein guter Hund. Ein Transformer-basierter Übersetzer transformiert diese Eingabe in die Ausgabe: Je suis un bon chien. Das ist derselbe Satz, nur auf Französisch. — **Abbildung 1.** Eine Transformer-basierte Anwendung, die vom Englischen ins Französische übersetzt.

Vollständige Transformer bestehen aus einem Encoder und einem Decoder:

Ein Encoder wandelt Eingabetext in eine Zwischenrepräsentation um. Ein Encoder ist ein riesiges neuronales Netzwerk.
Ein Decoder wandelt diese Zwischenrepräsentation in nützlichen Text um. Ein Decoder ist auch ein riesiges neuronales Netzwerk.

Zum Beispiel in einem Übersetzer:

Der Encoder verarbeitet den Eingabetext (z. B. einen englischen Satz) in eine Zwischenrepräsentation.
Der Decoder wandelt diese Zwischenrepräsentation in Ausgabetext um (z. B. den entsprechenden französischen Satz).

Abbildung 2. Der Transformer-basierte Übersetzer beginnt mit einem Encoder, der eine Zwischenrepräsentation eines englischen Satzes generiert. Ein Decoder wandelt diese Zwischenrepräsentation in einen französischen Ausgabesatz um. — **Abbildung 2.** Ein vollständiger Transformer enthält sowohl einen Encoder als auch einen Decoder.

Klicken Sie auf das Symbol, um mehr über partielle Transformer zu erfahren.

In diesem Modul geht es um vollständige Transformer, die sowohl einen Encoder als auch einen Decoder enthalten. Es gibt aber auch Architekturen, die nur einen Encoder oder nur einen Decoder enthalten:

Bei Encoder-only-Architekturen wird Eingabetext in eine Zwischenrepräsentation (oft eine Einbettungsebene) abgebildet. Anwendungsfälle für Architekturen, die nur Encoder verwenden:
- Vorhersage eines beliebigen Tokens in der Eingabesequenz (was die herkömmliche Rolle von Sprachmodellen ist).
- Erstellen einer komplexen Einbettung, die als Eingabe für ein anderes System wie einen Classifier dienen könnte.
Bei Architekturen, die nur Decoder verwenden, werden neue Tokens aus dem bereits generierten Text generiert. Modelle, die nur auf dem Decoder basieren, eignen sich in der Regel hervorragend zum Generieren von Sequenzen. Moderne Modelle, die nur auf dem Decoder basieren, können ihre Generierungsleistung nutzen, um Fortsetzungen von Dialogverläufen und anderen Prompts zu erstellen.

Was ist Selbstaufmerksamkeit?

Um den Kontext zu verbessern, stützen sich Transformer stark auf das Konzept der Self-Attention. Für jedes Eingabetoken wird bei der Self-Attention-Methode im Grunde die folgende Frage gestellt:

„Wie stark beeinflusst jedes andere Eingabetoken die Interpretation dieses Tokens?“

Das „Self“ in „Self-Attention“ bezieht sich auf die Eingabesequenz. Bei einigen Aufmerksamkeitsmechanismen werden Beziehungen von Eingabetokens zu Tokens in einer Ausgabesequenz, z. B. einer Übersetzung, oder zu Tokens in einer anderen Sequenz gewichtet. Bei der Selbstaufmerksamkeit wird jedoch nur die Bedeutung von Beziehungen zwischen Tokens in der Eingabesequenz berücksichtigt.

Der Einfachheit halber gehen wir davon aus, dass jedes Token ein Wort ist und der gesamte Kontext nur einen einzigen Satz umfasst. Betrachten Sie den folgenden Satz:

The animal didn't cross the street because it was too tired.

Der vorherige Satz enthält elf Wörter. Jedes der elf Wörter achtet auf die anderen zehn und fragt sich, wie wichtig jedes dieser zehn Wörter für sich selbst ist. Beachten Sie beispielsweise, dass der Satz das Pronomen it enthält. Pronomen sind oft mehrdeutig. Das Pronomen it bezieht sich in der Regel auf ein kürzlich genanntes Substantiv oder eine Nominalphrase. Auf welches kürzlich genannte Substantiv bezieht sich it im Beispielsatz – das Tier oder die Straße?

Der Self-Attention-Mechanismus bestimmt die Relevanz jedes nahegelegenen Wortes für das Pronomen es. Abbildung 3 zeigt die Ergebnisse. Je blauer die Linie, desto wichtiger ist das Wort für das Pronomen es. Das heißt, Tier ist für das Pronomen es wichtiger als Straße.

Abbildung 3: Die Relevanz jedes der elf Wörter im Satz „Das Tier überquerte die Straße nicht, weil es zu müde war“ für das Pronomen „es“. Das Wort „Tier“ ist am relevantesten für das Pronomen „es“. — **Abbildung 3**: Selbstaufmerksamkeit für das Pronomen es. Aus Transformer: A Novel Neural Network Architecture for Language Understanding.

Angenommen, das letzte Wort im Satz ändert sich wie folgt:

The animal didn't cross the street because it was too wide.

Im überarbeiteten Satz würde die Selbstaufmerksamkeit Straße hoffentlich als relevanter als Tier für das Pronomen es einstufen.

Einige Self-Attention-Mechanismen sind bidirektional. Das bedeutet, dass sie Relevanzwerte für Tokens vor und nach dem Wort berechnen, auf das sich die Aufmerksamkeit richtet. In Abbildung 3 werden beispielsweise Wörter auf beiden Seiten von it untersucht. Ein bidirektionaler Selbstaufmerksamkeitsmechanismus kann also Kontext aus Wörtern auf beiden Seiten des Wortes erfassen, auf das sich die Aufmerksamkeit richtet. Im Gegensatz dazu kann ein unidirektionaler Selbstaufmerksamkeitsmechanismus nur Kontext aus Wörtern auf einer Seite des Wortes erfassen, auf das sich die Aufmerksamkeit richtet. Bidirektionale Self-Attention ist besonders nützlich, um Darstellungen ganzer Sequenzen zu generieren. Anwendungen, die Sequenzen Token für Token generieren, erfordern dagegen unidirektionale Self-Attention. Aus diesem Grund verwenden Encoder bidirektionale Self-Attention, während Decoder unidirektionale Self-Attention verwenden.

Was ist die mehrköpfige, mehrschichtige Selbstaufmerksamkeit?

Jeder Selbstaufmerksamkeitslayer besteht in der Regel aus mehreren Selbstaufmerksamkeitsköpfen. Die Ausgabe einer Ebene ist eine mathematische Operation (z. B. gewichteter Durchschnitt oder Skalarprodukt) der Ausgabe der verschiedenen Köpfe.

Da die Parameter der einzelnen Köpfe mit zufälligen Werten initialisiert werden, können verschiedene Köpfe unterschiedliche Beziehungen zwischen den einzelnen Wörtern und den benachbarten Wörtern lernen. Der im vorherigen Abschnitt beschriebene Self-Attention-Head konzentrierte sich beispielsweise darauf, welches Nomen sich auf das Pronomen es bezog. Andere Self-Attention-Heads in derselben Schicht können jedoch die grammatische Relevanz jedes Worts für jedes andere Wort oder andere Interaktionen lernen.

Ein vollständiges Transformer-Modell stapelt mehrere Self-Attention-Schichten übereinander. Die Ausgabe der vorherigen Ebene wird zur Eingabe für die nächste. Durch das Stapeln kann das Modell nach und nach komplexere und abstraktere Interpretationen des Texts erstellen. Während sich frühere Ebenen möglicherweise auf die grundlegende Syntax konzentrieren, können tiefere Ebenen diese Informationen integrieren, um differenziertere Konzepte wie Stimmung, Kontext und thematische Verbindungen im gesamten Input zu erfassen.

Klicken Sie auf das Symbol, um mehr über Big O für LLMs zu erfahren.

Durch die Selbstaufmerksamkeit wird jedes Wort im Kontext gezwungen, die Relevanz aller anderen Wörter im Kontext zu lernen. Es ist also verlockend, dies als O(N²)-Problem zu bezeichnen, wobei:

N ist die Anzahl der Tokens im Kontext.

Als ob das vorherige Big O nicht schon störend genug wäre, enthalten Transformers mehrere Self-Attention-Layer und mehrere Self-Attention-Heads pro Self-Attention-Layer. Big O ist also:

O(N² · S · D)

Dabei gilt:

S ist die Anzahl der Selbstaufmerksamkeits-Layers.
D ist die Anzahl der Köpfe pro Ebene.

Klicken Sie auf das Symbol, um mehr darüber zu erfahren, wie LLMs trainiert werden.

Sie werden wahrscheinlich nie ein LLM von Grund auf trainieren. Das Training eines LLM für den industriellen Einsatz erfordert enorme Mengen an ML-Expertise, Rechenressourcen und Zeit. Sie haben auf das Symbol geklickt, um mehr zu erfahren, also schulden wir Ihnen eine Erklärung.

Die wichtigste Zutat für die Entwicklung eines LLM ist eine enorme Menge an Trainingsdaten (Text), die in der Regel etwas gefiltert werden. Die erste Phase des Trainings ist in der Regel eine Form des nicht überwachten Lernens anhand dieser Trainingsdaten. Das Modell wird speziell mit maskierten Vorhersagen trainiert. Das bedeutet, dass bestimmte Tokens in den Trainingsdaten absichtlich ausgeblendet werden. Das Modell wird trainiert, indem es versucht, diese fehlenden Tokens vorherzusagen. Angenommen, der folgende Satz ist Teil der Trainingsdaten:

The residents of the sleepy town weren't prepared for what came next.

Zufällige Tokens werden entfernt, z. B.:

The ___ of the sleepy town weren't prepared for ___ came next.

Ein LLM ist nur ein neuronales Netzwerk. Der Verlust (die Anzahl der maskierten Tokens, die das Modell richtig berücksichtigt hat) bestimmt, inwieweit die Backpropagation die Parameterwerte aktualisiert.

Ein Transformer-basiertes Modell, das darauf trainiert ist, fehlende Daten schrittweise vorherzusagen, lernt, Muster und Strukturen höherer Ordnung in den Daten zu erkennen, um Hinweise auf das fehlende Token zu erhalten. Hier ein Beispiel für eine maskierte Instanz:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

Durch das umfangreiche Training mit einer enormen Anzahl maskierter Beispiele kann ein LLM lernen, dass „geerntet“ oder „gepflückt“ mit hoher Wahrscheinlichkeit für das erste Token infrage kommen und „Orangen“ oder „sie“ gute Optionen für das zweite Token sind.

Ein optionaler weiterer Trainingsschritt namens Instruction Tuning kann die Fähigkeit eines LLM verbessern, Anweisungen zu befolgen.

Warum sind Transformer so groß?

Transformer enthalten Hunderte von Milliarden oder sogar Billionen von Parametern. In diesem Kurs wurde generell empfohlen, Modelle mit einer geringeren Anzahl von Parametern zu erstellen. Ein Modell mit einer geringeren Anzahl von Parametern benötigt weniger Ressourcen für Vorhersagen als ein Modell mit einer größeren Anzahl von Parametern. Studien zeigen jedoch, dass Transformer mit mehr Parametern durchweg besser abschneiden als Transformer mit weniger Parametern.

Aber wie generiert ein LLM Text?

Sie haben gesehen, wie Forscher LLMs trainieren, um ein oder zwei fehlende Wörter vorherzusagen, und sind vielleicht nicht beeindruckt. Das Vorhersagen von ein oder zwei Wörtern ist im Grunde die Autovervollständigungsfunktion, die in verschiedene Text-, E‑Mail- und Autorensoftware integriert ist. Sie fragen sich vielleicht, wie LLMs Sätze, Absätze oder Haikus über Arbitrage generieren können.

LLMs sind im Grunde Autovervollständigungsmechanismen, die automatisch Tausende von Tokens vorhersagen (vervollständigen) können. Betrachten Sie beispielsweise einen Satz, gefolgt von einem maskierten Satz:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

Ein LLM kann Wahrscheinlichkeiten für den maskierten Satz generieren, darunter:

Probability	Wort(e)
3,1 %	Er kann beispielsweise sitzen, bleiben und sich auf den Rücken legen.
2,9 %	Er kann zum Beispiel „Sitz“, „Platz“ und „Rolle“.

Ein ausreichend großes LLM kann Wahrscheinlichkeiten für Absätze und ganze Essays generieren. Die Fragen eines Nutzers an ein LLM können als der „gegebene“ Satz gefolgt von einer imaginären Maske betrachtet werden. Beispiel:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

Das LLM generiert Wahrscheinlichkeiten für verschiedene mögliche Antworten.

Ein weiteres Beispiel: Ein LLM, das mit einer großen Anzahl mathematischer Textaufgaben trainiert wurde, kann den Anschein erwecken, dass es komplexe mathematische Schlussfolgerungen zieht. Diese LLMs vervollständigen jedoch im Grunde nur einen Prompt für eine Rechenaufgabe.

Vorteile von LLMs

LLMs können klaren, leicht verständlichen Text für eine Vielzahl von Zielgruppen generieren. LLMs können Vorhersagen für Aufgaben treffen, für die sie explizit trainiert wurden. Einige Forscher behaupten, dass LLMs auch Vorhersagen für Eingaben treffen können, mit denen sie nicht explizit trainiert wurden. Andere Forscher haben diese Behauptung jedoch widerlegt.

Probleme mit LLMs

Das Trainieren eines LLM birgt viele Probleme, darunter:

Zusammenstellung eines riesigen Trainingssets.
Die Erstellung dauert mehrere Monate und erfordert enorme Rechenressourcen und Strom.
Lösen von Parallelitätsproblemen.

Wenn LLMs verwendet werden, um Vorhersagen abzuleiten, treten die folgenden Probleme auf:

LLMs halluzinieren>, d. h., ihre Vorhersagen enthalten oft Fehler.
LLMs verbrauchen enorme Mengen an Rechenressourcen und Strom. Wenn Sie LLMs mit größeren Datasets trainieren, sinkt in der Regel die Menge an Ressourcen, die für die Inferenz erforderlich sind. Allerdings sind für größere Trainingssets mehr Trainingsressourcen erforderlich.
Wie alle ML-Modelle können auch LLMs alle Arten von Bias aufweisen.

Übung: Wissen testen

Angenommen, ein Transformer wird mit einer Milliarde Dokumenten trainiert, darunter Tausende von Dokumenten, die mindestens eine Instanz des Wortes Elefant enthalten. Welche der folgenden Aussagen sind wahrscheinlich richtig?

Akazienbäume, ein wichtiger Bestandteil der Ernährung von Elefanten, erhalten nach und nach einen hohen Selbstaufmerksamkeitswert in Bezug auf das Wort Elefant.

Ja. Dadurch kann das Transformer-Modell Fragen zur Ernährung von Elefanten beantworten.

Der Transformer ordnet das Wort Elefant verschiedenen Redewendungen zu, die das Wort Elefant enthalten.

Ja, das System wird beginnen, hohe Self-Attention-Werte zwischen dem Wort Elefant und anderen Wörtern in Elefanten-Redewendungen zu verknüpfen.

Der Transformer lernt nach und nach, sarkastische oder ironische Verwendungen des Wortes Elefant in Trainingsdaten zu ignorieren.

Ausreichend große Transformer, die mit einem ausreichend breiten Trainingssatz trainiert werden, sind in der Lage, Sarkasmus, Humor und Ironie zu erkennen. Anstatt Sarkasmus und Ironie zu ignorieren, lernt der Transformer daraus.