LLMs: Was ist ein Large Language Model?

Eine neuere Technologie, Large Language Models (LLMs) ein Token oder eine Sequenz von Tokens vorhersagen, manchmal vorhersagenden Tokens. Ein Token kann ein Wort, ein Unterwort (eine Teilmenge von ein Wort) oder sogar ein einzelnes Zeichen. LLMs treffen viel bessere Vorhersagen als N-Gramm-Sprachmodelle oder wiederkehrende neuronale Netzwerke aus folgenden Gründen:

  • LLMs enthalten weitaus mehr Parameter als wiederkehrende Modelle.
  • LLMs erfassen viel mehr Kontext.

In diesem Abschnitt wird die erfolgreichste und am weitesten verbreitete Architektur vorgestellt. zum Erstellen von LLMs: Transformer.

Was ist ein Transformator?

Transformer sind die hochmoderne Architektur für eine Vielzahl von Language Model-Anwendungen wie die Übersetzung:

Abbildung 1: Die Eingabe lautet: Ich bin ein guter Hund. Ein Transformer-basiertes
            Translator wandelt diese Eingabe in das Ergebnis um: Je suis un bon
            chien. Das ist derselbe Satz, der ins Französische übersetzt wurde.
Abbildung 1. Eine auf Transformer basierende Anwendung für die Übersetzung von Vom Englischen ins Französische.

 

Volltransformatoren bestehen aus einem Encoder und einem Decoder:

  • Ein Encoder konvertiert in eine Zwischendarstellung umwandeln. Ein Encoder ist eine enorme neuronales Netz.
  • Ein Decoder führt eine Conversion aus. diese Zwischendarstellung in nützlichen Text umzuwandeln. Ein Decoder ist auch ein ein riesiges neuronales Netz.

Zum Beispiel in einem Übersetzer:

  • Der Encoder verarbeitet den Eingabetext (z. B. einen englischen Satz) in eine zwischengeschaltete Repräsentation.
  • Der Decoder wandelt diese Zwischendarstellung in Ausgabetext um (für dem entsprechenden französischen Satz).
Abbildung 2. Der Transformer-basierte Übersetzer
beginnt mit einem Encoder,
            mit der eine Zwischendarstellung eines Englischen
            Satz. Ein Decoder wandelt diese Zwischendarstellung in
            ein französischer Satz.
Abbildung 2. Ein vollständiger Transformer enthält sowohl einen Encoder als auch einen Decoder.

 

Was ist Selbstaufmerksamkeit?

Um den Kontext zu verbessern, stützen sich Transformer stark auf ein Konzept namens Selbstaufmerksamkeit. Im Namen jedes Eingabe-Tokens fordert Selbstaufmerksamkeit effektiv auf, folgende Frage:

„Wie stark beeinflussen die einzelnen Eingabe-Tokens die Interpretation Tokens?“

Das „self“ in „Selbstaufmerksamkeit“ auf die Eingabesequenz bezieht. Etwas Aufmerksamkeit der Gewichtungsbeziehungen von Eingabetokens zu Tokens in einer Ausgabesequenz wie einer Übersetzung oder Tokens in einer anderen Sequenz. Aber nur Selbstachtsamkeit gewichtet die Bedeutung von Beziehungen zwischen Tokens in der Eingabesequenz.

Nehmen wir zur Vereinfachung an, dass jedes Token aus einem Wort besteht und der vollständige Kontext nur aus einem einzigen Satz besteht. Betrachten Sie den folgenden Satz:

The animal didn't cross the street because it was too tired.

Der vorangehende Satz besteht aus elf Wörtern. Jedes der elf Wörter ist auf die anderen zehn Wörter achten und sich fragen, ist für sich selbst wichtig. Beachten Sie beispielsweise, dass der Satz das Pronomen enthält. it. Pronomen sind oft mehrdeutig. Das Pronomen it bezieht sich in der Regel auf ein aktuelle Substantiv oder Nominalphrase, die im Beispielsatz Bezieht sich es auf das Tier oder die Straße?

Der Selbstaufmerksamkeitsmechanismus bestimmt die Relevanz jedes Wortes in der Nähe für die das Pronomen it. Abbildung 3 zeigt die Ergebnisse – je blauer die Linie, desto Es ist wichtig, dass das Wort für das Pronomen ist. Das heißt, animal ist mehr als street für das Pronomen it wichtig ist.

<ph type="x-smartling-placeholder">
</ph> Abbildung 3: Die Relevanz jedes der elf Wörter im Satz:
            „Das Tier ist nicht über die Straße gekommen, weil es zu müde war.“
            zum Pronomen „it“ hinzu. Das Wort „Tier“ ist am relevantesten für
            das Pronomen „it“.
            <ph type="x-smartling-placeholder">
</ph> Abbildung 3: Selbstachtung des Pronomens it. Von <ph type="x-smartling-placeholder"></ph> Transformer: Eine neuartige neuronale Netzwerkarchitektur für Sprachverständnis

 

Nehmen wir dagegen an, dass sich das letzte Wort des Satzes wie folgt ändert:

The animal didn't cross the street because it was too wide.

In diesem überarbeiteten Satz würde die Selbstaufmerksamkeit street hoffentlich als relevanter als animal für das Pronomen it.

Einige Mechanismen zur Selbstaufmerksamkeit sind bidirektional. Sie Relevanzwerte für Tokens vor und nach dem Wort berechnen, an denen Sie teilgenommen haben. In Abbildung 3 sehen Sie beispielsweise, dass Wörter auf beiden Seiten it geprüft werden. Ein bidirektionaler Selbstaufmerksamkeitsmechanismus Kontext aus Wörtern auf beiden Seiten des Wortes, das behandelt wird. Im Gegensatz dazu unidirektionale Selbstaufmerksamkeitsmechanismen können nur Kontext aus Wörtern sammeln. auf einer Seite des Wortes, das behandelt wird. Bidirektionale Selbstaufmerksamkeit ist besonders nützlich für Darstellungen ganzer Sequenzen, während Anwendungen, die Token für Token generieren, erfordern eine unidirektionale Selbstaufmerksamkeit. Encoder nutzen also bidirektionale Selbstaufmerksamkeit, und Decoder verwenden unidirektional.

Was ist mehrköpfige Selbstaufmerksamkeit?

Jede Selbstaufmerksamkeitsschicht besteht in der Regel aus mehreren Köpfe zur Selbstaufmerksamkeit. Die Ausgabe einer Ebene ist eine mathematische Operation. (z. B. gewichteter Durchschnitt oder Punktprodukt) der Ausgabe des mit unterschiedlichen Köpfen.

Da jede Selbstaufmerksamkeitsschicht mit Zufallswerten initialisiert wird, unterschiedliche Beziehungen zwischen den einzelnen Wörtern, die behandelt werden, und dem Wörter in der Nähe. Die oben beschriebene Selbstaufmerksamkeitsschicht Abschnitt über die Bestimmung, auf welches Substantiv das Pronomen bezog, auf das es verweist. Andere Schichten der Selbstaufmerksamkeit lernen jedoch möglicherweise, jedes Wort miteinander verbinden oder andere Interaktionen lernen.

Warum sind Transformers so groß?

Transformatoren enthalten Hunderte von Milliarden oder sogar Billionen parameters Dieser Kurs enthält allgemein empfohlene Gebäudemodelle mit kleineren statt Parametern mit einer größeren Anzahl von Parametern. Schließlich verbraucht ein Modell mit einer kleineren Anzahl von Parametern weniger Ressourcen, Vorhersagen treffen zu können, als ein Modell mit einer größeren Anzahl von Parametern. Untersuchungen zeigen jedoch, dass Transformer mit mehr Parametern ist die Leistung von Transformern mit weniger Parametern konstant.

Aber wie generiert ein LLM Text?

Sie haben gesehen, wie Forschende LLMs trainieren, um ein oder zwei fehlende Wörter vorherzusagen. nicht beeindruckt. Schließlich ist das Vervollständigen von Wörtern im Grunde in verschiedene Text-, E-Mail- und Authoring-Software eingebaut. Sie fragen sich vielleicht, wie LLMs Sätze, Absätze oder Haikus über Arbitrage.

LLMs sind im Wesentlichen Mechanismen zur automatischen Vervollständigung, die automatisch Tausende von Tokens vorhersagen (abschließen). Stellen Sie sich zum Beispiel einen Satz vor, gefolgt von einem maskierten Satz:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

Ein LLM kann Wahrscheinlichkeiten für den maskierten Satz generieren, einschließlich:

Probability Wort(e)
3,1 % Zum Beispiel kann er sitzen, bleiben und um.
2,9 % Zum Beispiel weiß er, wie man sitzt, bleibt und um.

Ein ausreichend großes LLM kann Wahrscheinlichkeiten für Absätze und ganze Aufsätzen. Sie können sich die Fragen von Nutzenden an ein LLM Satz gefolgt von einer imaginären Maske. Beispiel:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

Das LLM generiert Wahrscheinlichkeiten für verschiedene mögliche Antworten.

Ein weiteres Beispiel: Ein LLM trainierte mit einer riesigen Anzahl von mathematischen Probleme“ kann den Anschein eines komplexen mathematischen Denkens erwecken. Diese LLMs führen jedoch im Grunde nur eine automatische Vervollständigung eines Wortproblem-Prompts aus.

Vorteile von LLMs

LLMs können klaren, leicht verständlichen Text für eine Vielfalt an Zielgruppen. LLMs können Vorhersagen zu Aufgaben treffen, die sie sind auf denen explizit trainiert wird. Einige Forscher behaupten, dass LLMs auch Vorhersagen für Eingaben, mit denen sie nicht explizit trainiert wurden, die Forscher diese Behauptung widerlegen.

Probleme mit LLMs

Das Training eines LLM bringt viele Probleme mit sich, darunter:

  • Umfangreiches Trainings-Dataset
  • Der Verbrauch mehrerer Monate, enormer Rechenressourcen und Elektrizität.
  • Herausforderungen der Parallelität lösen

Die Verwendung von LLMs zum Ableiten von Vorhersagen verursacht die folgenden Probleme:

  • LLMs Halluzinat was bedeutet, dass ihre Vorhersagen häufig Fehler enthalten.
  • LLMs verbrauchen enorme Rechenressourcen und Strom. Beim Trainieren von LLMs mit größeren Datasets die Menge an Ressourcen, die für die Inferenz benötigt werden, Sätze erfordern mehr Trainingsressourcen.
  • Wie alle ML-Modelle können LLMs alle Arten von Verzerrungen aufweisen.

Übung: Wissenstest

Angenommen, ein Transformer wird mit einer Milliarde Dokumenten trainiert, Tausende von Dokumenten, die mindestens eine Instanz des Wortes enthalten Elefanten. Welche der folgenden Aussagen treffen wahrscheinlich zu?
Akazienbäume, die ein wichtiger Bestandteil der Nahrung eines Elefanten sind, nach und nach eine hohe Selbstaufmerksamkeit, wenn das Wort Elefanten.
Ja. Dadurch kann der Transformer Fragen zu der Nahrung eines Elefanten.
Der Transformer verbindet das Wort Elefanten mit verschiedenen Redewendungen, die das Wort Elefanten enthalten.
Ja, das System wird damit beginnen, hohe Selbstaufmerksamkeitswerte zu verknüpfen. zwischen dem Wort Elefanten und anderen Wörtern in Elefantenredewendungen.
Der Transformer lernt nach und nach, sarkastische oder ironische Verwendung des Wortes Elefant in Trainingsdaten.
Ausreichend große Transformatoren, die auf einer ausreichend breiten können sie Sarkasmus, Humor und Ironie. Statt Sarkasmus und Ironie zu ignorieren, Der Transformer lernt daraus.