Large Language Models

Was ist ein Sprachmodell?

Ein Sprachmodell schätzt die Wahrscheinlichkeit eines Tokens. oder Abfolge von Tokens, die innerhalb einer längeren Tokensequenz auftreten. Ein Token kann ein Wort, ein Unterwort (eine Teilmenge eines Wortes) oder auch ein einzelnes Zeichen sein.

Betrachten Sie den folgenden Satz und die Tokens, die ihn abschließen könnten:

When I hear rain on my roof, I _______ in my kitchen.

Ein Language Model bestimmt die Wahrscheinlichkeiten verschiedener Tokens oder Sequenzen von Tokens ein, um diese Lücke zu vervollständigen. Beispiel: Die Wahrscheinlichkeitstabelle enthält einige mögliche Tokens und ihre Wahrscheinlichkeiten:

Probability Token(s)
9,4% Suppe kochen
5,2 % einen Wasserkocher aufwärmen
3,6% Cower
2,5 % Nickerchen
2,2 % Relaxen

In einigen Situationen kann die Tokensequenz ein ganzer Satz sein, oder sogar einen ganzen Aufsatz.

Eine Anwendung kann anhand der Wahrscheinlichkeitstabelle Vorhersagen treffen. Die Vorhersage könnte die höchste Wahrscheinlichkeit sein (z. B. „Suppe kochen“) oder eine zufällige Auswahl aus Tokens mit einer Wahrscheinlichkeit, die größer als eine bestimmte Grenzwert.

Die Schätzung der Wahrscheinlichkeit dafür, was die Lücke in einer Textsequenz ausfüllt, kann auf komplexere Aufgaben ausgeweitet werden, einschließlich:

  • Text wird generiert.
  • Text von einer Sprache in eine andere übersetzen
  • Dokumente zusammenfassen

Durch die Modellierung der statistischen Muster von Tokens entwickeln moderne Sprachmodelle leistungsstarke interne Repräsentationen von Sprache eine plausible Sprache.

N-Gramm-Sprachmodelle

N-Gramme sind geordnete Wortfolgen. zum Erstellen von Sprachmodellen, wobei N die Anzahl der Wörter in der Sequenz ist. Wenn z. B. N 2 ist, wird das N-Gramm als 2-Gramm (oder ein bigram); Wenn N 5 ist, ist das N-Gramm und nennt sich 5-Gramm. Ausgehend von der folgenden Formulierung in einem Trainingsdokument:

you are very nice

Die resultierenden 2 Gramme lauten wie folgt:

  • du bist
  • sind sehr
  • sehr schön

Wenn N 3 ist, wird das N-Gramm als 3-Gramm (oder ein Trigramm). Bei derselben Wortgruppe Daraus ergibt sich Folgendes:

  • du bist sehr
  • sind sehr nett

Bei der Eingabe von zwei Wörtern kann ein auf 3Grammen basierendes Language Model vorhersagen, die Wahrscheinlichkeit des dritten Wortes. Nehmen wir zum Beispiel die folgenden beiden Wörter:

orange is

Ein Sprachmodell untersucht alle 3-Gramme, die aus seinem Training abgeleitet wurden. Korpus, die mit orange is beginnen, um das wahrscheinlichste dritte Wort zu bestimmen. Hunderte von 3 Gramm könnten mit den zwei Wörtern orange is beginnen, aber du kannst konzentrieren wir uns ausschließlich auf die beiden folgenden Möglichkeiten:

orange is ripe
orange is cheerful

Bei der ersten Möglichkeit (orange is ripe) handelt es sich um die orangefarbene Frucht, während bei der zweiten Möglichkeit (orange is cheerful) die Farbe Orange.

Kontext

Menschen können relativ lange Kontexte aufbewahren. Bei der Wiedergabe von Akt 3 eines Stücks Wissen über die in Akt 1 eingeführten Zeichen zu behalten. In ähnlicher Weise Die Pointe eines langen Witzes bringt dich zum Lachen, weil du dich an den Kontext erinnern kannst von der Einrichtung des Witzes.

In Language Models sind Kontext hilfreiche Informationen vor oder nach dem Zieltoken können. Kontext kann einem Sprachmodell helfen, zu bestimmen, ob „orange“ bezieht sich auf eine Zitrusfrucht oder eine Farbe.

Kontext kann einem Sprachmodell helfen, bessere Vorhersagen zu treffen. 3 Gramm genug Kontext? Leider ist der einzige Kontext ein 3-Gramm-Wort, sind die ersten beiden Wörter. Die beiden Wörter orange is beispielsweise um genügend Kontext zu liefern, damit das Sprachmodell das dritte Wort vorhersagen kann. Aufgrund von fehlendem Kontext machen Language Models, die auf 3-Grammen basieren, viele Fehler.

Längere N-Gramme liefern auf jeden Fall mehr Kontext als kürzere N-Gramme. Wenn N jedoch wächst, nimmt das relative Vorkommen jeder Instanz ab. Wenn N sehr groß wird, hat das Sprachmodell normalerweise nur eine einzige von n Tokens, was bei der Verwendung der Vorhersage des Zieltokens.

Recurrent neuronale Netzwerke

Recurrent Neural Netzwerke mehr Kontext liefern als N-Gramme. Ein wiederkehrendes neuronales Netzwerk ist eine Art von neuronalen Netz, das auf eine Reihe von Tokens. Ein rekurrentes neuronales Netzwerk kann aus jedem Wort ausgewählten Kontext nach und nach lernen (und lernen, ihn zu ignorieren). in einem Satz zusammenfassen, ähnlich wie beim Hören eines Sprechens. Ein großes rekurrentes neuronales Netzwerk kann durch eine Passage mehrerer Sätze.

Auch wenn rekuktive neuronale Netzwerke mehr Kontext lernen als N-Gramme, von nützlichen kontextabhängigen neuronalen Netzen erkennen, eingeschränkt. Wiederkehrende neuronale Netzwerke werten Informationen „Token für Token“ aus. Large Language Models – das Thema der nächsten – den gesamten Kontext auf einmal auswerten.

Beachten Sie, dass das Training recurrent neuronaler Netzwerke für lange Kontexte durch der verschwindende Farbverlauf

Übung: Wissenstest

Welches Sprachmodell liefert bessere Vorhersagen für englischen Text?
  • Ein auf 6 Gramm basierendes Language Model
  • Ein auf 5 Gramm basierendes Language Model
Die Antwort hängt von Umfang und Vielfalt der Schulung ab. festgelegt.
Wenn das Trainings-Dataset Millionen verschiedener Dokumente umfasst, das Modell, das auf 6 Gramm basiert, wahrscheinlich die Leistung des Modells übertrifft basierend auf 5 Gramm.
Das auf 6 Grammen basierende Language Model.
Dieses Sprachmodell verfügt über mehr Kontext, aber wenn dieses Modell nicht mit vielen Dokumenten trainiert hat, werden die meisten selten sind.
Das Language Model, das auf 5-Grammen basiert.
Dieses Language Model hat weniger Kontext, daher ist es unwahrscheinlich, das Language Model bei 6-Grammen übertreffen.