Einführung in Large Language Models

Sie haben noch keine Erfahrung mit Language Models oder Large Language Models? Sehen Sie sich die folgenden Ressourcen an.

Was ist ein Sprachmodell?

Ein Sprachmodell ist ein maschinelles Lernen, Modell das darauf abzielt, plausible Sprache vorherzusagen und zu generieren. Die automatische Vervollständigung ist ein Language Model an.

Diese Modelle schätzen die Wahrscheinlichkeit eines token oder Sequenz von Tokens, die innerhalb einer längeren Tokensequenz auftreten. Berücksichtigen Sie die folgenden Satz:

When I hear rain on my roof, I _______ in my kitchen.

Wenn Sie davon ausgehen, dass ein Token ein Wort ist, bestimmt ein Language Model Wahrscheinlichkeiten unterschiedlicher Wörter oder Abfolgen von Wörtern, um dieses zu ersetzen Unterstrich setzen. Ein Sprachmodell könnte beispielsweise Folgendes bestimmen: Wahrscheinlichkeiten:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Eine „Sequenz von Tokens“ kann ein ganzer Satz oder eine Reihe von Sätzen sein. Das heißt, ein Language Model könnte die Wahrscheinlichkeit Sätze oder Textblöcke.

Die Schätzung der Wahrscheinlichkeit dafür, was in einer Sequenz als Nächstes kommt, ist für alle Text generieren, Sprachen übersetzen, Fragen beantworten Fragen, um nur ein paar zu nennen.

Was ist ein Large Language Model?

Die Modellierung von menschlicher Sprache in großem Maßstab ist eine hochkomplexe und ressourcenintensive Aufgabe. sich bemühen. Der Weg zu den aktuellen Funktionen von Language Models und Large Language Models gibt es schon seit mehreren Jahrzehnten.

Je größer die Modelle werden, desto komplexer und wirksamer werden sie. Frühe Language Models konnten die Wahrscheinlichkeit eines einzelnen Wortes vorhersagen. modern Large Language Models die Wahrscheinlichkeit von Sätzen, Absätzen oder sogar ganze Dokumente.

Die Größe und Möglichkeiten von Language Models sind in den letzten der Computerarbeitsspeicher, Dataset-Größe und Verarbeitungsleistung zunehmen. effektivere Techniken zur Modellierung längerer Textsequenzen entwickelt.

Wie groß ist die Größe?

Die Definition ist ungenau, aber „groß“. zur Beschreibung von BERT (110 Mio. Parameter) sowie PaLM 2 (bis zu 340 Mrd. Parameter).

Parameter sind die Gewichte das während des Trainings erlernte Modell zur Vorhersage des nächsten Tokens im Sequenz hinzufügen. „Groß“ sich entweder auf die Anzahl der Parameter im Modell oder auf manchmal die Anzahl der Wörter im Dataset.

Transformatoren

Eine wichtige Entwicklung der Sprachmodelle war die Einführung des Transformers, eine Architektur, die auf der Idee Aufmerksamkeit. So war es möglich, längere Sequenzen zu verarbeiten, ein wichtiger Teil der Eingabe, das Lösen von Speicherproblemen, Modelle.

Transformer sind die hochmoderne Architektur für eine Vielzahl von Language Model-Anwendungen wie Übersetzer.

Wenn die Eingabe "I am a good dog." ist, wäre dies ein auf Transformer basierender Übersetzer. transformiert diese Eingabe in die Ausgabe "Je suis un bon chien.", wobei es sich um den den gleichen Satz ins Französische übersetzt.

Full Transformers bestehen aus einem encoder und einem decoder (Decoder) Eine Encoder wandelt Eingabetext in eine Zwischendarstellung um und ein Decoder wandelt diese Zwischendarstellung in nützlichen Text um.

Selbstaufmerksamkeit

Transformer verlassen sich stark auf das Konzept der Selbstaufmerksamkeit. Der eigene Teil des Selbstachtsamkeit bezieht sich des Tokens in einem Korpus. Im Namen jedes Eingabe-Tokens fragt Selbstaufmerksamkeit effektiv: "Wie viel „Spielen alle anderen Eingabe-Tokens für mir?“ Zur Vereinfachung Wir gehen davon aus, dass jedes Token ein Wort ist und der vollständige Kontext ein einzelnes Satz. Betrachten Sie den folgenden Satz:

Das Tier ist nicht über die Straße gegangen, weil es so müde war.

Der vorherige Satz besteht aus elf Wörtern, sodass jedes der 11 Wörter bezahlt wird. auf die anderen zehn Wörter achten und sich fragen, wie wichtig diese zehn Wörter sind. für sie. Der Satz enthält beispielsweise das Pronomen it. Pronomen sind oft mehrdeutig. Das Pronomen it bezieht sich immer auf ein aktuelles Substantiv, Im Beispielsatz, auf das sich das neue Substantiv bezieht, bezieht sich das jedoch auf das Tier. oder die Straße?

Der Selbstaufmerksamkeitsmechanismus bestimmt die Relevanz der Wörter, die in der Nähe das Pronomen it.

Was sind einige Anwendungsfälle für LLMs?

LLMs sind bei der Aufgabe, für die sie entwickelt wurden, hocheffektiv, nämlich die Erzeugung den plausibelsten Text als Antwort auf eine Eingabe. Sie fangen sogar an, sich zu zeigen, gute Leistung bei anderen Aufgaben; z. B. Zusammenfassung, Frage Antworten und Textklassifizierung. Diese werden als Fähigkeiten zum Auftauchen. LLMs können sogar mathematische Aufgaben lösen und Code schreiben (es empfiehlt sich jedoch, Arbeit).

LLMs sind hervorragend darin, menschliche Sprachmuster zu imitieren. Unter anderem sie können Informationen mit verschiedenen Stilen und Tönen kombinieren.

LLMs können jedoch Komponenten von Modellen sein, die mehr als nur Text generieren. Mit LLMs wurden in jüngster Zeit Sentimentdetektoren entwickelt. Klassifikatoren für unangemessene Inhalte und Bildunterschriften erstellen.

Überlegungen zu LLM

So große Modelle haben aber auch ihre Nachteile.

Die größten LLMs sind teuer. Das Training kann Monate dauern. dass sie viele Ressourcen verbrauchen.

In der Regel lassen sie sich auch für andere Aufgaben nutzen.

Trainingsmodelle mit mindestens einer Billion Parametern bringt technische Herausforderungen mit sich. Spezielle Infrastruktur und Programmierung erforderlich, um den Fluss zu den Chips und wieder zu koordinieren.

Es gibt Möglichkeiten, die Kosten dieser großen Modelle zu reduzieren. Zwei Ansätze sind Offline-Inferenz und Destillation.

Verzerrungen können in sehr großen Modellen ein Problem sein und sollten beim Training berücksichtigt werden und Bereitstellung.

Da diese Modelle mit menschlicher Sprache trainiert werden, können zahlreiche potenzieller ethischer Probleme, einschließlich Sprachmissbrauch und Voreingenommenheit, Geschlecht, Religion und mehr.

Es sollte klar werden, dass diese Modelle immer größer werden und muss immer noch sorgfältig darauf geachtet werden, zur Minderung ihrer Nachteile. Weitere Informationen zum Ansatz von Google bei verantwortungsbewusste KI-Technologie nutzen können.