Einführung in Large Language Models

Sie haben noch keine Erfahrung mit Language Models oder Large Language Models? Sehen Sie sich die folgenden Ressourcen an.

Was ist ein Sprachmodell?

Ein Sprachmodell ist ein maschinelles Lernen, Modell das darauf abzielt, plausible Sprache vorherzusagen und zu generieren. Die automatische Vervollständigung ist beispielsweise ein Sprachmodell.

Bei diesen Modellen wird die Wahrscheinlichkeit geschätzt, dass ein Token oder eine Tokenfolge in einer längeren Tokenfolge vorkommt. Betrachten Sie den folgenden Satz:

When I hear rain on my roof, I _______ in my kitchen.

Wenn Sie davon ausgehen, dass ein Token ein Wort ist, bestimmt ein Language Model Wahrscheinlichkeiten unterschiedlicher Wörter oder Abfolgen von Wörtern, um dieses zu ersetzen Unterstrich setzen. Ein Sprachmodell kann beispielsweise die folgenden Wahrscheinlichkeiten ermitteln:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Eine „Sequenz von Tokens“ kann ein ganzer Satz oder eine Reihe von Sätzen sein. Das heißt, ein Sprachmodell könnte die Wahrscheinlichkeit verschiedener ganzer Sätze oder Textblöcke berechnen.

Die Schätzung der Wahrscheinlichkeit dafür, was in einer Sequenz als Nächstes kommt, ist für alle Text generieren, Sprachen übersetzen, Fragen beantworten Fragen, um nur ein paar zu nennen.

Was ist ein Large Language Model?

Die Modellierung menschlicher Sprache im großen Maßstab ist ein äußerst komplexes und ressourcenintensives Unterfangen. Es hat mehrere Jahrzehnte gedauert, bis die aktuellen Funktionen von Sprachmodellen und Large Language Models erreicht wurden.

Je größer die Modelle werden, desto komplexer und wirksamer werden sie. Frühe Language Models konnten die Wahrscheinlichkeit eines einzelnen Wortes vorhersagen. modern Large Language Models die Wahrscheinlichkeit von Sätzen, Absätzen oder sogar ganze Dokumente.

Die Größe und Leistung von Sprachmodellen hat sich in den letzten Jahren explosionsartig entwickelt, da sich der Computerspeicher, die Datensatzgröße und die Rechenleistung erhöht haben und effektivere Techniken für die Modellierung längerer Textsequenzen entwickelt wurden.

Wie groß ist die Größe?

Die Definition ist ungenau, aber „groß“. zur Beschreibung von BERT (110 Mio. Parameter) sowie PaLM 2 (bis zu 340 Mrd. Parameter).

Parameter sind die Gewichte das während des Trainings erlernte Modell zur Vorhersage des nächsten Tokens im Sequenz hinzufügen. „Groß“ sich entweder auf die Anzahl der Parameter im Modell oder auf manchmal die Anzahl der Wörter im Dataset.

Transformatoren

Eine wichtige Entwicklung bei der Sprachmodellierung war die Einführung von Transformern im Jahr 2017. Diese Architektur basiert auf dem Konzept der Aufmerksamkeit. So konnten längere Sequenzen verarbeitet werden, indem sich der Fokus auf den wichtigsten Teil der Eingabe legte. Dadurch wurden Speicherprobleme behoben, die bei früheren Modellen aufgetreten waren.

Transformer sind die modernste Architektur für eine Vielzahl von Sprachmodellanwendungen wie Übersetzer.

Wenn die Eingabe "I am a good dog." ist, wäre dies ein auf Transformer basierender Übersetzer. transformiert diese Eingabe in die Ausgabe "Je suis un bon chien.", wobei es sich um den den gleichen Satz ins Französische übersetzt.

Vollständige Transformer bestehen aus einem Encoder und einem Decoder. Eine Encoder wandelt Eingabetext in eine Zwischendarstellung um und ein Decoder wandelt diese Zwischendarstellung in nützlichen Text um.

Selbstaufmerksamkeit

Transformer basieren stark auf einem Konzept, das als Selbstaufmerksamkeit bezeichnet wird. Der eigene Teil des Selbstachtsamkeit bezieht sich des Tokens in einem Korpus. Im Namen jedes Eingabe-Tokens fragt Selbstaufmerksamkeit effektiv: "Wie viel „Spielen alle anderen Eingabe-Tokens für mir?“ Zur Vereinfachung Wir gehen davon aus, dass jedes Token ein Wort ist und der vollständige Kontext ein einzelnes Satz. Betrachten Sie den folgenden Satz:

Das Tier hat die Straße nicht überquert, weil es zu müde war.

Der vorhergehende Satz besteht aus elf Wörtern. Jedes der elf Wörter achtet also auf die anderen zehn und fragt sich, wie wichtig jedes dieser zehn Wörter für es ist. Beachten Sie beispielsweise, dass der Satz das Pronomen es enthält. Pronomen sind oft mehrdeutig. Das Pronomen it bezieht sich immer auf ein aktuelles Substantiv, Im Beispielsatz, auf das sich das neue Substantiv bezieht, bezieht sich das jedoch auf das Tier. oder die Straße?

Der Selbstaufmerksamkeitsmechanismus bestimmt die Relevanz jedes nahen Wortes für das Pronomen es.

Was sind einige Anwendungsfälle für LLMs?

LLMs sind bei der Aufgabe, für die sie entwickelt wurden, hocheffektiv, nämlich die Erzeugung den plausibelsten Text als Antwort auf eine Eingabe. Sie fangen sogar an, sich zu zeigen, gute Leistung bei anderen Aufgaben; z. B. Zusammenfassung, Frage Antworten und Textklassifizierung. Diese werden als emergente Fähigkeiten bezeichnet. LLMs können sogar mathematische Aufgaben lösen und Code schreiben (es empfiehlt sich jedoch, Arbeit).

LLMs können menschliche Sprachmuster hervorragend nachahmen. Sie eignen sich unter anderem hervorragend, um Informationen in verschiedenen Stilen und Tonlagen zu kombinieren.

LLMs können jedoch Komponenten von Modellen sein, die mehr als nur Text generieren. Mit LLMs wurden in jüngster Zeit Sentimentdetektoren entwickelt. Klassifikatoren für unangemessene Inhalte und Bildunterschriften erstellen.

Überlegungen zu LLM

So große Modelle haben aber auch Nachteile.

Die größten LLMs sind teuer. Das Training kann Monate dauern und daher viele Ressourcen verbrauchen.

In der Regel lassen sie sich auch für andere Aufgaben nutzen.

Das Training von Modellen mit mehr als einer Billion Parametern stellt technische Herausforderungen dar. Spezielle Infrastruktur und Programmierung erforderlich, um den Fluss zu den Chips und wieder zu koordinieren.

Es gibt Möglichkeiten, die Kosten dieser großen Modelle zu reduzieren. Zwei Ansätze sind Offline-Inferenz und Destillation.

Voreingenommenheit kann bei sehr großen Modellen ein Problem darstellen und sollte beim Training und bei der Bereitstellung berücksichtigt werden.

Da diese Modelle mit menschlicher Sprache trainiert werden, können zahlreiche potenzieller ethischer Probleme, einschließlich Sprachmissbrauch und Voreingenommenheit, Geschlecht, Religion und mehr.

Es sollte klar werden, dass diese Modelle immer größer werden und muss immer noch sorgfältig darauf geachtet werden, zur Minderung ihrer Nachteile. Weitere Informationen zum Google-Ansatz für die verantwortungsbewusste Anwendung von KI

Weitere Informationen zu LLMs

Möchten Sie eine ausführlichere Einführung in Large Language Models? Prüfen das neue Modul Large Language Models ausprobieren im Machine Learning Crash Course.