Einführung in große Sprachmodelle

Neu bei Sprachmodellen oder großen Sprachmodellen? Dann sieh dir die folgenden Ressourcen an.

Was ist ein Sprachmodell?

Ein Sprachmodell ist ein Modell für maschinelles Lernen, das plasierbare Sprachen vorhersagen und generieren soll. Die automatische Vervollständigung ist beispielsweise ein Sprachmodell.

Bei diesen Modellen wird die Wahrscheinlichkeit eines Tokens oder einer Folge von Tokens innerhalb einer längeren Sequenz von Tokens geschätzt. Berücksichtigen Sie dabei den folgenden Satz:

When I hear rain on my roof, I _______ in my kitchen.

Wenn wir davon ausgehen, dass ein Token ein Wort ist, bestimmt ein Sprachmodell die Wahrscheinlichkeit unterschiedlicher Wörter oder Wortfolgen, um diesen Unterstrich zu ersetzen. Ein Sprachmodell kann beispielsweise die folgenden Wahrscheinlichkeiten ermitteln:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Eine „Sequenz von Tokens“ kann ein ganzer Satz oder eine Reihe von Sätzen sein. Das bedeutet, dass ein Sprachmodell die Wahrscheinlichkeit unterschiedlicher kompletter Sätze oder Textblöcke berechnen kann.

Die Wahrscheinlichkeit dessen, was als Nächstes in einer Sequenz kommt, ist für alle möglichen Zwecke nützlich: Textgenerierung, Übersetzungen von Sprachen und Beantwortung von Fragen, um nur einige zu nennen.

Was ist ein großes Sprachmodell?

Das Modellieren menschlicher Sprache in großem Maßstab ist ein sehr komplexes und ressourcenintensives Unterfangen. Der Weg zur Erreichung der aktuellen Möglichkeiten von Sprachmodellen und großen Sprachmodellen hat mehrere Jahrzehnte gedauert.

Je größer die Modelle sind, desto größer ist ihre Komplexität und Effizienz. Mit frühen Sprachmodellen kann die Wahrscheinlichkeit eines einzelnen Wortes vorhergesagt werden. Bei modernen großen Sprachmodellen kann die Wahrscheinlichkeit von Sätzen, Absätzen oder sogar ganzen Dokumenten vorhergesagt werden.

Die Größe und Fähigkeit von Sprachmodellen ist in den letzten Jahren sprunghaft angestiegen, da der Computerspeicher, die Dataset-Größe und die Verarbeitungsleistung zugenommen haben. Außerdem werden effektivere Verfahren zur Modellierung längerer Textsequenzen entwickelt.

Wie groß ist er?

Die Definition ist ungenau, aber mit „large“ wurden BERT (110 Mio. Parameter) sowie PaLM 2 (bis zu 340 B Parameter) beschrieben.

Parameter sind die Gewichtungen, die das Modell während des Trainings gelernt hat. Sie werden verwendet, um das nächste Token in der Sequenz vorherzusagen. „Groß“ kann entweder auf die Anzahl der Parameter im Modell oder manchmal auf die Anzahl der Wörter im Dataset verweisen.

Transformatoren

Eine wichtige Entwicklung in der Sprachmodellierung war die Einführung von Transformers im Jahr 2017, einer Architektur, die auf die Idee der Aufmerksamkeit ausgelegt ist. Dies ermöglichte die Verarbeitung längerer Sequenzen, da der Fokus auf dem wichtigsten Teil der Eingabe gelegt wurde und so Speicherprobleme wie in früheren Modellen behoben wurden.

Transformatoren sind hochmoderne Architektur für eine Vielzahl von Sprachmodellen wie Übersetzer.

Wenn die Eingabe "Ich bin ein guter Hund." lautet, wandelt ein auf Transformator basierender Übersetzer diese Eingabe in die Ausgabe "Je suis un bon chien." um, was dem Satz aus dem Französischen entspricht.

Full Transformer bestehen aus einem Encoder und einem Decoder. Ein Codierer wandelt Eingabetext in eine Zwischendarstellung um, während ein Decoder diesen Zwischentext in nützlichen Text umwandelt.

Selbstachtsamkeit

Transformatoren basieren stark auf dem Konzept der Selbstaufmerksamkeit. Der Teil der Selbstaufmerksamkeit bezieht sich auf den „egozentrierten“ Fokus jedes Tokens in einem Korpus. Tatsächlich wird im Namen jedes Eingabetokens die Selbstachtsamkeit gefragt: „Wie wichtig ist jedes andere Token der Eingabe für mich ? Um das Ganze einfacher zu gestalten, gehen wir davon aus, dass jedes Token ein Wort ist und der vollständige Kontext ein einzelner Satz ist. Berücksichtigen Sie dabei den folgenden Satz:

Das Tier kam nicht über die Straße, weil es zu müde war.

Da im vorherigen Satz elf Wörter stehen, wird jedes dieser zehn Wörter berücksichtigt. Dabei geht es um die Qualität der einzelnen zehn Wörter. Der Satz enthält beispielsweise das Pronomen it. Pronomen sind oft zweideutig. Das Pronomen bezieht sich immer auf ein kürzliches Substantiv. Im Beispielsatz bezieht sich das aktuelle Nomen jedoch auf das Tier oder die Straße.

Durch den Mechanismus zur Selbstachtsamkeit wird die Relevanz der einzelnen Wörter in der Nähe anhand des Pronomens bestimmt.

Welche Anwendungsfälle gibt es für LLMs?

LLMs sind bei der Aufgabe, für die sie erstellt wurden, äußerst effektiv, da sie als Reaktion auf eine Eingabe den plausibelsten Text generiert. Sie zeigen sogar eine starke Leistung bei anderen Aufgaben, z. B. Zusammenfassung, Fragestellung und Textklassifizierung. Dies wird als zusammenführende Funktion bezeichnet. LLMs können sogar einige mathematische Probleme lösen und Code schreiben können. Es ist allerdings empfehlenswert, deren Aufgaben zu prüfen.

LLMs können sehr gut menschliche Sprachmuster nachahmen. Sie sind unter anderem dafür geeignet, Informationen mit verschiedenen Stilen und Tönen zu kombinieren.

LLMs können jedoch Komponenten von Modellen sein, die mehr als nur Text generieren. Jüngste LLMs wurden verwendet, um Sentimentdetektoren zu erstellen, unangemessene Klassifikatoren zu erstellen und Bildunterschriften zu generieren.

Hinweise zur LLM

Modelle dieser Größe sind auch ohne ihre Nachteile.

Die größten LLMs sind teuer. Es kann Monate dauern, bis sie trainiert sind, und nutzen daher viele Ressourcen.

Sie können in der Regel auch für andere Aufgaben eingesetzt werden, was eine wertvolle Unterfangung darstellt.

Trainingsmodelle mit mehr als Billionen Parametern verursachen technische Herausforderungen. Es sind spezielle Infrastruktur- und Programmiertechniken erforderlich, um den Fluss zu den Chips und zurück zu koordinieren.

Es gibt Möglichkeiten, die Kosten dieser großen Modelle zu reduzieren. Zwei Ansätze sind Offline-Inferenz und Destillation.

Verzerrungen können in sehr großen Modellen ein Problem darstellen und sollten im Training und bei der Bereitstellung berücksichtigt werden.

Da diese Modelle auf menschliche Sprache trainiert werden, kann dies zu zahlreichen ethischen Problemen führen, einschließlich des Missbrauchs von Sprache und Verzerrung bei ethnischer Herkunft, Geschlecht, Religion usw.

Es sollte klar sein, dass diese Modelle immer größer werden und bessere Ergebnisse erzielen, ohne dass sich dies nachteilig für sie auswirkt. Hier erfahren Sie mehr über den Ansatz von Google zu verantwortungsbewusster KI.