LLM: co to jest duży model językowy?

Nowszą technologią są duże modele językowe (LLM), które przewidują token lub sekwencję tokenów, czasem nawet wiele akapitów przewidywanych tokenów. Pamiętaj, że token może być słowem, podwyrazem (podzbiorem słowa) lub nawet pojedynczym znakiem. Duże modele językowe generują znacznie lepsze prognozy niż modele językowe N-gram lub rekurencyjne sieci neuronowe, ponieważ:

Modele LLM zawierają znacznie więcej parametrów niż modele rekurencyjne.
Modele LLM zbierają znacznie więcej kontekstu.

W tej sekcji przedstawiamy najskuteczniejszą i najczęściej używaną architekturę do tworzenia dużych modeli językowych: transformator.

Co to jest Transformer?

Transformery to najnowocześniejsza architektura do wielu zastosowań modeli językowych, takich jak tłumaczenie:

Rysunek 1. Dane wejściowe: Jestem dobrym psem. Tłumacz oparty na architekturze Transformer przekształca te dane wejściowe w dane wyjściowe: Je suis un bon chien, czyli to samo zdanie przetłumaczone na język francuski. — **Rysunek 1.** Aplikacja oparta na architekturze Transformer, która tłumaczy z języka angielskiego na francuski.

Pełne modele Transformer składają się z enkodera i dekodera:

Koder przekształca tekst wejściowy w reprezentację pośrednią. Koder to ogromna sieć neuronowa.
Dekoder przekształca tę reprezentację pośrednią w przydatny tekst. Dekoder to również ogromna sieć neuronowa.

Na przykład w tłumaczu:

Koder przetwarza tekst wejściowy (np. zdanie w języku angielskim) na pewną reprezentację pośrednią.
Dekoder przekształca tę reprezentację pośrednią w tekst wyjściowy (np. równoważne zdanie w języku francuskim).

Rysunek 2. Tłumacz oparty na architekturze Transformer zaczyna od enkodera, który generuje pośrednią reprezentację zdania w języku angielskim. Dekoder przekształca tę reprezentację pośrednią w zdanie wyjściowe w języku francuskim. — **Rysunek 2.** Pełny model Transformer zawiera zarówno enkoder, jak i dekoder.

Kliknij ikonę, aby dowiedzieć się więcej o częściowych modelach Transformer.

W tym module skupiamy się na pełnych transformatorach, które zawierają zarówno enkoder, jak i dekoder. Istnieją jednak też architektury z samym enkoderem lub samym dekoderem:

Architektury oparte wyłącznie na koderze mapują tekst wejściowy na reprezentację pośrednią (często jest to warstwa wektora dystrybucyjnego). Architektury oparte wyłącznie na enkoderze mogą być używane w tych przypadkach:
- przewidywanie dowolnego tokena w sekwencji wejściowej (co jest tradycyjną rolą modeli językowych);
- Tworzenie zaawansowanego osadzania, które może służyć jako dane wejściowe dla innego systemu, np. klasyfikatora.
Architektury oparte wyłącznie na dekoderze generują nowe tokeny na podstawie już wygenerowanego tekstu. Modele oparte tylko na dekoderze zwykle doskonale generują sekwencje. Nowoczesne modele oparte tylko na dekoderze mogą wykorzystywać swoje możliwości generowania do tworzenia kontynuacji historii dialogów i innych promptów.

Co to jest mechanizm uwagi?

Aby wzbogacić kontekst, modele transformujące w dużym stopniu opierają się na koncepcji samouwagi. W przypadku każdego tokena wejściowego mechanizm uwagi do samego siebie zadaje to pytanie:

„W jakim stopniu każdy inny token wejściowy wpływa na interpretację tego tokena?”

„Self” w „self-attention” odnosi się do sekwencji wejściowej. Niektóre mechanizmy uwagi ważą relacje tokenów wejściowych z tokenami w sekwencji wyjściowej, np. w tłumaczeniu, lub z tokenami w innej sekwencji. Mechanizm self-attention uwzględnia tylko znaczenie relacji między tokenami w sekwencji wejściowej.

Dla uproszczenia załóżmy, że każdy token to słowo, a pełny kontekst to tylko jedno zdanie. Rozważmy to zdanie:

The animal didn't cross the street because it was too tired.

Poprzednie zdanie zawiera 11 słów. Każde z 11 słów zwraca uwagę na pozostałe 10, zastanawiając się, jak bardzo każde z nich jest dla niego ważne. Zwróć uwagę, że zdanie zawiera zaimek it. Zaimki są często niejednoznaczne. Zaimek it zwykle odnosi się do ostatniego rzeczownika lub wyrażenia rzeczownikowego, ale w przykładzie zdania, do którego rzeczownika odnosi się it – do zwierzęcia czy do ulicy?

Mechanizm samouwagi określa trafność każdego pobliskiego słowa względem zaimka it. Rysunek 3 przedstawia wyniki – im bardziej niebieska linia, tym większe znaczenie ma dane słowo dla zaimka it. Oznacza to, że słowo animal jest ważniejsze niż słowo street dla zaimka it.

Rysunek 3. Znaczenie każdego z 11 słów w zdaniu: „The animal didn't cross the street because it was too tired” (Zwierzę nie przeszło przez ulicę, bo było zbyt zmęczone) w odniesieniu do zaimka „it”. Słowo „animal” (zwierzę) jest najbardziej powiązane z zaimkiem „it” (ono). — **Rysunek 3.** Mechanizm samouważności dla zaimka it. Z artykułu Transformer: A Novel Neural Network Architecture for Language Understanding.

Załóżmy, że ostatnie słowo w zdaniu zmienia się w ten sposób:

The animal didn't cross the street because it was too wide.

W tym zmienionym zdaniu mechanizm samouważności powinien ocenić słowo ulica jako bardziej istotne niż słowo zwierzę w odniesieniu do zaimka ono.

Niektóre mechanizmy uwagi do samego siebie są dwukierunkowe, co oznacza, że obliczają wyniki trafności dla tokenów poprzedzających i następujących po słowie, na którym skupia się uwaga. Na przykład na rysunku 3 widać, że analizowane są słowa po obu stronach słowa it. Dwukierunkowy mechanizm samouważności może więc zbierać kontekst ze słów po obu stronach słowa, na którym skupia się uwaga. Z kolei jednokierunkowy mechanizm uwagi może zbierać kontekst tylko ze słów znajdujących się po jednej stronie słowa, na którym skupia się uwaga. Dwukierunkowa uwaga własna jest szczególnie przydatna do generowania reprezentacji całych sekwencji, natomiast aplikacje, które generują sekwencje token po tokenie, wymagają jednokierunkowej uwagi własnej. Z tego powodu kodery używają dwukierunkowego mechanizmu self-attention, a dekodery – jednokierunkowego.

Co to jest wielogłowicowa wielowarstwowa uwaga własna?

Każda warstwa uwagi do samej siebie składa się zwykle z kilku głowic uwagi do samej siebie. Dane wyjściowe warstwy to operacja matematyczna (np. średnia ważona lub iloczyn skalarny) danych wyjściowych różnych głów.

Ponieważ parametry każdej głowicy są inicjowane losowymi wartościami, różne głowice mogą się uczyć różnych relacji między każdym słowem, na którym skupia się uwaga, a słowami znajdującymi się w pobliżu. Na przykład głowica mechanizmu samouważania opisana w poprzedniej sekcji koncentrowała się na ustaleniu, do którego rzeczownika odnosi się zaimek it. Jednak inne głowice samouwagi w tej samej warstwie mogą się nauczyć gramatycznego znaczenia każdego słowa względem każdego innego słowa lub innych interakcji.

Kompletny model transformujący składa się z wielu warstw samouwagi ułożonych jedna na drugiej. Dane wyjściowe z poprzedniej warstwy stają się danymi wejściowymi dla następnej. Dzięki temu model może stopniowo budować coraz bardziej złożone i abstrakcyjne rozumienie tekstu. Podczas gdy wcześniejsze warstwy mogą koncentrować się na podstawowej składni, głębsze warstwy mogą integrować te informacje, aby zrozumieć bardziej zniuansowane koncepcje, takie jak nastrój, kontekst i powiązania tematyczne w całym tekście wejściowym.

Kliknij ikonę, aby dowiedzieć się więcej o notacji Big O w przypadku dużych modeli językowych.

Samouwaga wymusza na każdym słowie w kontekście nauczenie się trafności wszystkich innych słów w kontekście. Można więc uznać, że jest to problem o złożoności O(N²), gdzie:

N to liczba tokenów w kontekście.

Gdyby poprzedni zapis notacji Big O nie był wystarczająco niepokojący, transformatory zawierają wiele warstw mechanizmu samouważności i wiele głowic mechanizmu samouważności w każdej warstwie, więc notacja Big O to w rzeczywistości:

O(N² · S · D)

gdzie:

S to liczba warstw mechanizmu uwagi.
D to liczba głowic na warstwę.

Kliknij ikonę, aby dowiedzieć się więcej o tym, jak trenowane są duże modele językowe.

Prawdopodobnie nigdy nie wytrenujesz modelu LLM od podstaw. Trenowanie dużego modelu językowego o zastosowaniu przemysłowym wymaga ogromnej wiedzy z zakresu uczenia maszynowego, zasobów obliczeniowych i czasu. Kliknięcie ikony oznacza, że chcesz dowiedzieć się więcej, więc musimy Ci to wyjaśnić.

Głównym składnikiem do tworzenia modelu LLM jest ogromna ilość danych treningowych (tekstu), zwykle w pewnym stopniu odfiltrowanych. Pierwszy etap trenowania to zwykle jakaś forma uczenia bez nadzoru na tych danych treningowych. Model jest trenowany na zamaskowanych prognozach, co oznacza, że niektóre tokeny w danych treningowych są celowo ukrywane. Model trenuje się, próbując przewidzieć brakujące tokeny. Załóżmy na przykład, że to zdanie jest częścią danych treningowych:

The residents of the sleepy town weren't prepared for what came next.

Usuwane są losowe tokeny, na przykład:

The ___ of the sleepy town weren't prepared for ___ came next.

LLM to tylko sieć neuronowa, więc strata (liczba zamaskowanych tokenów, które model prawidłowo rozpoznał) określa stopień, w jakim propagacja wsteczna aktualizuje wartości parametrów.

Model oparty na architekturze Transformer, który jest trenowany do przewidywania brakujących danych, stopniowo uczy się wykrywać wzorce i struktury wyższego rzędu w danych, aby uzyskać wskazówki dotyczące brakującego tokena. Przyjrzyjmy się temu przykładowi zamaskowanej instancji:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

Intensywne trenowanie na ogromnej liczbie zamaskowanych przykładów umożliwia dużemu modelowi językowemu nauczenie się, że słowa „zebrano” lub „wybrano” są bardzo prawdopodobnymi dopasowaniami do pierwszego tokena, a słowa „pomarańcze” lub „je” są dobrymi wyborami w przypadku drugiego tokena.

Opcjonalny dodatkowy etap trenowania o nazwie dostrajanie pod kątem instrukcji może poprawić zdolność modelu LLM do wykonywania instrukcji.

Dlaczego modele Transformer są tak duże?

Modele Transformer zawierają setki miliardów, a nawet biliony parametrów. W tym kursie zalecamy tworzenie modeli z mniejszą liczbą parametrów zamiast tych z większą liczbą parametrów. Model z mniejszą liczbą parametrów zużywa mniej zasobów na potrzeby prognozowania niż model z większą liczbą parametrów. Badania pokazują jednak, że modele Transformer z większą liczbą parametrów konsekwentnie osiągają lepsze wyniki niż modele z mniejszą liczbą parametrów.

Ale jak LLM generuje tekst?

Wiesz już, jak badacze trenują duże modele językowe, aby przewidywały brakujące słowo lub dwa, i może nie robi to na Tobie wrażenia. W końcu przewidywanie jednego lub dwóch słów to w zasadzie funkcja autouzupełniania wbudowana w różne programy do pisania tekstów, poczty e-mail i tworzenia treści. Być może zastanawiasz się, jak LLM-y mogą generować zdania, akapity lub haiku na temat arbitrażu.

Modele LLM to w zasadzie mechanizmy autouzupełniania, które mogą automatycznie przewidywać (uzupełniać) tysiące tokenów. Weźmy na przykład zdanie, po którym następuje zdanie z zamaskowanymi słowami:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM może generować prawdopodobieństwa dla zamaskowanego zdania, w tym:

Prawdopodobieństwo	Słowo
3,1%	Na przykład może siadać, zostawać i przewracać się na bok.
2,9%	Na przykład potrafi siadać, zostawać i przewracać się na bok.

Odpowiednio duży LLM może generować prawdopodobieństwa dla akapitów i całych esejów. Pytania użytkownika do LLM można traktować jako „podane” zdanie, po którym następuje wyimaginowana maska. Na przykład:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM generuje prawdopodobieństwa dla różnych możliwych odpowiedzi.

Inny przykład: duży model językowy wytrenowany na ogromnej liczbie matematycznych „zadań tekstowych” może sprawiać wrażenie, że przeprowadza zaawansowane rozumowanie matematyczne. Te duże modele językowe w zasadzie tylko automatycznie uzupełniają prompta z zadaniem słownym.

Zalety dużych modeli językowych

Modele LLM mogą generować jasne i zrozumiałe teksty dla różnych grup odbiorców. Modele LLM mogą generować prognozy dotyczące zadań, do których zostały specjalnie wytrenowane. Niektórzy badacze twierdzą, że duże modele językowe mogą też dokonywać prognoz na podstawie danych wejściowych, na których nie były bezpośrednio trenowane, ale inni badacze obalili to twierdzenie.

Problemy z dużymi modelami językowymi

Trenowanie LLM wiąże się z wieloma problemami, w tym:

zbieranie ogromnego zbioru treningowego,
Wymaga to wielu miesięcy i ogromnych zasobów obliczeniowych oraz energii elektrycznej.
Rozwiązywanie problemów z równoległością.

Używanie dużych modeli językowych do wyciągania wniosków na podstawie prognoz powoduje te problemy:

LLM halucynują, co oznacza, że ich prognozy często zawierają błędy.
Modele LLM zużywają ogromne ilości zasobów obliczeniowych i energii elektrycznej. Trenowanie LLM na większych zbiorach danych zwykle zmniejsza ilość zasobów wymaganych do wnioskowania, chociaż większe zbiory treningowe wymagają więcej zasobów.
Podobnie jak wszystkie modele ML, LLM mogą wykazywać różnego rodzaju uprzedzenia.

Ćwiczenie: sprawdź swoją wiedzę

Załóżmy, że model Transformer został wytrenowany na miliardzie dokumentów, w tym na tysiącach dokumentów zawierających co najmniej jedno wystąpienie słowa słoń. Które z poniższych stwierdzeń są prawdopodobnie prawdziwe?

Akacje, które są ważnym elementem diety słoni, będą stopniowo uzyskiwać wysoki wynik uwagi własnej w przypadku słowa słoń.

Tak. Dzięki temu model Transformer będzie mógł odpowiadać na pytania dotyczące diety słonia.

Model Transformer powiąże słowo słoń z różnymi idiomami, które je zawierają.

Tak, system zacznie przypisywać wysokie wyniki uwagi do słowa słoń i innych słów w idiomach związanych ze słoniem.

Model Transformer będzie stopniowo uczyć się ignorowania wszelkich sarkastycznych lub ironicznych użyć słowa słoń w danych treningowych.

Odpowiednio duże modele Transformer trenowane na odpowiednio szerokim zbiorze danych treningowych dobrze rozpoznają sarkazm, humor i ironię. Dlatego zamiast ignorować sarkazm i ironię, model Transformer uczy się na ich podstawie.