Introduction to Large Language Models

Czym jest model językowy?

Model językowy szacuje prawdopodobieństwo wystąpienia tokena lub sekwencji tokenów w dłuższej sekwencji tokenów. Token może być słowem, podwyrazem (podzbiorem słowa) lub nawet pojedynczym znakiem.

Kliknij ikonę, aby dowiedzieć się więcej o tokenach.

Większość nowoczesnych modeli językowych tokenizuje tekst według podsłów, czyli fragmentów tekstu zawierających znaczenie semantyczne. Fragmenty mogą mieć różną długość – od pojedynczych znaków, takich jak znaki interpunkcyjne czy apostrof w formie dzierżawczej s, po całe słowa. Prefiksy i sufiksy mogą być reprezentowane jako osobne podjednostki. Na przykład słowo unwatched może być reprezentowane przez te 3 podsłowa:

un (prefiks)
watch (the root)
ed (przyrostek)

Słowo cats może być reprezentowane przez te 2 podjednostki:

cat (rdzeń)
s (sufiks)

Bardziej złożone słowo, takie jak „antidisestablishmentarianism”, może być reprezentowane jako 6 podjednostek:

anty
dis
ustanowić,
ment
arian
ism

Tokenizacja jest zależna od języka, więc liczba znaków w tokenie różni się w zależności od języka. W przypadku języka angielskiego 1 token odpowiada około 4 znakom lub około 3/4 słowa, więc 400 tokenów to około 300 słów w języku angielskim.

Tokeny to najmniejsze jednostki modelowania języka.

Tokeny są teraz też skutecznie stosowane w przypadku widzenia komputerowego i generowania dźwięku.

Rozważ następujące zdanie i tokeny, które mogą je uzupełnić:

When I hear rain on my roof, I _______ in my kitchen.

Model językowy określa prawdopodobieństwo wystąpienia różnych tokenów lub sekwencji tokenów, które mogą uzupełnić tę lukę. Na przykład poniższa tabela prawdopodobieństwa zawiera niektóre możliwe tokeny i ich prawdopodobieństwa:

Prawdopodobieństwo	Tokeny
9,4%	ugotować zupę,
5,2%	podgrzać czajnik,
3,6%	czołgać się
2,5%	drzemka,
2,2%	odpoczynek

W niektórych sytuacjach sekwencja tokenów może być całym zdaniem, akapitem, a nawet całym wypracowaniem.

Aplikacja może używać tabeli prawdopodobieństwa do tworzenia prognoz. Prognoza może być tokenem o najwyższym prawdopodobieństwie (np. „ugotować zupę”) lub losowym wyborem spośród tokenów o prawdopodobieństwie większym niż określony próg.

Szacowanie prawdopodobieństwa, że w sekwencji tekstu w miejscu oznaczonym jako puste pole pojawi się określony wyraz, można rozszerzyć na bardziej złożone zadania, takie jak:

Generuję tekst.
tłumaczenie tekstu z jednego języka na inny;
streszczać dokumenty;

Modelując statystyczne wzorce tokenów, nowoczesne modele językowe tworzą niezwykle zaawansowane wewnętrzne reprezentacje języka i mogą generować wiarygodne wypowiedzi.

Modele językowe N-gramów

N-gramy to uporządkowane sekwencje słów używane do tworzenia modeli językowych, gdzie N to liczba słów w sekwencji. Jeśli na przykład N = 2, n-gram nazywa się 2-gramem (lub bigramem), a jeśli N = 5, n-gram nazywa się 5-gramem. Rozważmy to zdanie w dokumencie szkoleniowym:

you are very nice

Powstałe 2-gramy to:

jesteś
są bardzo
bardzo fajnie

Gdy N = 3, N-gram nazywa się 3-gramem (lub trigramem). W przypadku tego samego wyrażenia 3-gramy to:

jesteś bardzo
są bardzo miłe,

Model językowy oparty na 3-gramach może na podstawie 2 słów wejściowych przewidzieć prawdopodobieństwo wystąpienia trzeciego słowa. Na przykład w przypadku tych 2 słów:

orange is

Model językowy analizuje wszystkie różne 3-gramy pochodzące z korpusu treningowego, które zaczynają się od orange is, aby określić najbardziej prawdopodobne trzecie słowo. Setki 3-gramów mogą zaczynać się od 2 słów orange is, ale możesz skupić się tylko na tych 2 możliwościach:

orange is ripe
orange is cheerful

Pierwsza możliwość (orange is ripe) dotyczy pomarańczy jako owocu, a druga (orange is cheerful) – koloru pomarańczowego.

Kontekst

Ludzie mogą zapamiętywać stosunkowo długie konteksty. Podczas oglądania aktu 3 sztuki teatralnej pamiętasz postacie wprowadzone w akcie 1. Podobnie puenta długiego żartu wywołuje śmiech, ponieważ pamiętasz kontekst z jego wprowadzenia.

W modelach językowych kontekst to przydatne informacje przed lub po tokenie docelowym. Kontekst może pomóc modelowi językowemu określić, czy słowo „orange” odnosi się do owocu cytrusowego, czy do koloru.

Kontekst może pomóc modelowi językowemu w tworzeniu lepszych prognoz, ale czy 3-gram zapewnia wystarczający kontekst? Niestety jedyny kontekst, jaki zapewnia 3-gram, to pierwsze dwa słowa. Na przykład 2 słowa orange is nie zapewniają modelowi językowemu wystarczającego kontekstu, aby przewidzieć trzecie słowo. Z powodu braku kontekstu modele językowe oparte na 3-gramach popełniają wiele błędów.

Dłuższe n-gramy z pewnością zapewniają więcej kontekstu niż krótsze. Jednak wraz ze wzrostem N względna liczba wystąpień każdego elementu maleje. Gdy N jest bardzo dużą liczbą, model językowy ma zwykle tylko 1 wystąpienie każdego ciągu N tokenów, co nie jest zbyt pomocne w przewidywaniu tokena docelowego.

Rekurencyjne sieci neuronowe

Rekurencyjne sieci neuronowe zapewniają więcej kontekstu niż n-gramy. Rekurencyjna sieć neuronowa to rodzaj sieci neuronowej, która jest trenowana na sekwencji tokenów. Na przykład rekurencyjna sieć neuronowa może stopniowo uczyć się (i ignorować) wybranego kontekstu każdego słowa w zdaniu, podobnie jak Ty, gdy słuchasz, jak ktoś mówi. Duża rekurencyjna sieć neuronowa może uzyskać kontekst z fragmentu składającego się z kilku zdań.

Chociaż rekurencyjne sieci neuronowe uczą się więcej kontekstu niż n-gramy, ilość przydatnego kontekstu, który mogą wywnioskować, jest nadal stosunkowo ograniczona. Rekurencyjne sieci neuronowe oceniają informacje „token po tokenie”. Z kolei duże modele językowe, o których będzie mowa w następnej sekcji, mogą oceniać cały kontekst naraz.

Pamiętaj, że trenowanie rekurencyjnych sieci neuronowych w przypadku długich kontekstów jest ograniczone przez problem znikającego gradientu.

Ćwiczenie: sprawdź swoją wiedzę

Który model językowy lepiej prognozuje tekst w języku angielskim?

Model językowy oparty na 6-gramach
Model językowy oparty na 5-gramach

Odpowiedź zależy od wielkości i różnorodności zbioru treningowego.

Jeśli zbiór treningowy obejmuje miliony różnorodnych dokumentów, model oparty na 6-gramach prawdopodobnie będzie działać lepiej niż model oparty na 5-gramach.

Model językowy oparty na 6-gramach.

Ten model językowy ma więcej kontekstu, ale jeśli nie został wytrenowany na dużej liczbie dokumentów, większość 6-gramów będzie rzadka.

Model językowy oparty na 5-gramach.

Ten model językowy ma mniej kontekstu, więc raczej nie będzie lepszy od modelu językowego opartego na 6-gramach.

Wstecz

Test wiedzy (10 min)

Dalej

Czym jest duży model językowy? (15 min)