Duże modele językowe

.

Czym jest model językowy?

Model językowy ocenia prawdopodobieństwo wystąpienia tokenu lub sekwencji tokenów występujących w dłuższej sekwencji tokenów. Token może być słowem, słowem podrzędnym (podzbiorem słowa), a nawet pojedynczym znakiem.

Przeanalizuj to zdanie i tokeny, które mogą je dokończyć:

When I hear rain on my roof, I _______ in my kitchen.

Model językowy określa prawdopodobieństwo różnych tokenów, przez sekwencję tokenów. Na przykład: tabela prawdopodobieństwa wskazuje kilka możliwych tokenów i ich prawdopodobieństw:

Probability, Token(y)
9,4% gotowanie zupy
5,2% podgrzej czajnik
3,6% Cower
2,5% drzemka
2,2% odpoczynek

W niektórych sytuacjach sekwencją tokenów może być całe zdanie, akapitu, a nawet cały wypracowanie.

Aplikacja może używać tabeli prawdopodobieństwa do prognozowania. Prognoza może być najbardziej prawdopodobna (np. „ugotuj zupę”). lub losowy wybór spośród tokenów o prawdopodobieństwie większym niż określona i konkretnego progu.

Szacowanie prawdopodobieństwa wypełnienia pustych pól w sekwencji może można ją rozszerzyć na bardziej złożone zadania, takie jak:

  • Generuję tekst.
  • Tłumaczenie tekstu z jednego języka na inny.
  • Podsumowywanie dokumentów.

Modelując statystyczne wzorce tokenów, nowoczesne modele językowe niezwykle potężną reprezentację języka wewnętrznego i potrafi generować odpowiedni język.

modele językowe n-gram,

N-gramy to uporządkowane sekwencje słów używane do budowania modeli językowych, gdzie N to liczba słów w sekwencji. Na przykład gdy N to 2, n-gram nazywamy 2 gramami (albo bigram); gdy N to 5, n-gram to czyli 5 gramów. Biorąc pod uwagę takie sformułowanie w dokumencie treningowym:

you are very nice

Otrzymane 2 gramy będą wyglądały tak:

  • jesteś
  • są bardzo
  • bardzo fajnie

Gdy N to 3, n-gram nazywamy 3 gramami (lub trigram). W przypadku tego samego wyrażenia to 3 gramy:

  • jesteś bardzo
  • są bardzo miłe

Przy uwzględnieniu 2 słów jako danych wejściowych model językowy oparty na 3 gramach może przewidzieć prawdopodobieństw trzeciego słowa. Na przykład w przypadku tych 2 słów:

orange is

Model językowy bada wszystkie 3 gramy pozyskane z trenowania korpus zaczynający się od orange is, aby określić najbardziej prawdopodobne trzecie słowo. Setki 3 gramów mogą zaczynać się od dwóch słów orange is, ale możesz skupić się wyłącznie na dwóch możliwościach:

orange is ripe
orange is cheerful

Pierwsza możliwość (orange is ripe) dotyczy owocu pomarańczowego, a druga możliwość (orange is cheerful) dotyczy koloru pomarańczowy.

Kontekst

Ludzie potrafią zachować stosunkowo długi kontekst. Podczas oglądania 3 elementu spektaklu zachować wiedzę o postaciach przedstawionych w akcie 1. Podobnie fraza długiego żartu rozśmieszyła Cię, bo pamiętasz kontekst od konfiguracji żartu.

W przypadku modeli językowych kontekst to przydatna informacja przed lub po token docelowy. Kontekst może pomóc modelowi językowemu określić, czy słowo „pomarańczowy” oznacza owoc cytrusowy lub kolor.

Kontekst może pomóc modelowi językowemu w generowaniu lepszych prognoz, ale 3 gramy zapewniają wystarczający kontekst? Jedynym kontekstem jest to pierwsze 2 słowa. Na przykład te 2 słowa orange is nie Zapewnij wystarczający kontekst, aby model językowy mógł przewidzieć trzecie słowo. Z powodu braku kontekstu modele językowe oparte na 3 gramach popełniają wiele błędów.

Dłuższe n-gramy z pewnością dałyby więcej kontekstu niż krótsze n-gramy. Jednak wraz ze wzrostem N względna liczba wystąpień każdego wystąpienia maleje. Gdy wartość N staje się bardzo duża, model językowy ma zwykle tylko każdego wystąpienia N tokenów, co nie jest zbyt pomocne z prognozowaniem tokena docelowego.

Powracające sieci neuronowe

Nawracający układ neuronowy sieci zapewniają więcej kontekstu niż ngramów. Powracająca sieć neuronowa to rodzaj sieci neuronowej, która trenuje lub sekwencję tokenów. Na przykład powtarzająca się sieć neuronowa może stopniowo uczyć się (i ignorować) wybrany kontekst z każdego słowa w zdaniu – podobnie jak wtedy, gdy słuchasz kogoś, kto coś mówi. Duża powtarzająca się sieć neuronowa może uzyskać kontekst dzięki przejściu zdaniami.

Chociaż powracające sieci neuronowe uczą się więcej kontekstu niż N-gramów, użytecznych kontekstowych sieci neuronowych można intuicyjnie intuicyjnie z ograniczeniami. Powracające sieci neuronowe oceniają informacje „token według tokena”. Z kolei duże modele językowe (LLM) stanowią temat – mogą analizować cały kontekst od razu.

Pamiętaj, że trenowanie powtarzających się sieci neuronowych w długich kontekstach jest ograniczone przez znikający gradient .

Ćwiczenie: sprawdź swoją wiedzę

Który model językowy pozwala lepiej prognozować tekst w języku angielskim?
  • Model językowy oparty na 6 gramach
  • Model językowy oparty na 5 gramach
Odpowiedź zależy od zakresu i różnorodności szkolenia. ustawiony.
Jeśli zbiór treningowy obejmuje miliony różnych dokumentów, model oparty na 6 gramach będzie prawdopodobnie lepszy na podstawie 5 gramów.
Model językowy oparty na 6 gramach.
Ten model językowy ma więcej kontekstu, ale jeśli nie trenował na wielu dokumentach, ale większość z nich być rzadkie.
Model językowy oparty na 5 gramach.
Ten model językowy ma mniejszy kontekst, więc raczej nie będzie przewyższa model językowy (6 gramów).