Czym jest model językowy?
Model językowy ocenia prawdopodobieństwo wystąpienia tokenu lub sekwencji tokenów występujących w dłuższej sekwencji tokenów. Token może być słowem, słowem podrzędnym (podzbiorem słowa), a nawet pojedynczym znakiem.
Przeanalizuj to zdanie i tokeny, które mogą je dokończyć:
When I hear rain on my roof, I _______ in my kitchen.
Model językowy określa prawdopodobieństwo różnych tokenów, przez sekwencję tokenów. Na przykład: tabela prawdopodobieństwa wskazuje kilka możliwych tokenów i ich prawdopodobieństw:
Probability, | Token(y) |
---|---|
9,4% | gotowanie zupy |
5,2% | podgrzej czajnik |
3,6% | Cower |
2,5% | drzemka |
2,2% | odpoczynek |
W niektórych sytuacjach sekwencją tokenów może być całe zdanie, akapitu, a nawet cały wypracowanie.
Aplikacja może używać tabeli prawdopodobieństwa do prognozowania. Prognoza może być najbardziej prawdopodobna (np. „ugotuj zupę”). lub losowy wybór spośród tokenów o prawdopodobieństwie większym niż określona i konkretnego progu.
Szacowanie prawdopodobieństwa wypełnienia pustych pól w sekwencji może można ją rozszerzyć na bardziej złożone zadania, takie jak:
- Generuję tekst.
- Tłumaczenie tekstu z jednego języka na inny.
- Podsumowywanie dokumentów.
Modelując statystyczne wzorce tokenów, nowoczesne modele językowe niezwykle potężną reprezentację języka wewnętrznego i potrafi generować odpowiedni język.
modele językowe n-gram,
N-gramy to uporządkowane sekwencje słów używane do budowania modeli językowych, gdzie N to liczba słów w sekwencji. Na przykład gdy N to 2, n-gram nazywamy 2 gramami (albo bigram); gdy N to 5, n-gram to czyli 5 gramów. Biorąc pod uwagę takie sformułowanie w dokumencie treningowym:
you are very nice
Otrzymane 2 gramy będą wyglądały tak:
- jesteś
- są bardzo
- bardzo fajnie
Gdy N to 3, n-gram nazywamy 3 gramami (lub trigram). W przypadku tego samego wyrażenia to 3 gramy:
- jesteś bardzo
- są bardzo miłe
Przy uwzględnieniu 2 słów jako danych wejściowych model językowy oparty na 3 gramach może przewidzieć prawdopodobieństw trzeciego słowa. Na przykład w przypadku tych 2 słów:
orange is
Model językowy bada wszystkie 3 gramy pozyskane z trenowania
korpus zaczynający się od orange is
, aby określić najbardziej prawdopodobne trzecie słowo.
Setki 3 gramów mogą zaczynać się od dwóch słów orange is
, ale możesz
skupić się wyłącznie na dwóch możliwościach:
orange is ripe orange is cheerful
Pierwsza możliwość (orange is ripe
) dotyczy owocu pomarańczowego,
a druga możliwość (orange is cheerful
) dotyczy koloru
pomarańczowy.
Kontekst
Ludzie potrafią zachować stosunkowo długi kontekst. Podczas oglądania 3 elementu spektaklu zachować wiedzę o postaciach przedstawionych w akcie 1. Podobnie fraza długiego żartu rozśmieszyła Cię, bo pamiętasz kontekst od konfiguracji żartu.
W przypadku modeli językowych kontekst to przydatna informacja przed lub po token docelowy. Kontekst może pomóc modelowi językowemu określić, czy słowo „pomarańczowy” oznacza owoc cytrusowy lub kolor.
Kontekst może pomóc modelowi językowemu w generowaniu lepszych prognoz, ale
3 gramy zapewniają wystarczający kontekst? Jedynym kontekstem jest
to pierwsze 2 słowa. Na przykład te 2 słowa orange is
nie
Zapewnij wystarczający kontekst, aby model językowy mógł przewidzieć trzecie słowo.
Z powodu braku kontekstu modele językowe oparte na 3 gramach popełniają wiele błędów.
Dłuższe n-gramy z pewnością dałyby więcej kontekstu niż krótsze n-gramy. Jednak wraz ze wzrostem N względna liczba wystąpień każdego wystąpienia maleje. Gdy wartość N staje się bardzo duża, model językowy ma zwykle tylko każdego wystąpienia N tokenów, co nie jest zbyt pomocne z prognozowaniem tokena docelowego.
Powracające sieci neuronowe
Nawracający układ neuronowy sieci zapewniają więcej kontekstu niż ngramów. Powracająca sieć neuronowa to rodzaj sieci neuronowej, która trenuje lub sekwencję tokenów. Na przykład powtarzająca się sieć neuronowa może stopniowo uczyć się (i ignorować) wybrany kontekst z każdego słowa w zdaniu – podobnie jak wtedy, gdy słuchasz kogoś, kto coś mówi. Duża powtarzająca się sieć neuronowa może uzyskać kontekst dzięki przejściu zdaniami.
Chociaż powracające sieci neuronowe uczą się więcej kontekstu niż N-gramów, użytecznych kontekstowych sieci neuronowych można intuicyjnie intuicyjnie z ograniczeniami. Powracające sieci neuronowe oceniają informacje „token według tokena”. Z kolei duże modele językowe (LLM) stanowią temat – mogą analizować cały kontekst od razu.
Pamiętaj, że trenowanie powtarzających się sieci neuronowych w długich kontekstach jest ograniczone przez znikający gradient .
Ćwiczenie: sprawdź swoją wiedzę
- Model językowy oparty na 6 gramach
- Model językowy oparty na 5 gramach