LLM: co to jest duży model językowy?

Nowszą technologię dużych modeli językowych (LLM) prognozują token lub sekwencję tokenów, niekiedy wiele akapitów o wartości przewidywaną liczbę tokenów. Pamiętaj, że token może być słowem, podsłowom (podzbiorem słowo), a nawet pojedynczy znak. LLM generują znacznie lepsze prognozy niż modele językowe N-gram lub powtarzające się sieci neuronowe, ponieważ:

  • LLM zawierają znacznie więcej parametrów niż w przypadku powtarzających się modeli.
  • LLM gromadzą znacznie więcej kontekstu.

W tej sekcji omawiamy najpopularniejszą i najszerzej stosowaną architekturę Transformer – do tworzenia LLM.

Co to jest Transformer?

Transformery to najnowocześniejsza architektura przeznaczona do aplikacje do modelowania językowego, takie jak tłumaczenia:

Rysunek 1. Wniosek jest taki: Jestem dobrym psem. Transformer
            tłumacz przekształca dane wejściowe w tekst wyjściowy: Je suis un bon
            chien, czyli zdanie przetłumaczone na język francuski.
Rysunek 1. Aplikacja oparta na Transformerze, która tłumaczy treść z z angielskiego na francuski.

 

Pełne transformatory składają się z enkodera i dekodera:

  • enkoder konwertuje wprowadzania tekstu do reprezentacji pośredniej. Koder to ogromne możliwości sieci neuronowej.
  • dekoder konwertuje pośrednie przekształcanie w użyteczny tekst. Dekoder jest też ogromnej sieci neuronowej.

Na przykład w tłumaczu:

  • Koder przetwarza wpisany tekst (np. zdanie angielskie) w ze średnią reprezentacją.
  • Dekoder przekształca tę reprezentację pośrednią na tekst wyjściowy (na np. odpowiednik zdania w języku francuskim).
Rysunek 2.  Tłumacz oparty na Transformerze rozpoczyna się od kodera,
            która generuje pośrednią reprezentację języka angielskiego.
            zdania. Dekoder przekształca tę reprezentację pośrednią na
            zdania wyjściowego w języku francuskim.
. Rysunek 2. Transformer zawiera pełny koder i dekoder.

 

Czym jest samouważność?

Aby wzbogacić kontekst, Transformers mocno bazują na koncepcji nazywanej samouważności. Efektem jest w każdym przypadku zachęcenie do samodzielnego następujące pytanie:

„Jak każdy inny token danych wejściowych wpływa na interpretację tego token?”.

Ja podczas „uważności” odnosi się do sekwencji wejściowej. Trochę uwagi mechanizmów wagują relacje tokenów wejściowych do tokenów w sekwencji wyjściowej, takiej jak do translacji lub tokenów w innej sekwencji. Tylko dla siebie określa wagę relacji między tokenami w sekwencji wejściowej.

Aby uprościć sprawy, załóżmy, że każdy token składa się ze słowa i to jedno zdanie. Zastanów się nad następującym zdaniem:

The animal didn't cross the street because it was too tired.

Poprzednie zdanie zawiera 11 słów. Każde z 11 słów zwracam uwagę na pozostałe 10, zastanawiając się, ma znaczenie. Na przykład zwróć uwagę, że zdanie zawiera zaimek to. Zaimki są często niejednoznaczne. Zaimek it zwykle odnosi się do ostatni rzeczownik lub wyrażenie rzeczownikowe, ale w zdaniu przykładowym, który jest rzeczownikiem albo w odniesieniu do zwierząt, czy ulicy?

Mechanizm samouważności określa trafność każdego sąsiedniego słowa dla zaimek it. Wyniki na rys. 3 są – im bardziej niebieska linia, tym więcej ważne jest, aby słowo było powiązane z zaimkiem it. Na przykład słowo animal jest bardziej są ważne niż ulica dla zaimkaj.

Rysunek 3.  Trafność każdego z 11 słów w zdaniu:
            „Zwierzę nie przeszło przez ulicę, ponieważ było zbyt zmęczone”
            od zaimka „it”. Słowo „zwierzę” jest najbardziej odpowiednie dla
            zaimek „it”.
Rysunek 3. Samouważność na temat zaimków it. Od Transformer: nowatorska architektura sieci neuronowych dla Rozumowanie języka.

 

I na odwrót załóżmy, że ostatnie słowo w zdaniu zmieni się tak:

The animal didn't cross the street because it was too wide.

W tym zmodyfikowanym zdaniu osoba ulica powinna sklasyfikować jako jest bardziej trafne niż słowo animal dla zaimka it.

Niektóre mechanizmy samouważności działają dwukierunkowo, co oznacza, że obliczać wyniki trafności dla tokenów poprzedzających i po słowie w których uczestniczył(a). Na przykład na Rysunku 3 widać, że słowa po obu stronach jego. Dwukierunkowy mechanizm samodzielnej uwagi może więc gromadzić: kontekstu uwzględniającego słowa znajdujące się po obu stronach słowa, którego dotyczą. Z kolei jednokierunkowy mechanizm samouważności może gromadzić kontekst tylko ze słów z jednej strony, w której weźmie udział. Dwukierunkowe skupienie się na sobie to szczególnie przydatne do generowania reprezentacji całych sekwencji, podczas gdy aplikacje generujące sekwencje token po tokenie wymagają połączenia jednokierunkowego do samego siebie. Dlatego w koderach jest dwukierunkowa autouwaga, a dekodery używają sieci jednokierunkowej.

Czym jest interwencja wielogłowa?

Każda warstwa samouważności składa się zwykle z główne tematy. Wynikiem warstwy jest działanie matematyczne (na przykład średnia ważona lub iloczyn skalarny) danych wyjściowych mają różne głowy.

Ponieważ każda warstwa samouważności jest inicjowana przez wartości losowe, różne nagłówki może poznać zależności między uczestnikami poszczególnych słów słowa znajdujące się w pobliżu. Na przykład warstwa samouważania opisana w poprzednim kroku Skupiała się na identyfikowaniu rzeczownika, którego tam był w nim zaimek. Inne warstwy samouwagi mogą jednak nauczyć się znaczenia gramatycznego z każdego słowa lub poznaj interakcje.

Dlaczego Transformery są takie duże?

Transformery zawierają setki miliardów, a nawet biliony parameters. W tym kursie przedstawiamy ogólnie zalecane modele budynków o mniejszych większą liczbę parametrów niż te o większej liczbie parametrów. Model z mniejszą liczbą parametrów używa przecież mniejszej liczby zasobów aby tworzyć prognozy niż model o większej liczbie parametrów. Jednak badania pokazują, że transformatory o większej liczbie parametrów zawsze przewyższają Transformersy przy mniejszej liczbie parametrów.

Ale w jaki sposób LLM generuje tekst?

Wiesz już, jak naukowcy trenują LLM, aby przewidywać brakujące słowa. być może nie zaimponowało im. W końcu przewidywanie słów kluczowych funkcja autouzupełniania wbudowana w różne oprogramowanie do tworzenia tekstów, wiadomości e-mail i tekstu. Być może zastanawiasz się, jak duże modele językowe (LLM mogą generować zdania, akapity, haiku na temat arbitrażu.

LLM to zasadniczo mechanizmy autouzupełniania, które mogą automatycznie umożliwia prognozowanie (kompletne) tysięcy tokenów. Weźmy na przykład zdanie a po nim zdanie zamaskowane:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM może generować wyniki prawdopodobieństwa dla zamaskowanego zdania, w tym:

Probability, Słowa
3,1% Na przykład może siedzieć, trzymać na niebiesko.
2,9% Na przykład wie, jak siedzieć, trzymać na niebiesko.

Wystarczająco duży LLM może generować prawdopodobieństwa dla akapitów i całych wypracowaniami. Pytania użytkowników do LLM można traktować jako „dane” zdanie a następnie zmyślona maska. Na przykład:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM generuje prawdopodobieństwa dla różnych możliwych odpowiedzi.

Kolejnym przykładem jest model LLM wytrenowany na ogromnej liczbie „słów matematycznych”, problemów” może sprawiać wrażenie złożonego rozumowania matematycznego. Jednak te modele LLM po prostu automatycznie uzupełniają prompt z problemem ze słowami.

Zalety LLM

LLM mogą generować jasny, zrozumiały tekst dla szerokiego grona odbiorców dla zróżnicowanych grup odbiorców. LLM mogą prognozować zadania, którymi są na których trenowane są modele. Niektórzy badacze twierdzą, że modele LLM również mogą tworzyć prognozy dotyczące danych wejściowych, na których nie zostały bezpośrednio wytrenowane, ale inne naukowcy obalili to twierdzenie.

Problemy z modelami LLM

Trenowanie LLM wiąże się z wieloma problemami, w tym z:

  • Zebranie ogromnego zestawu treningowego.
  • Pochłania wiele miesięcy, ogromne zasoby obliczeniowe energii elektrycznej.
  • Rozwiązywanie problemów związanych z równoległością.

Użycie modeli LLM do wyciągania prognoz powoduje następujące problemy:

  • hallucynacja LLM, co oznacza, że ich prognozy często zawierają błędy.
  • LLM zużywają ogromne ilości zasobów obliczeniowych i energii elektrycznej. Trenowanie modeli LLM na większych zbiorach danych zazwyczaj zmniejsza ilość zasobów wymaganych do wnioskowania, przy czym im więcej zasobów wymagają więcej zasobów treningowych.
  • Podobnie jak wszystkie modele ML, duże modele językowe mogą wykazywać wszelkiego rodzaju uprzedzenia.

Ćwiczenie: sprawdź swoją wiedzę

Załóżmy, że Transformer został wytrenowany na miliardzie dokumentów, w tym tysiące dokumentów zawierających co najmniej jedno wystąpienie tego słowa słoń. Które z tych stwierdzeń są prawdopodobnie prawdziwe?
Drzewa akacji, które są ważnym elementem diety słoni, stopniowe zwiększenie oceny samouwagi ze słowem słoń.
Tak – dzięki temu Transformer będzie mógł odpowiadać na pytania dotyczące na diecie słonia.
Transformer powiąże słowo słoń z różnymi idiomy zawierające słowo słoń.
Tak, system zacznie stosować wysokie wyniki oceny między słowem słoń a innymi słowami w idiomy o słoniach.
Transformer będzie stopniowo uczył się ignorować wszelkie sarkastyczne lub ironiczne użycie słowa słoń w danych treningowych.
Wystarczająco duże Transformery wytrenowane na wystarczająco szerokim program treningowy radzi sobie dobrze z rozpoznawaniem sarkazmu, humoru, i ironii. Dlatego zamiast ignorować sarkazm i ironię, Transformer uczy się od niego.