Introduction to Large Language Models

Dopiero poznajesz modele językowe lub duże modele językowe? Zapoznaj się z materiałami poniżej.

Czym jest model językowy?

Model językowy to systemy uczące się model który ma na celu przewidywanie i generowanie zrozumiałego języka. Autouzupełnianie to model językowy (LLM).

Modele te oszacowują prawdopodobieństwo zaistnienia token lub tokenów występujących w dłuższej sekwencji tokenów, Rozważ następujące zdanie:

When I hear rain on my roof, I _______ in my kitchen.

Jeśli zakładamy, że token jest słowem, model językowy określa prawdopodobieństwo zastąpienia tego słowa przez inne słowa lub sekwencje podkreślenie. Model językowy może na przykład określać te parametry prawdopodobieństwa:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

„sekwencja tokenów”, może być całe zdanie lub seria zdań. Oznacza to, że model językowy może obliczać prawdopodobieństwo różnych zdania lub bloki tekstu.

Szacowanie prawdopodobieństwa wystąpienia dalszych zdarzeń w sekwencji jest przydatne w przypadku takich jak generowanie tekstu, tłumaczenie języków czy odpowiadanie. wiele pytań.

Czym jest duży model językowy?

Modelowanie języka ludzkiego na dużą skalę jest bardzo złożonym i wymagającym wielu zasobów przedsięwzięciem. Droga prowadząca do wykorzystania obecnych możliwości modeli językowych dużych modeli językowych istnieją już od kilku dekad.

Wraz z rozbudzaniem modeli rośnie ich złożoność i skuteczność. Wczesne modele językowe mogły przewidywać prawdopodobieństwo pojedynczego słowa. Nowoczesne duże modele językowe mogą przewidywać prawdopodobieństwo zdań, akapitów, a nawet całych dokumentów.

W ostatnich latach nastąpiły gwałtowne wzrosty rozmiarów i możliwości modeli językowych kilka lat wraz ze wzrostem pamięci komputera, rozmiaru zbioru danych i mocy obliczeniowej. opracowywane są skuteczniejsze metody modelowania dłuższych sekwencji tekstowych.

Jaki jest duży rozmiar?

Definicja jest przybliżona, lecz „duża” zastosowano do opisania modelu BERT (110 mln oraz PaLM 2 (do 340B parametrów).

Parametry to wagi model zapamiętany podczas trenowania i używany do prognozowania kolejnego tokena w kolejne wartości. „Duży” może odnosić się albo do liczby parametrów w modelu, czasem liczba słów w zbiorze danych.

Transformatory

Kluczowym rozwojem w modelowaniu językowym było wprowadzenie w 2017 r. Transformers, czyli architektura zaprojektowana z myślą o Uwaga. Umożliwiło to przetwarzanie dłuższych sekwencji przez skupienie się na najważniejszych częściach danych wejściowych i rozwiązanie problemów z pamięcią występujących w wcześniejszych modelach.

Transformery to najnowocześniejsza architektura przeznaczona do aplikacji do modelowania językowego, takich jak tłumacze.

Jeśli dane wejściowe to „I jestem dobrym psem”, translator oparty na Transformerze przekształca dane wejściowe w dane wyjściowe „Je suis un bon chien”, czyli to samo zdanie przetłumaczone na francuski.

Pełne modele transformerów składają się z enkoderadekodera. Koder zamienia tekst wejściowy w postać pośrednią, a dekoder przekształca tę postać pośrednią w przydatny tekst.

Skupienie się na sobie

Modele typu transformer opierają się głównie na koncepcji zwanej samouwagą. Jaskinia „samouważność” oznacza „egocentryka” dla każdego tokena w korpusie. Efektywnie, w imieniu każdego tokena wprowadzania danych, zwraca się uwagę na pytanie: czy każdy inny token wprowadzania danych ma znaczeniedla mnie?" Aby uprościć sprawy, Zakładamy, że każdy token to słowo, a pełny kontekst to jeden zdania. Rozważ zdanie:

Zwierzę nie przeszło przez ulicę, ponieważ było zbyt zmęczone.

W poprzednim zdaniu jest 11 słów, więc każde z nich jest opłacane zwracamy uwagę na pozostałe 10 słów, zastanawiając się, jak ważne jest każde z tych 10 słów do klientów. Zwróć uwagę, że zdanie zawiera zaimka to. Zaimki są często niejednoznaczne. Zaimek it zawsze odnosi się do niedawnego rzeczownika, Ale w zdaniu przykładowym, w którym najnowszy rzeczownik odnosi się do: zwierzęcia czy też na ulicę?

Mechanizm samouczenia określa trafność każdego z najbliżej położonych słów w odniesieniu do zaimka it.

Jakie są niektóre przypadki użycia LLM?

Duże modele językowe są bardzo skuteczne w wykonywaniu zadań, do których zostały stworzone, czyli generowania najbardziej prawdopodobnego tekstu w odpowiedzi na dane wejściowe. Zaczynają też wykazywać się wysoką skutecznością w innych zadaniach, takich jak streszczanie, odpowiadanie na pytania czy klasyfikacja tekstów. Są to tzw. nowych umiejętności. LLM mogą nawet rozwiązuj zadania matematyczne i napisz kod (ale warto sprawdzać praca).

LLM znakomicie naśladują wzorce mowy. Poza innymi rzeczami doskonale radzą sobie z łączeniem informacji za pomocą różnych stylów i tonów.

LLM mogą jednak być komponentami modeli, które nie tylko generować tekst. Ostatnie modele LLM zostały wykorzystane do tworzenia detektorów nastroju, klasyfikatorów toksyczności i generowania podpisów do zdjęć.

Uwagi dotyczące LLM

Tak duże modele mają wady.

Największe LLM są drogie. Potrafią trenować tak długo, zużywają mnóstwo zasobów.

Zwykle można je też wykorzystać do innych zadań, co jest cenną zaletą.

Trenowanie modeli z ponad bilionem parametrami wiąże się z wyzwaniami technicznymi. Aby zsynchronizować przepływ danych do i z urządzeń, potrzebna jest specjalna infrastruktura i techniki programowania.

Istnieją sposoby na obniżenie kosztów związanych z tymi dużymi modelami. Dostępne są 2 metody: offline inference i distillation.

Uogólnienia mogą stanowić problem w przypadku bardzo dużych modeli i należy je wziąć pod uwagę podczas trenowania i wdrażania.

Ponieważ modele te są trenowane na podstawie języka ludzkiego, mogą powodować wiele potencjalnych problemów etycznych, takich jak niewłaściwe użycie języka czy uprzedzenia dotyczące rasy, płci, religii i innych kwestii.

Powinno być jasne, że w miarę zwiększania i skuteczności tych modeli konieczne jest więc staranne zrozumienie eliminując ich wady. Więcej informacji o podejściu Google do odpowiedzialnej AI.

Więcej informacji o modelach LLM

Szukasz bardziej szczegółowych informacji o dużych modelach językowych? Zapoznaj się z nowym modułem Duże modele językoweszybkim szkoleniu z uczenia maszynowego.