Ta strona została przetłumaczona przez Cloud Translation API.

LLM: dostrajanie, oczyszczanie i inżynieria promptów

Poprzednia jednostka opisywała LLM do ogólnych zastosowań, które były znane pod różnymi nazwami:

foundation LLMs
LLMs podstawowe
wytrenowane modele LLM

Podstawowy duży model językowy jest trenowany na podstawie wystarczająco dużej ilości języka naturalnego, aby „znać” znaczną ilość informacji o gramatyce, słowach i idiomach. Model podstawowy może generować przydatne zdania na tematy, na których został przeszkolony. Ponadto podstawowa wersja LLM może wykonywać pewne zadania tradycyjnie nazywane „twórczymi”, takie jak pisanie poezji. Jednak generowany tekst przez model podstawowy LLM nie jest rozwiązaniem dla innych typów typowych problemów z ML, takich jak regresja czy klasyfikacja. W przypadku tych zastosowań podstawowa LLM może służyć jako platforma, a nie jako rozwiązanie.

Przekształcenie modelu podstawowego LLM w rozwiązanie, które spełnia potrzeby aplikacji, wymaga procesu zwanego dostrajaniem. Proces pomocniczy o nazwie distillation generuje mniejszą (mającą mniej parametrów) wersję dopracowanego modelu.

Dostrajanie

Badania pokazują, że zdolności do rozpoznawania wzorców przez podstawowe modele językowe są tak duże, że czasami wymagają stosunkowo niewielkiego dodatkowego treningu, aby nauczyć się konkretnych zadań. Ten dodatkowy trening pomaga modelowi lepiej przewidywać wyniki w przypadku konkretnego zadania. To dodatkowe szkolenie, nazywane dostrojem, pozwala wykorzystać praktyczną stronę LLM.

Dostrojenie polega na trenowaniu modelu na przykładach odpowiadających zadaniom, które będzie wykonywać aplikacja. Czasami inżynierowie mogą dostosować podstawową LLM na podstawie zaledwie kilkuset lub kilku tysięcy przykładów treningowych.

Pomimo stosunkowo niewielkiej liczby przykładów treningowych standardowe dostrojenie często jest kosztowne pod względem zasobów obliczeniowych. Dzieje się tak, ponieważ standardowe dostrojenie polega na aktualizowaniu wagi i uśrednienia każdego parametru w każdej iteracji propagacji wstecznej. Na szczęście istnieje inteligentniejszy proces o nazwie optymalizacja pod kątem efektywności parametrów, który pozwala dostosować model LLM przez dostosowanie tylko podzbioru parametrów w każdej iteracji propagacji wstecznej.

Prognozy modelu dostrojonego są zwykle lepsze niż prognozy modelu podstawowego LLM. Dostrojony model zawiera jednak taką samą liczbę parametrów co model podstawowy LLM. Jeśli więc model podstawowy LLM zawiera 10 mld parametrów, jego wersja z dostrajaniem będzie też zawierać 10 mld parametrów.

Destylacja

Większość dopracowanych modeli LLM zawiera ogromną liczbę parametrów. W konsekwencji LLM-e podstawowe wymagają ogromnych zasobów obliczeniowych i środowiskowych do generowania prognoz. Pamiętaj, że większość tych parametrów jest zazwyczaj nieistotna w przypadku konkretnej aplikacji.

Oczyszczanie tworzy mniejszą wersję modelu LLM. Oczyszczony model LLM generuje prognozy znacznie szybciej i wymaga mniej zasobów obliczeniowych oraz środowiskowych niż pełny model LLM. Prognozy modelu skoncentrowanego są jednak zwykle mniej dokładne niż prognozy oryginalnego modelu LLM. Pamiętaj, że modele LLM z większą liczbą parametrów prawie zawsze generują lepsze prognozy niż modele LLM z mniejszą liczbą parametrów.

Kliknij ikonę, aby dowiedzieć się, jak działa destylacja.

Najczęstszą formą destylacji jest użycie zbiorczego wnioskowania do oznaczenia danych. Te otagowane dane są następnie wykorzystywane do trenowania nowego, mniejszego modelu (zwanego modelem ucznia), który może być tańszy w eksploatacji. Oznaczone etykietami dane służą jako kanał, za pomocą którego większy model (znany jako model nauczyciela) przekazuje swoją wiedzę mniejszemu modelowi.

Załóżmy na przykład, że potrzebujesz systemu do automatycznej moderacji komentarzy, który ocenia toksyczność treści online. W takim przypadku możesz użyć dużego systemu oceniania toksyczności offline do oznaczenia danych treningowych. Następnie możesz użyć tych danych treningowych, aby wyodrębnić model oceny toksyczności, który jest wystarczająco mały, aby można go było udostępniać i obsługiwać w czasie rzeczywistym.

Model nauczyciela może czasami dostarczać więcej danych z oznaczonymi etykietami niż te, na których był trenowany. Model nauczyciela może też przekazywać modelowi ucznia wynik liczbowy zamiast binarnej etykiety. Wynik liczbowy zapewnia bogatszy sygnał treningowy niż etykieta binarna, umożliwiając modelowi ucznia przewidywanie nie tylko pozytywnych i negatywnych klas, ale także klas na granicy.

Tworzenie promptów

Prompt engineering umożliwia użytkownikom LLM dostosowywanie danych wyjściowych modelu. Oznacza to, że użytkownicy końcowi określają, jak LLM ma odpowiedzieć na prompt.

Ludzie dobrze uczą się na przykładach. Podobnie jest w przypadku modeli LLM. Wyświetlanie jednego przykładu dla LLM nazywa się promptem „one-shot”. Załóżmy na przykład, że chcesz, aby model używał tego formatu do zwracania rodziny owoców:

Użytkownik podaje nazwę owocu: LLM zwraca klasę tego owocu.

Prompt jednorazowy pokazuje modelowi LLM pojedynczy przykład formatu, a potem prosi go o wykonanie zapytania na podstawie tego przykładu. Przykład:

peach: drupe
apple: ______

Czasami wystarczy jeden przykład. Jeśli tak, LLM wygeneruje przydatne przewidywanie. Przykład:

apple: pome

W innych przypadkach jeden przykład może nie wystarczyć. Oznacza to, że użytkownik musi pokazać LLM wiele przykładów. Na przykład poniższy prompt zawiera 2 przykłady:

plum: drupe
pear: pome
lemon: ____

Podanie wielu przykładów to prompting z kilku przykładów. Pierwsze 2 wiersze powyższego prompta można uznać za przykłady do treningu.

Czy LLM może dostarczać przydatnych prognoz bez przykładów (prompting)? Czasami tak, ale LLM-y lubią kontekst. Bez kontekstu ten prompt bez kontekstu może zwrócić informacje o firmie technologicznej, a nie owocu:

apple: _______

Wnioskowanie offline

Liczba parametrów w LLM jest czasami tak duża, że przetwarzanie online jest zbyt powolne, aby było praktyczne w przypadku zadań rzeczywistych, takich jak regresja czy klasyfikacja. W rezultacie wiele zespołów inżynierów korzysta z uzyskiwania informacji offline (znanego też jako uzyskiwanie informacji zbiorczo lub uzyskiwanie informacji statycznej). Inaczej mówiąc, zamiast odpowiadać na zapytania w momencie ich wyświetlania, przeszkolony model prognozuje wyniki z wyprzedzeniem, a następnie zapisuje je w pamięci podręcznej.

Nie ma znaczenia, czy LLM potrzebuje dużo czasu na wykonanie zadania, jeśli ma je wykonywać tylko raz w tygodniu lub raz w miesiącu.

Na przykład wyszukiwarka Google wykorzystała LLM do przeprowadzania wnioskowania offline, aby przechowywać w pamięci podręcznej listę ponad 800 synonimów szczepionek na COVID-19 w ponad 50 językach. Następnie wyszukiwarka Google używała tej listy do zidentyfikowania zapytań dotyczących szczepionek w ruchu rzeczywistym.

Odpowiedzialne korzystanie z LLM

Podobnie jak inne formy uczenia maszynowego, duże modele językowe mają zazwyczaj te same uprzedzenia:

Dane, na których je wytrenowano.
dane, na których zostały one wyodrębnione;

Używaj LLM w sposób uczciwy i odpowiedzialny, zgodnie z wytycznymi podanymi w modułach danych i module uczciwości.

Ćwiczenie: sprawdź swoją wiedzę

Które z tych stwierdzeń na temat modeli wielopoziomowych jest prawdziwe?

Uproszczony model LLM zawiera mniej parametrów niż model podstawowy, z którego powstał.

Tak, destylacja zmniejsza liczbę parametrów.

Dostrojony model LLM zawiera mniej parametrów niż model językowy, na podstawie którego został on trenowany.

Dopracowany model zawiera tyle samo parametrów co oryginalny językowy model podstawowy.

W miarę jak użytkownicy coraz częściej korzystają z promptów, liczba parametrów w LLM rośnie.

Inżynieria promptów nie powoduje dodawania (ani usuwania ani modyfikowania) parametrów LLM.

Wstecz

Czym jest duży model językowy? (15 min)

Dalej

Sprawdź swoją wiedzę (10 min)