Ta strona zawiera terminy z glosariusza oceny języka. Aby zobaczyć wszystkie terminy ze glosariusza, kliknij tutaj.
O
uwaga
Mechanizm używany w sieci neuronowej, który wskazuje znaczenie określonego słowa lub jego części. Uwaga kompresuje ilość informacji, których model potrzebuje do prognozowania następnego tokena/słowa. Typowy mechanizm uwagi może składać się z sumy ważonej i zbioru danych wejściowych, w którym waga poszczególnych danych wejściowych jest obliczana przez inną część sieci neuronowej.
Zapoznaj się też z sekcjami samodzielnej uwagi i samodzielnej uwagi, które są elementami składowymi Transformers.
autokoder
System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autokodery to połączenie kodera i dekodera. Autokodery bazują na tym 2-etapowym procesie:
- Koder mapuje dane wejściowe na (zwykle) stratny format mniejwymiarowy (średniozaawansowany).
- Dekoder buduje stratną wersję pierwotnych danych wejściowych, mapując niższy format na bardziej standardowy.
Autokodery są w pełni trenowane przez dekoder próbujący jak najdokładniej odtworzyć pierwotne dane wejściowe z formatu pośredniego kodera. Format pośredni jest mniejszy (niższe wymiary) niż format oryginalny, więc autokoder musi nauczyć się, jakie informacje wejściowe są niezbędne, a wyniki nie będą idealnie identyczne z danymi wejściowymi.
Na przykład:
- Jeśli dane wejściowe mają charakter graficzny, to niedokładna kopia jest podobna do oryginalnej grafiki, ale zmodyfikowana. Być może kopia niedokładna usunie szum z oryginalnej grafiki lub uzupełni brakujące piksele.
- Jeśli dane wejściowe to tekst, autokoder wygeneruje nowy tekst, który naśladuje (ale nie jest taki sam) tekst oryginalny.
Zobacz też różne autokodery.
model autoregresywny
model, który ustala prognozę na podstawie własnych wcześniejszych prognoz. Na przykład automatycznie regresywne modele językowe prognozują następny token na podstawie wcześniej prognozowanych tokenów. Wszystkie duże modele językowe, które opierają się na Transformerze, są autoregresywne.
W przeciwieństwie do tego modele graficzne oparte na GAN zwykle nie podlegają automatycznej regresji, ponieważ generują obraz w ramach pojedynczego przejścia do przodu, a nie iteracyjnie. Jednak niektóre modele generowania obrazów są autoregresywne, ponieważ generują obrazy krok po kroku.
B
worek słów
Reprezentacja słów w wyrażeniu lub pasażu, niezależnie od kolejności. Np. worek słów reprezentuje 3 wyrażenia identycznie:
- pies podskakuje
- podskakuje psa
- pies skacze
Każde słowo jest mapowane na indeks w wektorze jednostajnym, gdzie wszystkie słowa w słownicy mają indeks. Na przykład wyrażenie pies skacze jest mapowane na wektor cech z wartościami innymi niż zero w 3 indeksach odpowiadających słowom the, pies i skomp. Wartość różna od zera może być dowolną z tych wartości:
- 1 oznacza obecność słowa.
- Liczba wystąpień słowa w torbie. Jeśli np. wyrażenie brzmi: kasztanowy pies to pies z kasztanowcowym futrem, obie te wartości będą podane jako kasztanowy i pies, a pozostałe słowa będą podane jako 1.
- Inna wartość, na przykład logarytm liczby wystąpień słowa w torbie.
BERT (dwukierunkowe reprezentacje koderów z transformerów)
Architektura modelu reprezentowania tekstu. Wytrenowany model BERT może działać jako część większego modelu na potrzeby klasyfikacji tekstu lub innych zadań ML.
Algorytm BERT wyróżnia się tymi cechami:
- Wykorzystuje architekturę Transformer, więc wymaga samodzielnej uwagi.
- Używa kodera transformera. Zadaniem kodera jest uzyskanie dobrych reprezentacji tekstu zamiast wykonywania określonego zadania, takiego jak klasyfikacja.
- Jest dwukierunkowa.
- Wykorzystuje maskowanie na potrzeby trenowania nienadzorowanego.
Warianty BERT to:
Omówienie BERT znajdziesz w artykule Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Process
dwukierunkowe
Termin opisujący system oceniający tekst, który zarówno kończy, jak i następuje po docelowej sekcji tekstu. Natomiast system jednokierunkowy ocenia tylko tekst, który przedstawia docelową sekcję tekstu.
Rozważmy na przykład model językowy z maskowaniem, który musi określać prawdopodobieństwo w przypadku słowa lub słów podkreślających podkreślenie w tym pytaniu:
Co u Ciebie _____?
Jednokierunkowy model językowy musiałby oprzeć swoje prawdopodobieństwo wyłącznie na podstawie kontekstu zawierającego słowa „co”, „to jest” i „to”. W przeciwieństwie do tego dwukierunkowy model językowy może też uzyskać kontekst dzięki danym „z to” i „ty”, co może pomóc w generowaniu lepszych prognoz.
dwukierunkowy model językowy
Model językowy, który określa prawdopodobieństwo wystąpienia danego tokena w danym miejscu we fragmencie tekstu na podstawie poprzedniego i następującego tekstu.
bigram
N-gram, w którym N=2.
BLEU (Bilingual Evaluation Understudy)
Wynik między 0, 0 a 1, 0 włącznie, który wskazuje jakość tłumaczenia między 2 językami ludzkimi (np. angielskim i rosyjskim). Wynik BLEU równy 1,0 oznacza tłumaczenie idealne, a wynik BLEU równy 0,0 oznacza tragiczne tłumaczenie.
C
przyczynowy model językowy
Synonim terminu jednokierunkowy model językowy.
Zapoznaj się z sekcją Dwukierunkowy model językowy, aby porównać różne podejścia kierunkowe w modelowaniu języka.
wykorzystanie w prompcie łańcucha myśli
Technika inżynierii promptów, która zachęca do stworzenia dużego modelu językowego (LLM) do szczegółowego wyjaśnienia jego uzasadnienia. Zwróćmy uwagę na przykład na drugie zdanie:
Ile razy siła napędowa będzie odczuwalna przez kierowcę w samochodzie, który porusza się z prędkością od 0 do 100 km/h w 7 sekund? W odpowiedzi wyświetl wszystkie odpowiednie obliczenia.
Odpowiedź LLM prawdopodobnie:
- Pokaż sekwencję wzorów fizycznych, umieszczając wartości 0, 60 i 7 w odpowiednich miejscach.
- Wyjaśnij, dlaczego wybrał te wzory i co oznaczają różne zmienne.
Prompt łańcucha myśli zmusza LLM do wykonywania wszystkich obliczeń, co może prowadzić do uzyskania bardziej poprawnej odpowiedzi. Poza tym żądanie łańcucha myśli umożliwia użytkownikowi analizowanie kroków wykonywanych przez model LLM w celu określenia, czy dana odpowiedź ma sens.
czat
Treść dialogu z wykorzystaniem systemu ML, zwykle dużego modelu językowego. Poprzednia interakcja na czacie (czyli to, co wpisujesz i jak odpowiedział duży model językowy) staje się kontekstem dla kolejnych części czatu.
Czatbot to aplikacja dużego modelu językowego (LLM).
konfabulacja
Synonim terminu hallucynacja.
Konfabacja jest prawdopodobnie trafniejsza pod względem technicznym niż termin „halucynacje”. Jednak najpierw zaczęły go rosnąć halucynacje.
analiza okręgów wyborczych
Podzielenie zdania na mniejsze struktury gramatyczne („elementy składowe”). Późniejsza część systemu ML, na przykład model rozumienia języka naturalnego, może ułatwić analizę komponentów niż pierwotne zdanie. Weźmy na przykład to zdanie:
Mój przyjaciel adoptował dwa koty.
Parser okręgów może podzielić to zdanie na te 2 komponenty:
- Mój przyjaciel to wyrażenie rzeczownikowe.
- adopcja dwóch kotów to typowy czasownik.
Składniki te można dodatkowo podzielić na mniejsze części składowe. Na przykład w przypadku czasownika
adoptowali dwa koty
można bardziej podzielić na:
- adopted to czasownik.
- dwa koty to kolejne wyrażenie rzeczownikowe.
umieszczanie języka z kontekstem
Umieszczanie, które jest zbliżone do „rozumienia” słów i wyrażeń w sposób dostępny dla rodzimych użytkowników języka. Kontekstowe umieszczanie języków pozwala zrozumieć złożoną składnię, semantykę i kontekst.
Rozważ np. osadzanie angielskich słów cow. Starsze reprezentacje właściwości, np. word2vec, mogą reprezentować angielskie słowa na przykład tak, że odległość w obszarze umieszczania od krowa do byka jest podobna do odległości ewe (owca końska) do barana (owca) lub od samicy do mężczyzny. Kontekstowe osadzenia języków mogą iść o krok dalej, bo osoby anglojęzyczne czasami używają słowa krowa w odniesieniu do krowy lub byka.
okno kontekstu
Liczba tokenów, które model może przetworzyć w danym prompcie. Im większe okno kontekstu, tym więcej informacji model może wykorzystać, aby udzielić spójnych i spójnych odpowiedzi na prompt.
rozkwit
Zdanie lub wyrażenie o niejednoznacznym znaczeniu. Wzrost liczby drzew jest poważnym problemem dla rozumienia języka naturalnego. Na przykład nagłówek Czerwona taśma trzymająca drapacz chmur odnosi się do rozkwitu rozkwitu, ponieważ model NLU może interpretować nagłówek dosłownie lub w sposób obrazowy.
D
dekoder
Ogólnie rzecz biorąc, każdy system ML, który przekształca reprezentację przetworzoną, gęstą lub wewnętrzną na reprezentację bardziej nieprzetworzoną, rzadką lub zewnętrzną.
Dekodery są często częścią większego modelu, w którym często są parowane z koderem.
W zadaniach sekwencyjnych do sekwencji dekoder rozpoczyna się od stanu wewnętrznego wygenerowanego przez koder, aby przewidywać następną sekwencję.
Definicję dekodera w architekturze Transformera znajdziesz w artykule Transformer.
odszumianie
Popularne podejście do nauczania samonadzorowanego, w którym:
Funkcja wyciszania szumów umożliwia uczenie się na podstawie przykładów bez etykiet. Pierwotny zbiór danych służy jako element docelowy lub etykieta, a zaszumiane dane jako dane wejściowe.
Niektóre modele językowe z maskowaniem stosują wyciszanie szumów w ten sposób:
- Szum jest sztucznie dodany do zdania bez etykiety przez maskowanie niektórych tokenów.
- Model próbuje przewidzieć pierwotne tokeny.
prompty bezpośrednie
Synonim dla promptów typu „zero-shot”.
E
edytuj odległość
Pomiar podobieństwa do siebie dwóch ciągów tekstowych. W systemach uczących się zmiana odległości jest przydatna, ponieważ łatwo ją obliczyć i skuteczny sposób na porównanie dwóch ciągów znaków, o których wiadomo, że są podobne, lub znalezienie kolejnych, które są podobne do danego ciągu znaków.
Istnieje kilka definicji odległości edycji, przy czym każda z nich wykorzystuje inne operacje na ciągach znaków. Na przykład odległość do levenshtein uwzględnia najmniejszą liczbę operacji usuwania, wstawiania i zastępowania.
Na przykład odległość Levenshteina między słowami „serce” i „rzutki” wynosi 3, ponieważ te 3 zmiany to najmniejsza liczba zmian, które powodują zamianę jednego słowa w inne:
- serce → deart (zastąp literę „h” literą „d”)
- deart → dart (usuń „e”)
- rzutka → rzutki (wstaw „s”)
warstwa umieszczania
Specjalna warstwa ukryta, która trenuje na wysokowymiarowej kategoriowej funkcji, aby stopniowo uczyć się wektorów osadzania niższego wymiaru. Warstwa osadzania pozwala sieci neuronowej trenować o wiele efektywniej niż trenowanie tylko na wysokowymiarowych cechach kategorialnych.
Na przykład Earth obsługuje obecnie około 73 000 gatunków drzew. Załóżmy, że gatunek drzewa jest cechą w Twoim modelu,więc warstwa wejściowa modelu zawiera jednogorący wektor o długości 73 000 elementów.
baobab
może być na przykład reprezentowany tak:
Tablica 73 tys. elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy dystrybucyjnej, trenowanie będzie bardzo czasochłonne z powodu mnożenia 72 999 zer. Możesz np. wybrać warstwę osadzania tak, aby składała się z 12 wymiarów. W efekcie warstwa osadzania stopniowo uczy się nowych wektorów reprezentacji dla każdego gatunku drzew.
W niektórych sytuacjach szyfrowanie jest rozsądną alternatywą dla warstwy umieszczania.
przestrzeń do przechowywania danych
Mapa jest przyporządkowana do przestrzeni wektorowej d obejmującej więcej przestrzeni wektorowych. W idealnym przypadku obszar osadzania zawiera strukturę, która pozwala na uzyskiwanie istotnych wyników matematycznych. Na przykład w idealnej przestrzeni osadzania dodawanie i odejmowanie wektorów dystrybucyjnych może rozwiązywać zadania analogiczne.
Iloczyn skalarny dwóch reprezentacji właściwościowych określa ich podobieństwo.
wektor dystrybucyjny
Ogólnie rzecz biorąc, jest to tablica liczb zmiennoprzecinkowych pobranych z dowolnej ukrytej warstwy, która opisuje dane wejściowe do tej ukrytej warstwy. Często wektor reprezentacji właściwościowych to tablica liczb zmiennoprzecinkowych wytrenowanych w warstwie dystrybucyjnej. Załóżmy np., że warstwa osadza musi nauczyć się wektora dystrybucyjnego dla każdego z 73 000 gatunków drzew na Ziemi. Może ona być wektorem reprezentacji właściwościowej drzewa baobaba:
Wektor reprezentacji właściwościowych nie jest blokiem losowych liczb. Warstwa osadzania określa te wartości przez trenowanie, podobnie jak sieć neuronowa uczy się innych wag podczas trenowania. Każdy element tablicy to ocena dotycząca pewnej cechy gatunku drzew. Który element reprezentuje cechy charakterystyczne gatunku? Człowiek trudno to określić.
Istotną matematyczną cechą wektora dystrybucyjnego jest to, że podobne elementy mają podobne zestawy liczb zmiennoprzecinkowych. Na przykład podobne gatunki drzew mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż różne gatunki drzew. Sekwoje i sekwoje są spokrewnionymi gatunkami drzew, więc mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż sekwoje i palmy kokosowe. Liczby we wektorze reprezentacji właściwościowej zmieniają się za każdym razem, gdy ponownie trenujesz model, nawet jeśli ponownie wytrenujesz model z identycznymi danymi wejściowymi.
koder
Mówiąc ogólnie, każdy system ML, który przekształca reprezentację nieprzetworzoną, rzadką lub zewnętrzną w bardziej przetworzoną, zwartą lub bardziej wewnętrzną reprezentację.
Kodery są często częścią większego modelu, w którym są często parowane z dekoderem. Niektóre Transformery parują kodery z dekoderami, natomiast inne korzystają tylko z enkodera lub tylko dekodera.
Niektóre systemy używają danych wyjściowych kodera jako danych wejściowych do sieci klasyfikacji lub regresji.
W zadaniach z sekwencji do sekwencji koder przyjmuje sekwencję wejściową i zwraca stan wewnętrzny (wektor). Następnie na podstawie tego stanu wewnętrznego dekoder przewiduje następną sekwencję.
Definicję kodera w architekturze Transformera znajdziesz w artykule Transformer.
F
prompt typu „few-shot”
Komunikat zawierający więcej niż 1 (kilka) przykład pokazujący, jak powinien zareagować duży model językowy. Na przykład ten długi prompt zawiera 2 przykłady pokazujące, jak uzyskać odpowiedź na zapytanie za pomocą dużego modelu językowego (LLM).
Elementy jednego promptu | Notatki |
---|---|
Jaka jest oficjalna waluta danego kraju? | Pytanie, na które ma odpowiedzieć LLM. |
Francja: EUR | Przykład: |
Wielka Brytania: GBP | Kolejny przykład. |
Indie: | Faktyczne zapytanie. |
Prompty typu „few-shot” dają zwykle lepsze wyniki niż prompty „zero-shot” i one-shot. Jednak takie prompty wymagają dłuższego promptu.
Prompt „few-shot” to rodzaj modelu „few-shot learning”, który można zastosować w nauczaniu opartym na promptach.
Skrzypce
Biblioteka konfiguracji oparta na Pythonie, która ustawia wartości funkcji i klas bez inwazyjnego kodu i infrastruktury. W przypadku Pax i innych baz kodu ML te funkcje i klasy reprezentują modele i trenowanie hiperparametrów.
W przypadku Fiddle bazy kodu systemów uczących się są zwykle podzielone na:
- Kod biblioteki, który definiuje warstwy i optymalizatory.
- Kod zbioru danych „klej”, który wywołuje biblioteki i łączy wszystko razem.
Fiddle przechwytuje strukturę wywołania kodu glue w nieocenionej i zmiennej postaci.
dostrajanie
Drugie karnet treningowy, który jest wykonywany na podstawie wstępnie wytrenowanego modelu, aby doprecyzować jego parametry pod kątem konkretnego przypadku użycia. Na przykład pełna sekwencja trenowania w przypadku niektórych dużych modeli językowych wygląda tak:
- Wstępne szkolenie: wytrenuj duży model językowy na dużym ogólnym zbiorze danych, takim jak wszystkie anglojęzyczne strony w Wikipedii.
- Dostrajanie: wytrenuj już wytrenowany model tak, aby wykonał określone zadanie, np. odpowiadał na zapytania medyczne. Dostrajanie obejmuje zwykle setki lub tysiące przykładów dotyczących konkretnego zadania.
Kolejny przykład to pełna sekwencja trenowania w przypadku dużego modelu obrazu:
- Przedtrenowanie: wytrenuj duży model obrazów na dużym, ogólnym zbiorze danych obrazów, takim jak wszystkie obrazy w Wikimedia Commons.
- Dostrajanie: wytrenuj już wytrenowany model tak, aby wykonał określone zadanie, takie jak generowanie obrazów orek.
Dostrajanie może obejmować dowolną kombinację tych strategii:
- Modyfikowanie wszystkich parametrów wytrenowanego modelu. Czasami nazywa się to pełnym dostrajeniem.
- Modyfikowanie tylko niektórych dotychczasowych parametrów wytrenowanego modelu (zwykle warstw najbliżej warstwy wyjściowej), pozostawiając niezmienione pozostałe parametry (zwykle warstwy są najbliżej warstwy wejściowej). Zobacz dostrajanie z uwzględnieniem parametrów.
- Dodanie większej liczby warstw, zwykle nad istniejącymi warstwami najbliżej warstwy wyjściowej.
Dostrajanie to forma nauki transferowej. W związku z tym dostrajanie może korzystać z innej funkcji straty lub innego typu modelu niż te używane do trenowania już wytrenowanego modelu. Możesz na przykład dostroić wytrenowany model dużego obrazu, aby uzyskać model regresji, który zwraca liczbę ptaków na obrazie wejściowym.
Porównaj dostrajanie z tymi terminami:
Len
Wydajna biblioteka typu open source do deep learningu oparta na języku JAX. Flax udostępnia funkcje do trenowania sieci neuronowych, a także metody oceny ich wydajności.
Lniane formy
Biblioteka typu open source Transformer, oparta na Flax, przeznaczona przede wszystkim do przetwarzania języka naturalnego i badań multimodalnych.
G
generatywna AI
Rozwijające się pole, które nie jest formalne. Mimo to większość ekspertów zgadza się, że modele generatywnej AI mogą tworzyć („generować”) treści, które:
- złożone
- spójne
- oryginał
Na przykład generatywny model AI może tworzyć zaawansowane wypracowania lub obrazy.
Niektóre wcześniejsze technologie, w tym LSTM i RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci postrzegają te wcześniejsze technologie jako generatywną AI, a inni uważają, że prawdziwa generatywna AI wymaga bardziej złożonych wyników niż te, które można uzyskać dzięki nim.
Porównaj to z systemami uczącymi się prognozowanymi.
GPT (wytrenowany generatywny transformator)
Rodzina dużych modeli językowych opartych na Transformerze i opracowanych przez OpenAI.
Warianty GPT mogą mieć zastosowanie w wielu modalnościach, na przykład:
- generowanie obrazów (np. ImageGPT),
- zamiany tekstu na obraz (np. DALL-E).
H
halucynacje
Tworzenie przez model generatywnej AI wyników, które wydają się wiarygodne, ale niepoprawne pod względem merytorycznym, które sugerują, że odnoszą się do świata rzeczywistego. Na przykład generatywny model AI, w którym twierdzi się, że Barack Obama zmarł w 1865 roku, to hallucynacja.
I
nauka w kontekście
Synonim dla promptów typu „few-shot”.
L
LaMDA (Language Model for Dialogue Applications)
duży model językowy oparty na Transformerze, opracowany przez Google i wytrenowany na dużym zbiorze dialogów, który może generować realistyczne odpowiedzi konwersacyjne.
W skrócie: LaMDA – nasza przełomowa technologia konwersacyjna.
model językowy
model, który ocenia prawdopodobieństwo wystąpienia model lub sekwencji tokenów w dłuższej kolejności.
duży model językowy
Termin nieformalny bez ścisłej definicji oznacza zwykle model językowy z dużą liczbą parametrów. Niektóre duże modele językowe zawierają ponad 100 mld parametrów.
przestrzeń utajona
Synonim terminu umieszczanie przestrzeni.
LLM
Skrót od wyrażenia big model language (duży model językowy).
LoRA
Skrót od terminu Niska pozycja w rankingu.
Dostosowanie do niskiej pozycji (LoRA)
Algorytm do efektywnego dostrajania parametrów, który dostraja tylko podzbiór parametrów dużego modelu językowego. LoRA zapewnia następujące korzyści:
- Szybsze dostrajanie niż techniki, które wymagają dostrajania wszystkich parametrów modelu.
- Zmniejsza koszt obliczeniowy wnioskowania w dostrojonym modelu.
Model dostrojony przy użyciu LoRA utrzymuje lub poprawia jakość prognoz.
LoRA umożliwia stosowanie wielu wyspecjalizowanych wersji modelu.
P
maskowany model językowy
Model językowy prognozujący prawdopodobieństwo wypełnienia pustych pól w sekwencji przez tokeny kandydatów. Na przykład model językowy z maskowaniem może obliczyć prawdopodobieństwo, że propozycje słów kluczowych zastąpią podkreślenie w tym zdaniu:
____ w kapeluszu wróciła.
W literaturze zamiast podkreślenia jest zazwyczaj używany ciąg „MASK”. Na przykład:
„MASK” z kapelusza wróciła.
Większość nowoczesnych modeli językowych z maskowaniem jest dwukierunkowa.
metauczenie się
Podzbiór systemów uczących się, który znajduje lub ulepsza algorytm uczenia. System metauczący się może również trenować model tak, aby szybko nauczył się nowych zadań na podstawie niewielkiej ilości danych lub z doświadczenia zdobytego w poprzednich zadaniach. Algorytmy metauczenia się zazwyczaj dążą do osiągnięcia tych celów:
- ulepszanie lub poznawanie ręcznie opracowanych funkcji (takich jak inicjator czy optymalizator).
- zwiększyć wydajność przetwarzania danych i mocy obliczeniowej;
- Usprawnij uogólnienie.
Meta-uczenie jest powiązane z kilkoma uczeniem się.
modalność
Ogólna kategoria danych. Na przykład liczby, tekst, obrazy, filmy i dźwięki to 5 różnych modalności.
równoległość modeli
Sposób skalowania trenowania lub wnioskowania, który polega na umieszczaniu różnych części model na różnych model. Równoległość modeli umożliwia korzystanie z modeli, które są zbyt duże, aby zmieścić się na jednym urządzeniu.
Aby wdrożyć równoległość modelu, system zwykle wykonuje te czynności:
- Fragmenty (dzielą) model na mniejsze części.
- Rozprowadza trenowanie tych mniejszych części na wielu procesorach. Każdy procesor trenuje własną część modelu.
- Łączy wyniki, aby utworzyć jeden model.
Równoległość modelu spowalnia trenowanie.
Zobacz też artykuł na temat równoległości danych.
samouczenie się
Rozszerzenie uwagi, które wielokrotnie stosuje mechanizm samodzielnego utrzymywania uwagi w przypadku każdej pozycji w sekwencji wejściowej.
W projekcie Transformers pojawiła się koncepcja wielogłowego skupienia uwagi.
model multimodalny
Model, którego dane wejściowe lub wyjściowe zawierają więcej niż 1 modalność. Załóżmy na przykład, że jako funkcje używane są zarówno obraz, jak i podpis tekstowy (2 modalności), i zwraca wynik wskazujący, w jakim stopniu podpis tekstowy jest dopasowany do obrazu. Dane wejściowe tego modelu są multimodalne, a wyniki unimodalne.
N
rozumienie języka naturalnego
Określanie intencji użytkownika na podstawie tego, co wpisał lub powiedział. Na przykład wyszukiwarka używa rozumienia języka naturalnego, aby określić, czego szuka użytkownik na podstawie tego, co wpisał lub powiedział użytkownik.
N-gram
Uporządkowana sekwencja N słów. Na przykład słowo prawdziwe szaleństwo ma wartość 2 gramów. Ponieważ kolejność ma znaczenie, ale tak naprawdę to dwa gramy, które różnią się od prawdziwości szalonej.
N | Nazwy dla tego rodzaju N-gramów | Przykłady |
---|---|---|
2 | bigram, czyli 2 gramy | iść, jechać, zjeść obiad, zjeść kolację |
3 | trygram lub 3 gramy | zdało się za dużo, trzy niewidome myszki, dzwonki i dzwonki |
4 | 4 gramy | spacerować w parku, pył na wietrze, chłopiec zjadł soczewicę |
Wiele modeli rozumienia języka naturalnego opiera się na N-gramach do przewidywania następnego słowa, które użytkownik wpisze lub powie. Załóżmy np., że użytkownik wpisał trzy ślepy. Model NLU oparty na trygramach prawdopodobnie przewidzi, że użytkownik następnym razem wpisze myszy.
Porównaj N gramów z torbą słów, czyli nieuporządkowanymi zestawami słów.
NLU
Skrót od rozumienia języka naturalnego.
O
prompt z pytaniem „one-shot”
Wskazówka zawierająca jeden przykład ilustrujący, jak powinien zareagować duży model językowy. Na przykład ten prompt zawiera 1 przykład z dużym modelem językowym pokazującym, jak powinien odpowiedzieć na zapytanie.
Elementy jednego promptu | Notatki |
---|---|
Jaka jest oficjalna waluta danego kraju? | Pytanie, na które ma odpowiedzieć LLM. |
Francja: EUR | Przykład: |
Indie: | Faktyczne zapytanie. |
Porównaj prośby „one-shot” z tymi terminami:
P
dostrajanie z wykorzystaniem parametrów
Zestaw technik do dostrajania dużego wytrenowanego modelu językowego (PLM) skuteczniej niż pełne dostrajanie. Dostrajanie bez użycia parametrów pozwala zwykle dopracować znacznie mniej parametrów niż pełne dostrajanie, ale ogólnie pozwala uzyskać duży model językowy, który działa równie dobrze (lub prawie tak samo) jak duży model językowy zbudowany z pełnego dostrajania.
Porównaj dostrajanie z wykorzystaniem parametrów:
Dostrajanie z uwzględnieniem parametrów jest też nazywane dostrajaniem z wykorzystaniem parametrów.
potokowanie
Forma równoległości do modelu, w której przetwarzanie modelu jest podzielone na kolejne etapy, a każdy etap jest wykonywany na innym urządzeniu. Gdy etap przetwarza 1 wsad, poprzedni etap może działać w następnej.
Zobacz też trenowanie etapowe.
PLM
Skrót od wyrażenia wytrenowanego modelu językowego.
kodowanie pozycyjne
Metoda dodawania w sekwencji informacji o pozycji tokena do jego umieszczania. Modele transformatorów wykorzystują kodowanie pozycjonujące, aby lepiej zrozumieć relacje między różnymi częściami sekwencji.
Powszechna implementacja kodowania pozycyjnego wykorzystuje funkcję sinusoidalną. (W szczególności częstotliwość i amplituda funkcji sinusoidalnej są określane przez pozycję tokena w sekwencji). Ta technika umożliwia modelowi Transformera naukę uczestniczenia w różnych częściach sekwencji w zależności od ich pozycji.
wytrenowany model
Modele lub komponenty modelu (np. wektor do umieszczania), które zostały już wytrenowane. Czasami umieszczasz wytrenowane wektory dystrybucyjne do sieci neuronowej. Innym razem model będzie trenować same wektory dystrybucyjne i nie korzystać z wytrenowanych wcześniej wektorów dystrybucyjnych.
Termin wstępnie wytrenowany model językowy odnosi się do dużego modelu językowego, który został poddany wstępnym trenowaniu.
przedtrenowanie
Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane modele to niezdarne giganty, które trzeba zwykle dopracować przez dodatkowe szkolenie. Eksperci ds. systemów uczących się mogą na przykład wstępnie wytrenować duży model językowy na ogromnym zbiorze danych tekstowych, takim jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu model można następnie doprecyzować za pomocą jednej z tych metod:
- destylację
- dostrajanie
- dostrajanie instrukcji
- dostrajanie z uwzględnieniem parametrów
- dostrajanie promptów
prośba
Dowolny tekst wpisany jako dane wejściowe do dużego modelu językowego, aby uwarunkować model tak, aby działał w określony sposób. Mogą być krótkie, jak zdanie, lub dowolnie długie (np. cały tekst powieści). Prośby można podzielić na wiele kategorii, w tym te wymienione w tej tabeli:
Kategoria promptu | Przykład | Notatki |
---|---|---|
Pytanie | Jak szybko lata gołąb? | |
Instrukcja | Napisz zabawny wiersz o arbitrażu. | Prompt z prośbą o wykonanie jakiegoś działania przez duży model językowy. |
Przykład | Przetłumacz kod Markdown na HTML. Na przykład:
Markdown: * element listy HTML: <ul> <li>element listy</li> </ul> |
Pierwsze zdanie w tym przykładowym promptie to instrukcja. Pozostała część promptu jest przykładowa. |
Rola | Wyjaśnij, dlaczego zejście gradientowe jest używane podczas nauki systemów uczących się podczas studiów doktoranckich z fizyki. | Pierwsza część zdania jest instrukcją, a zdania „dla doktora fizyki” – rolę. |
Częściowe dane wejściowe do ukończenia modelu | Premier Wielkiej Brytanii mieszka w | Częściowe żądanie danych wejściowych może kończyć się nagle (jak w tym przykładzie) lub kończyć podkreśleniem. |
Model generatywnej AI może odpowiedzieć na prompt przy użyciu tekstu, kodu, obrazów, elementów umieszczanych czy filmów.
uczenie się oparte na promptach
Zdolność określonych modeli, która pozwala im dostosowywać swoje działanie w odpowiedzi na dowolny tekst (prompty). W typowym modelu uczenia się opartym na promptach duży model językowy odpowiada na prompt, generując tekst. Załóżmy na przykład, że użytkownik wpisuje następujący prompt:
Streść trzecią zasadę dynamiki Newtona.
Model zdolny do uczenia się na podstawie promptów nie jest specjalnie wytrenowany tak, aby odpowiadał na poprzedni prompt. Raczej „wie” dużo faktów o fizyce, ogólnych regułach językowych i o tym, co składa się na przydatne odpowiedzi. Wiedza ta wystarczy, aby udzielić (mam nadzieję) przydatnej odpowiedzi. Dodatkowa opinia człowieka („Ta odpowiedź była zbyt skomplikowana” lub „Co to jest reakcja?”) umożliwia niektórym systemom edukacyjnym opartym na promptach stopniowe zwiększanie użyteczności odpowiedzi.
projekt promptu
Synonim terminu inżynieria promptów.
tworzenie promptów
Sztuka tworzenia promptów zwracających pożądane odpowiedzi z dużego modelu językowego. Ludzie zajmują się tworzeniem promptów. Pisanie uporządkowanych promptów to kluczowy element zapewniania przydatnych odpowiedzi z dużego modelu językowego. Inżynieria promptów zależy od wielu czynników, w tym:
- Zbiór danych używany do wstępnego trenowania i być może dostrajania dużego modelu językowego.
- Temperatura i inne parametry dekodowania, których model używa do generowania odpowiedzi.
Więcej informacji o tworzeniu pomocnych promptów znajdziesz w artykule Wprowadzenie do projektowania promptów.
Projektowanie promptów jest synonimem słowa „inżynieria promptów”.
dostrajanie promptów
Mechanizm dostrajania efektywnego działania parametrów, który uczy się przedrostka, który system dodaje do rzeczywistego potwierdzenia.
Jedną z odmian dostrajania promptów, nazywanej czasem dostrajaniem prefiksów, jest dodanie prefiksu do każdej warstwy. W przeciwieństwie do tego większość dostrajania promptów dodaje prefiks do warstwy wejściowej.
R
prompty dotyczące roli
Opcjonalna część promptu, która określa grupę odbiorców odpowiedzi modelu generatywnej AI. Bez prompta duży model językowy zapewnia odpowiedź, która może, ale nie musi być przydatna dla osoby zadającej pytania. Dzięki promptowi dotyczącego roli duży model językowy może udzielić odpowiedzi w sposób bardziej odpowiedni i przydatny dla określonej grupy odbiorców. Na przykład te fragmenty promptów dotyczących roli są pogrubione:
- Streść ten artykuł dla doktoratu w dziedzinie ekonomii.
- Opisz, jak działają pływy u 10-letniego dziecka.
- Opisz kryzys finansowy w 2008 roku. Mów tak jak do dziecka lub do golden retrievera.
S
do samodzielnego myślenia
Warstwa sieci neuronowej, która przekształca sekwencję umieszczania (np. wektorów dystrybucyjnych tokena) w inną sekwencję reprezentacji właściwościowych. Każde umieszczenie w sekwencji wyjściowej odbywa się przez integrowanie informacji z elementów sekwencji wejściowej za pomocą mechanizmu uwagi.
Element uwagi na siebie odnosi się do sekwencji skupiania się na sobie, a nie do innego kontekstu. Samodzielna koncentracja to jeden z głównych elementów Transformers, który wykorzystuje terminologię wyszukiwania słownika, np. „zapytanie”, „klucz” i „wartość”.
Warstwa skupienia uwagi zaczyna się od sekwencji wprowadzania danych, po jednej dla każdego słowa. Wejściową reprezentacją słowa może być proste umieszczenie. Przy każdym słowie w sekwencji wejściowej sieć ocenia trafność słowa w odniesieniu do każdego elementu w całej sekwencji słów. Wynik trafności określa, w jakim stopniu końcowa reprezentacja słowa obejmuje inne reprezentacje.
Weźmy na przykład to zdanie:
Zwierzę nie przeszło przez ulicę, bo było zbyt zmęczone.
Ilustracja poniżej (z artykułu Transformer: A Neural Network Architecture for Language Understanding) pokazuje wzorzec uwagi w warstwie uwagi dla zaimka it, przy czym ciemność każdego wiersza wskazuje, w jakim stopniu poszczególne słowa przyczyniają się do reprezentacji:
Warstwa zwracania uwagi wyróżnia słowa, które pasują do tego słowa. W tym przypadku warstwa uwagi nauczyła się wyróżniać słowa, które może się odnosić, przypisując największą wagę zwierzęciu.
W przypadku sekwencji n tokenów funkcja samozwania przekształca sekwencję reprezentacji właściwościowych n osobnych razy, po jednym na każdym położeniu w sekwencji.
Zapoznaj się też z artykułami uwagi i samodzielnej uwagi.
analiza nastawienia
Stosowanie algorytmów statystycznych lub algorytmów systemów uczących się do określania ogólnego nastawienia grupy (pozytywnej lub negatywnej) do usługi, produktu, organizacji lub tematu. Na przykład za pomocą rozumienia języka naturalnego algorytm może przeprowadzić analizę nastawienia na podstawie opinii tekstowych o kursie uniwersyteckim, aby określić, w jakim stopniu dany kurs podoba się lub nie podoba się studentom.
zadanie między sekwencją a sekwencją
Zadanie, które konwertuje sekwencję wejściową tokenów na wyjściową sekwencję tokenów. Na przykład 2 popularne rodzaje zadań od sekwencji do sekwencji to:
- Tłumacze:
- Przykładowa sekwencja wejściowa: „Kocham Cię”.
- Przykładowa sekwencja wyjściowe: „Je t'aime”.
- Odpowiadanie na pytania:
- Przykładowa sekwencja wejściowa: „Czy będę potrzebować samochodu w Nowym Jorku?”.
- Przykładowa sekwencja wyjściowe: „Nie. Zostaw samochód w domu”.
Pomiń gram
Ciąg znaków n-gram, który może pomijać słowa w pierwotnym kontekście, co oznacza, że mogły one wcześniej nie występować obok siebie. Dokładniej rzecz ujmując, „k skip-n-gram” to n gram, w którym pominięto do k słów.
Na przykład „szybki lis brązowy” może ważyć 2 gramy:
- „szybki”
- „szybki brązowy”
- „lis brunatny”
„1-kip-2 gram” to para słów, między którymi znajduje się maksymalnie 1 słowo. W związku z tym „szybki lis brązowy” ma następujące 2 gramy, z których można pominąć:
- „brązowy”
- „szybki lis”
Poza tym wszystkie 2 gramy mają też 1 pomiń 2 gramy, bo można pominąć mniej niż 1 słowo.
Teksty pomijania przydają się, gdy chcesz lepiej zrozumieć kontekst słowa. W tym przykładzie słowo „lis” było bezpośrednio powiązane ze słowem „szybkim” w zbiorze 1-2-gramów, ale nie w zestawie 2 gramów.
Pomiń gramy pomagają w trenowaniu modeli umieszczania słów.
dostrajanie promptów
Technika dostrajania dużego modelu językowego do konkretnego zadania bez dostrajania, które pochłania dużą ilość zasobów. Zamiast ponownie trenować wszystkie wagi w modelu, dostrajanie promptów automatycznie dostosowuje komunikat tak, aby osiągnąć ten sam cel.
Po wyświetleniu promptu tekstowego dostrajanie niewymagających promptów zwykle dołącza do promptu dodatkowe wektory tokenów i optymalizuje dane wejściowe za pomocą propagacji wstecznej.
„Twardy” prompt zawiera rzeczywiste tokeny, a nie osadzone tokeny.
obiekt rozproszony
feature, którego wartości są głównie zero lub puste. Na przykład cecha zawierająca 1 wartość i milion wartości 0 jest bardzo rozmieszczona. W przeciwieństwie do tego cechy gęstej mają wartości, które w większości nie są puste ani nie mają zerowej wartości.
W systemach uczących się niektóre funkcje są bardzo rzadkie, Cechy kategorialne są zwykle ubogie w dane. Na przykład spośród 300 możliwych gatunków drzew w lesie jeden przykład może zidentyfikować tylko klon. Spośród milionów możliwych filmów w bibliotece jeden przykład może zidentyfikować tylko „Casablanca”.
W modelu zazwyczaj reprezentujesz rozproszone funkcje za pomocą kodowania „1 szybko”. Jeśli jednostronne kodowanie jest duże, możesz nałożyć na nie warstwę do umieszczania, aby zwiększyć efektywność.
rzadka reprezentacja
Przechowywanie tylko pozycji elementów innych niż zero w obiekcie rozproszonym.
Załóżmy np., że funkcja kategorialna o nazwie species
identyfikuje 36 gatunków drzew w konkretnym lesie. Teraz załóżmy, że każdy przykład identyfikuje tylko jeden gatunek.
Możesz użyć wektora „1 hot” do reprezentowania gatunków drzew w każdym przykładzie.
Wektor „1 gorący” zawiera jeden element 1
(reprezentujący konkretne gatunki drzew w tym przykładzie) i 35 elementów 0
(czyli 35 gatunków drzew nie w tym przykładzie). Jednorazowa reprezentacja właściwości maple
może więc wyglądać mniej więcej tak:
Natomiast rozproszona reprezentacja mogłaby po prostu określić pozycję konkretnego gatunku. Jeśli maple
znajduje się na pozycji 24, rzadkie reprezentowanie właściwości maple
wyglądałoby tak:
24
Zwróć uwagę, że reprezentacja rzadka jest znacznie bardziej zwięzła niż ta prezentowana tylko raz.
szkolenie etapowe
Taktyka trenowania modelu w sekwencji konkretnych etapów. Celem może być przyspieszenie procesu trenowania lub uzyskanie lepszej jakości modelu.
Ilustracja przedstawiająca progresywne łączenie:
- Etap 1 zawiera 3 ukryte warstwy, etap 2 – 6 ukrytych, a 3 – 12 ukrytych.
- Etap 2 rozpoczyna trening od ciężarów zdobytych w 3 ukrytych warstwach etapu 1. Etap 3 rozpoczyna trening od ciężarów zdobytych w 6 ukrytych warstwach etapu 2.
Zobacz też potokowanie potoku.
token podrzędny
W modelach językowych jest to token, który jest podłańcuchem słowa, którym może być całe słowo.
Na przykład wyraz „itemize” można podzielić na części „item” (słowo główne) i „ize” (przyrostek), z których każdy jest reprezentowany przez własny token. Rozdzielenie nietypowych słów na takie części, zwane podsłowami, umożliwia modelom językowym opracowanie bardziej typowych części składowych słowa, takich jak prefiksy i sufiksy.
I odwrotnie, popularne słowa, takie jak „bycie” mogą nie zostać podzielone i mogą być reprezentowane przez jeden token.
T
T5
Model przenoszenia nauczania za pomocą tekstu na tekst został wdrożony przez sztuczną inteligencję Google w 2020 r.. T5 to model kodera-dekodera oparty na architekturze Transformera, wytrenowany na bardzo dużym zbiorze danych. Pomaga w różnych zadaniach związanych z przetwarzaniem języka naturalnego, takich jak generowanie tekstu, tłumaczenie języków i odpowiadanie na pytania w sposób konwersacyjny.
Nazwa T5 pochodzi od pięciu liter T w „Transformerze transferu tekstu na tekst”.
T5X
Platforma typu open source systemów uczących się przeznaczona do tworzenia i trenowania dużych modeli przetwarzania języka naturalnego (NLP). Kod T5 jest zaimplementowany w bazie kodu T5X (opartej na technologii JAX i Flax).
temperatura
Hiperparametr, który kontroluje stopień losowości danych wyjściowych modelu. Wyższe temperatury oznaczają więcej losowych danych wyjściowych, a niższe – mniej losowych danych wyjściowych.
Wybór najlepszej temperatury zależy od konkretnej aplikacji i preferowanych właściwości danych wyjściowych modelu. Na przykład podnosisz temperaturę przy tworzeniu aplikacji, która generuje dane wyjściowe kreacji. I na odwrót, należałoby obniżyć temperaturę podczas tworzenia modelu, który klasyfikuje obrazy lub tekst, aby zwiększyć dokładność i spójność modelu.
Funkcja softmax jest często używana do określania temperatury.
rozpiętość tekstu
Zakres indeksu tablicy powiązany z określoną podsekcją ciągu tekstowego.
Na przykład słowo good
w ciągu znaków s="Be good now"
w Pythonie zajmuje fragment tekstu od 3 do 6.
token
W modelu językowym atomowa jednostka, na której model się trenuje i na której tworzy prognozy. Token zwykle jest jednym z tych elementów:
- słowo, na przykład wyrażenie „psy jak koty” składa się z 3 tokenów: „psy”, „jak” i „koty”.
- po jednym znaku, np. wyrażenie „ryba na rowerze” składa się z 9 tokenów znakowych. (Pamiętaj, że puste miejsce jest liczone jako jeden z tokenów).
- podsłowa, w których pojedyncze słowo może być pojedynczym tokenem lub wieloma tokenami; Słowo podrzędne składa się ze słowa głównego, prefiksu lub sufiksu. Na przykład model językowy używający słów podrzędnych jako tokenów może postrzegać słowo „psy” jako 2 tokeny (słowa głównego „pies” i przyrostek „s”). Ten sam model językowy może postrzegać pojedyncze słowo „wyższe” jako 2 słowa podrzędne (słowo główne „wysoki” i przyrostek „er”).
W domenach innych niż modele językowe tokeny mogą reprezentować inne rodzaje jednostek atomowych. Na przykład w przypadku rozpoznawania obrazów token może być podzbiorem obrazu.
Transformator
Opracowana przez Google architektura sieci neuronowej, która opiera się na mechanizmach samodzielnej uwagi, aby przekształcać sekwencję reprezentacji właściwościowych w sekwencję osadzonych danych wyjściowych, nie korzystając z konwolucji ani powracających sieci neuronowych. Transformer to taki zbiór warstw, które skupiają uwagę.
Transformer może zawierać takie elementy:
Koder przekształca sekwencję wektorów dystrybucyjnych w nową sekwencję o tej samej długości. Koder zawiera N identycznych warstw, z których każda zawiera 2 warstwy podrzędne. Te 2 warstwy podrzędne są stosowane w każdej pozycji wejściowej sekwencji umieszczania, przekształcając każdy element sekwencji w nowe umieszczenie. Pierwsza warstwa podrzędna kodera agreguje informacje z sekwencji wejściowej. Druga warstwa podrzędna kodera przekształca zagregowane informacje w umieszczone dane wyjściowe.
Dekoder przekształca sekwencję reprezentacji właściwościowych w sekwencję reprezentacji danych wyjściowych, czasem o innej długości. Dekoder zawiera również N identycznych warstw z 3 warstwami podrzędnymi, z których 2 są podobne do warstw podrzędnych kodera. Trzecia podwarstwa dekodera pobiera dane wyjściowe kodera i stosuje mechanizm samodzielnej uwagi, aby zbierać z niej informacje.
Post na blogu Transformer: A Novel Neural Network Architecture for Language Understanding zawiera dobre wprowadzenie do Transformers.
trygram
N-gram, w którym N=3.
U
jednokierunkowa
System oceniający tylko tekst, który występuje przed docelową sekcją tekstu. Natomiast system dwukierunkowy ocenia zarówno tekst, który poprzedza, jak i następuje po docelowej sekcji tekstu. Więcej informacji znajdziesz w sekcji Dwukierunkowy.
jednokierunkowy model językowy
Model językowy, którego prawdopodobieństwo opiera się wyłącznie na tokenach występujących przed, a nie po tokenach docelowych. Porównaj z dwukierunkowym modelem językowym.
V
wariacyjny autokoder (VAE)
Rodzaj autokodera, który korzysta z rozbieżności między danymi wejściowymi i wyjściowymi w celu generowania zmodyfikowanych wersji danych wejściowych. Autokodery wariacyjne przydają się w przypadku generatywnej AI.
Wskaźniki VAE opierają się na wnioskowaniu wariacyjnym, czyli technice szacowania parametrów modelu prawdopodobieństwa.
Ś
wektor dystrybucyjny
Reprezentowanie każdego słowa w zestawie słów w wektorze osadzonym, czyli reprezentowanie każdego słowa jako wektorze wartości zmiennoprzecinkowych z zakresu od 0.0 do 1.0. Wyrazy o podobnych instrukcjach wyglądają podobnie do innych słów. Na przykład marchew, celant i ogórek będą miały stosunkowo podobne obrazy, które bardzo różnią się od przykładów samolotu, okularów przeciwsłonecznych czy pasty do zębów.
Z
prompt „zero-shot”
Wskazówka, która nie zawiera przykładowego sposobu, w jaki duży model językowy ma reagować. Na przykład:
Elementy jednego promptu | Notatki |
---|---|
Jaka jest oficjalna waluta danego kraju? | Pytanie, na które ma odpowiedzieć LLM. |
Indie: | Faktyczne zapytanie. |
Duży model językowy może odpowiadać dowolnej z tych wartości:
- Rupia
- INR
- ₹
- Rupia indyjska
- rupia
- Rupia indyjska
Wszystkie odpowiedzi są prawidłowe, ale możesz preferować konkretny format.
Porównaj prompty typu zero-shot z tymi terminami: