Słowniczek systemów uczących się: sprawdzanie języka

Ta strona zawiera terminy z glosariusza oceny języka. Aby zobaczyć wszystkie terminy ze glosariusza, kliknij tutaj.

O

uwaga

#language

Mechanizm używany w sieci neuronowej, który wskazuje znaczenie określonego słowa lub jego części. Uwaga kompresuje ilość informacji, których model potrzebuje do prognozowania następnego tokena/słowa. Typowy mechanizm uwagi może składać się z sumy ważonej i zbioru danych wejściowych, w którym waga poszczególnych danych wejściowych jest obliczana przez inną część sieci neuronowej.

Zapoznaj się też z sekcjami samodzielnej uwagi i samodzielnej uwagi, które są elementami składowymi Transformers.

autokoder

#language
#image

System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autokodery to połączenie kodera i dekodera. Autokodery bazują na tym 2-etapowym procesie:

  1. Koder mapuje dane wejściowe na (zwykle) stratny format mniejwymiarowy (średniozaawansowany).
  2. Dekoder buduje stratną wersję pierwotnych danych wejściowych, mapując niższy format na bardziej standardowy.

Autokodery są w pełni trenowane przez dekoder próbujący jak najdokładniej odtworzyć pierwotne dane wejściowe z formatu pośredniego kodera. Format pośredni jest mniejszy (niższe wymiary) niż format oryginalny, więc autokoder musi nauczyć się, jakie informacje wejściowe są niezbędne, a wyniki nie będą idealnie identyczne z danymi wejściowymi.

Na przykład:

  • Jeśli dane wejściowe mają charakter graficzny, to niedokładna kopia jest podobna do oryginalnej grafiki, ale zmodyfikowana. Być może kopia niedokładna usunie szum z oryginalnej grafiki lub uzupełni brakujące piksele.
  • Jeśli dane wejściowe to tekst, autokoder wygeneruje nowy tekst, który naśladuje (ale nie jest taki sam) tekst oryginalny.

Zobacz też różne autokodery.

model autoregresywny

#language
#image
#generatywna AI

model, który ustala prognozę na podstawie własnych wcześniejszych prognoz. Na przykład automatycznie regresywne modele językowe prognozują następny token na podstawie wcześniej prognozowanych tokenów. Wszystkie duże modele językowe, które opierają się na Transformerze, są autoregresywne.

W przeciwieństwie do tego modele graficzne oparte na GAN zwykle nie podlegają automatycznej regresji, ponieważ generują obraz w ramach pojedynczego przejścia do przodu, a nie iteracyjnie. Jednak niektóre modele generowania obrazów autoregresywne, ponieważ generują obrazy krok po kroku.

B

worek słów

#language

Reprezentacja słów w wyrażeniu lub pasażu, niezależnie od kolejności. Np. worek słów reprezentuje 3 wyrażenia identycznie:

  • pies podskakuje
  • podskakuje psa
  • pies skacze

Każde słowo jest mapowane na indeks w wektorze jednostajnym, gdzie wszystkie słowa w słownicy mają indeks. Na przykład wyrażenie pies skacze jest mapowane na wektor cech z wartościami innymi niż zero w 3 indeksach odpowiadających słowom the, pies i skomp. Wartość różna od zera może być dowolną z tych wartości:

  • 1 oznacza obecność słowa.
  • Liczba wystąpień słowa w torbie. Jeśli np. wyrażenie brzmi: kasztanowy pies to pies z kasztanowcowym futrem, obie te wartości będą podane jako kasztanowy i pies, a pozostałe słowa będą podane jako 1.
  • Inna wartość, na przykład logarytm liczby wystąpień słowa w torbie.

BERT (dwukierunkowe reprezentacje koderów z transformerów)

#language

Architektura modelu reprezentowania tekstu. Wytrenowany model BERT może działać jako część większego modelu na potrzeby klasyfikacji tekstu lub innych zadań ML.

Algorytm BERT wyróżnia się tymi cechami:

Warianty BERT to:

Omówienie BERT znajdziesz w artykule Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Process

dwukierunkowe

#language

Termin opisujący system oceniający tekst, który zarówno kończy, jak i następuje po docelowej sekcji tekstu. Natomiast system jednokierunkowy ocenia tylko tekst, który przedstawia docelową sekcję tekstu.

Rozważmy na przykład model językowy z maskowaniem, który musi określać prawdopodobieństwo w przypadku słowa lub słów podkreślających podkreślenie w tym pytaniu:

Co u Ciebie _____?

Jednokierunkowy model językowy musiałby oprzeć swoje prawdopodobieństwo wyłącznie na podstawie kontekstu zawierającego słowa „co”, „to jest” i „to”. W przeciwieństwie do tego dwukierunkowy model językowy może też uzyskać kontekst dzięki danym „z to” i „ty”, co może pomóc w generowaniu lepszych prognoz.

dwukierunkowy model językowy

#language

Model językowy, który określa prawdopodobieństwo wystąpienia danego tokena w danym miejscu we fragmencie tekstu na podstawie poprzedniego i następującego tekstu.

bigram

#seq
#language

N-gram, w którym N=2.

BLEU (Bilingual Evaluation Understudy)

#language

Wynik między 0, 0 a 1, 0 włącznie, który wskazuje jakość tłumaczenia między 2 językami ludzkimi (np. angielskim i rosyjskim). Wynik BLEU równy 1,0 oznacza tłumaczenie idealne, a wynik BLEU równy 0,0 oznacza tragiczne tłumaczenie.

C

przyczynowy model językowy

#language

Synonim terminu jednokierunkowy model językowy.

Zapoznaj się z sekcją Dwukierunkowy model językowy, aby porównać różne podejścia kierunkowe w modelowaniu języka.

wykorzystanie w prompcie łańcucha myśli

#language
#generatywna AI

Technika inżynierii promptów, która zachęca do stworzenia dużego modelu językowego (LLM) do szczegółowego wyjaśnienia jego uzasadnienia. Zwróćmy uwagę na przykład na drugie zdanie:

Ile razy siła napędowa będzie odczuwalna przez kierowcę w samochodzie, który porusza się z prędkością od 0 do 100 km/h w 7 sekund? W odpowiedzi wyświetl wszystkie odpowiednie obliczenia.

Odpowiedź LLM prawdopodobnie:

  • Pokaż sekwencję wzorów fizycznych, umieszczając wartości 0, 60 i 7 w odpowiednich miejscach.
  • Wyjaśnij, dlaczego wybrał te wzory i co oznaczają różne zmienne.

Prompt łańcucha myśli zmusza LLM do wykonywania wszystkich obliczeń, co może prowadzić do uzyskania bardziej poprawnej odpowiedzi. Poza tym żądanie łańcucha myśli umożliwia użytkownikowi analizowanie kroków wykonywanych przez model LLM w celu określenia, czy dana odpowiedź ma sens.

czat

#language
#generatywna AI

Treść dialogu z wykorzystaniem systemu ML, zwykle dużego modelu językowego. Poprzednia interakcja na czacie (czyli to, co wpisujesz i jak odpowiedział duży model językowy) staje się kontekstem dla kolejnych części czatu.

Czatbot to aplikacja dużego modelu językowego (LLM).

konfabulacja

#language

Synonim terminu hallucynacja.

Konfabacja jest prawdopodobnie trafniejsza pod względem technicznym niż termin „halucynacje”. Jednak najpierw zaczęły go rosnąć halucynacje.

analiza okręgów wyborczych

#language

Podzielenie zdania na mniejsze struktury gramatyczne („elementy składowe”). Późniejsza część systemu ML, na przykład model rozumienia języka naturalnego, może ułatwić analizę komponentów niż pierwotne zdanie. Weźmy na przykład to zdanie:

Mój przyjaciel adoptował dwa koty.

Parser okręgów może podzielić to zdanie na te 2 komponenty:

  • Mój przyjaciel to wyrażenie rzeczownikowe.
  • adopcja dwóch kotów to typowy czasownik.

Składniki te można dodatkowo podzielić na mniejsze części składowe. Na przykład w przypadku czasownika

adoptowali dwa koty

można bardziej podzielić na:

  • adopted to czasownik.
  • dwa koty to kolejne wyrażenie rzeczownikowe.

umieszczanie języka z kontekstem

#language
#generatywna AI

Umieszczanie, które jest zbliżone do „rozumienia” słów i wyrażeń w sposób dostępny dla rodzimych użytkowników języka. Kontekstowe umieszczanie języków pozwala zrozumieć złożoną składnię, semantykę i kontekst.

Rozważ np. osadzanie angielskich słów cow. Starsze reprezentacje właściwości, np. word2vec, mogą reprezentować angielskie słowa na przykład tak, że odległość w obszarze umieszczania od krowa do byka jest podobna do odległości ewe (owca końska) do barana (owca) lub od samicy do mężczyzny. Kontekstowe osadzenia języków mogą iść o krok dalej, bo osoby anglojęzyczne czasami używają słowa krowa w odniesieniu do krowy lub byka.

okno kontekstu

#language
#generatywna AI

Liczba tokenów, które model może przetworzyć w danym prompcie. Im większe okno kontekstu, tym więcej informacji model może wykorzystać, aby udzielić spójnych i spójnych odpowiedzi na prompt.

rozkwit

#language

Zdanie lub wyrażenie o niejednoznacznym znaczeniu. Wzrost liczby drzew jest poważnym problemem dla rozumienia języka naturalnego. Na przykład nagłówek Czerwona taśma trzymająca drapacz chmur odnosi się do rozkwitu rozkwitu, ponieważ model NLU może interpretować nagłówek dosłownie lub w sposób obrazowy.

D

dekoder

#language

Ogólnie rzecz biorąc, każdy system ML, który przekształca reprezentację przetworzoną, gęstą lub wewnętrzną na reprezentację bardziej nieprzetworzoną, rzadką lub zewnętrzną.

Dekodery są często częścią większego modelu, w którym często są parowane z koderem.

W zadaniach sekwencyjnych do sekwencji dekoder rozpoczyna się od stanu wewnętrznego wygenerowanego przez koder, aby przewidywać następną sekwencję.

Definicję dekodera w architekturze Transformera znajdziesz w artykule Transformer.

odszumianie

#language

Popularne podejście do nauczania samonadzorowanego, w którym:

  1. Szum jest sztucznie dodany do zbioru danych.
  2. model próbuje usunąć szum.

Funkcja wyciszania szumów umożliwia uczenie się na podstawie przykładów bez etykiet. Pierwotny zbiór danych służy jako element docelowy lub etykieta, a zaszumiane dane jako dane wejściowe.

Niektóre modele językowe z maskowaniem stosują wyciszanie szumów w ten sposób:

  1. Szum jest sztucznie dodany do zdania bez etykiety przez maskowanie niektórych tokenów.
  2. Model próbuje przewidzieć pierwotne tokeny.

prompty bezpośrednie

#language
#generatywna AI

Synonim dla promptów typu „zero-shot”.

E

edytuj odległość

#language

Pomiar podobieństwa do siebie dwóch ciągów tekstowych. W systemach uczących się zmiana odległości jest przydatna, ponieważ łatwo ją obliczyć i skuteczny sposób na porównanie dwóch ciągów znaków, o których wiadomo, że są podobne, lub znalezienie kolejnych, które są podobne do danego ciągu znaków.

Istnieje kilka definicji odległości edycji, przy czym każda z nich wykorzystuje inne operacje na ciągach znaków. Na przykład odległość do levenshtein uwzględnia najmniejszą liczbę operacji usuwania, wstawiania i zastępowania.

Na przykład odległość Levenshteina między słowami „serce” i „rzutki” wynosi 3, ponieważ te 3 zmiany to najmniejsza liczba zmian, które powodują zamianę jednego słowa w inne:

  1. serce → deart (zastąp literę „h” literą „d”)
  2. deart → dart (usuń „e”)
  3. rzutka → rzutki (wstaw „s”)

warstwa umieszczania

#language
#fundamentals

Specjalna warstwa ukryta, która trenuje na wysokowymiarowej kategoriowej funkcji, aby stopniowo uczyć się wektorów osadzania niższego wymiaru. Warstwa osadzania pozwala sieci neuronowej trenować o wiele efektywniej niż trenowanie tylko na wysokowymiarowych cechach kategorialnych.

Na przykład Earth obsługuje obecnie około 73 000 gatunków drzew. Załóżmy, że gatunek drzewa jest cechą w Twoim modelu,więc warstwa wejściowa modelu zawiera jednogorący wektor o długości 73 000 elementów. baobab może być na przykład reprezentowany tak:

Tablica 73 000 elementów. Pierwsze 6232 elementy mają wartość 0. Następny element ma wartość 1. Ostatnie 66 767 elementów ma wartość 0.

Tablica 73 tys. elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy dystrybucyjnej, trenowanie będzie bardzo czasochłonne z powodu mnożenia 72 999 zer. Możesz np. wybrać warstwę osadzania tak, aby składała się z 12 wymiarów. W efekcie warstwa osadzania stopniowo uczy się nowych wektorów reprezentacji dla każdego gatunku drzew.

W niektórych sytuacjach szyfrowanie jest rozsądną alternatywą dla warstwy umieszczania.

przestrzeń do przechowywania danych

#language

Mapa jest przyporządkowana do przestrzeni wektorowej d obejmującej więcej przestrzeni wektorowych. W idealnym przypadku obszar osadzania zawiera strukturę, która pozwala na uzyskiwanie istotnych wyników matematycznych. Na przykład w idealnej przestrzeni osadzania dodawanie i odejmowanie wektorów dystrybucyjnych może rozwiązywać zadania analogiczne.

Iloczyn skalarny dwóch reprezentacji właściwościowych określa ich podobieństwo.

wektor dystrybucyjny

#language

Ogólnie rzecz biorąc, jest to tablica liczb zmiennoprzecinkowych pobranych z dowolnej ukrytej warstwy, która opisuje dane wejściowe do tej ukrytej warstwy. Często wektor reprezentacji właściwościowych to tablica liczb zmiennoprzecinkowych wytrenowanych w warstwie dystrybucyjnej. Załóżmy np., że warstwa osadza musi nauczyć się wektora dystrybucyjnego dla każdego z 73 000 gatunków drzew na Ziemi. Może ona być wektorem reprezentacji właściwościowej drzewa baobaba:

Tablica 12 elementów, z których każdy zawiera liczbę zmiennoprzecinkową z zakresu od 0,0 do 1,0.

Wektor reprezentacji właściwościowych nie jest blokiem losowych liczb. Warstwa osadzania określa te wartości przez trenowanie, podobnie jak sieć neuronowa uczy się innych wag podczas trenowania. Każdy element tablicy to ocena dotycząca pewnej cechy gatunku drzew. Który element reprezentuje cechy charakterystyczne gatunku? Człowiek trudno to określić.

Istotną matematyczną cechą wektora dystrybucyjnego jest to, że podobne elementy mają podobne zestawy liczb zmiennoprzecinkowych. Na przykład podobne gatunki drzew mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż różne gatunki drzew. Sekwoje i sekwoje są spokrewnionymi gatunkami drzew, więc mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż sekwoje i palmy kokosowe. Liczby we wektorze reprezentacji właściwościowej zmieniają się za każdym razem, gdy ponownie trenujesz model, nawet jeśli ponownie wytrenujesz model z identycznymi danymi wejściowymi.

koder

#language

Mówiąc ogólnie, każdy system ML, który przekształca reprezentację nieprzetworzoną, rzadką lub zewnętrzną w bardziej przetworzoną, zwartą lub bardziej wewnętrzną reprezentację.

Kodery są często częścią większego modelu, w którym są często parowane z dekoderem. Niektóre Transformery parują kodery z dekoderami, natomiast inne korzystają tylko z enkodera lub tylko dekodera.

Niektóre systemy używają danych wyjściowych kodera jako danych wejściowych do sieci klasyfikacji lub regresji.

W zadaniach z sekwencji do sekwencji koder przyjmuje sekwencję wejściową i zwraca stan wewnętrzny (wektor). Następnie na podstawie tego stanu wewnętrznego dekoder przewiduje następną sekwencję.

Definicję kodera w architekturze Transformera znajdziesz w artykule Transformer.

F

prompt typu „few-shot”

#language
#generatywna AI

Komunikat zawierający więcej niż 1 (kilka) przykład pokazujący, jak powinien zareagować duży model językowy. Na przykład ten długi prompt zawiera 2 przykłady pokazujące, jak uzyskać odpowiedź na zapytanie za pomocą dużego modelu językowego (LLM).

Elementy jednego promptu Notatki
Jaka jest oficjalna waluta danego kraju? Pytanie, na które ma odpowiedzieć LLM.
Francja: EUR Przykład:
Wielka Brytania: GBP Kolejny przykład.
Indie: Faktyczne zapytanie.

Prompty typu „few-shot” dają zwykle lepsze wyniki niż prompty „zero-shot” i one-shot. Jednak takie prompty wymagają dłuższego promptu.

Prompt „few-shot” to rodzaj modelu „few-shot learning”, który można zastosować w nauczaniu opartym na promptach.

Skrzypce

#language

Biblioteka konfiguracji oparta na Pythonie, która ustawia wartości funkcji i klas bez inwazyjnego kodu i infrastruktury. W przypadku Pax i innych baz kodu ML te funkcje i klasy reprezentują modele i trenowanie hiperparametrów.

W przypadku Fiddle bazy kodu systemów uczących się są zwykle podzielone na:

  • Kod biblioteki, który definiuje warstwy i optymalizatory.
  • Kod zbioru danych „klej”, który wywołuje biblioteki i łączy wszystko razem.

Fiddle przechwytuje strukturę wywołania kodu glue w nieocenionej i zmiennej postaci.

dostrajanie

#language
#image
#generatywna AI

Drugie karnet treningowy, który jest wykonywany na podstawie wstępnie wytrenowanego modelu, aby doprecyzować jego parametry pod kątem konkretnego przypadku użycia. Na przykład pełna sekwencja trenowania w przypadku niektórych dużych modeli językowych wygląda tak:

  1. Wstępne szkolenie: wytrenuj duży model językowy na dużym ogólnym zbiorze danych, takim jak wszystkie anglojęzyczne strony w Wikipedii.
  2. Dostrajanie: wytrenuj już wytrenowany model tak, aby wykonał określone zadanie, np. odpowiadał na zapytania medyczne. Dostrajanie obejmuje zwykle setki lub tysiące przykładów dotyczących konkretnego zadania.

Kolejny przykład to pełna sekwencja trenowania w przypadku dużego modelu obrazu:

  1. Przedtrenowanie: wytrenuj duży model obrazów na dużym, ogólnym zbiorze danych obrazów, takim jak wszystkie obrazy w Wikimedia Commons.
  2. Dostrajanie: wytrenuj już wytrenowany model tak, aby wykonał określone zadanie, takie jak generowanie obrazów orek.

Dostrajanie może obejmować dowolną kombinację tych strategii:

  • Modyfikowanie wszystkich parametrów wytrenowanego modelu. Czasami nazywa się to pełnym dostrajeniem.
  • Modyfikowanie tylko niektórych dotychczasowych parametrów wytrenowanego modelu (zwykle warstw najbliżej warstwy wyjściowej), pozostawiając niezmienione pozostałe parametry (zwykle warstwy są najbliżej warstwy wejściowej). Zobacz dostrajanie z uwzględnieniem parametrów.
  • Dodanie większej liczby warstw, zwykle nad istniejącymi warstwami najbliżej warstwy wyjściowej.

Dostrajanie to forma nauki transferowej. W związku z tym dostrajanie może korzystać z innej funkcji straty lub innego typu modelu niż te używane do trenowania już wytrenowanego modelu. Możesz na przykład dostroić wytrenowany model dużego obrazu, aby uzyskać model regresji, który zwraca liczbę ptaków na obrazie wejściowym.

Porównaj dostrajanie z tymi terminami:

Len

#language

Wydajna biblioteka typu open source do deep learningu oparta na języku JAX. Flax udostępnia funkcje do trenowania sieci neuronowych, a także metody oceny ich wydajności.

Lniane formy

#language

Biblioteka typu open source Transformer, oparta na Flax, przeznaczona przede wszystkim do przetwarzania języka naturalnego i badań multimodalnych.

G

generatywna AI

#language
#image
#generatywna AI

Rozwijające się pole, które nie jest formalne. Mimo to większość ekspertów zgadza się, że modele generatywnej AI mogą tworzyć („generować”) treści, które:

  • złożone
  • spójne
  • oryginał

Na przykład generatywny model AI może tworzyć zaawansowane wypracowania lub obrazy.

Niektóre wcześniejsze technologie, w tym LSTM i RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci postrzegają te wcześniejsze technologie jako generatywną AI, a inni uważają, że prawdziwa generatywna AI wymaga bardziej złożonych wyników niż te, które można uzyskać dzięki nim.

Porównaj to z systemami uczącymi się prognozowanymi.

GPT (wytrenowany generatywny transformator)

#language

Rodzina dużych modeli językowych opartych na Transformerze i opracowanych przez OpenAI.

Warianty GPT mogą mieć zastosowanie w wielu modalnościach, na przykład:

  • generowanie obrazów (np. ImageGPT),
  • zamiany tekstu na obraz (np. DALL-E).

H

halucynacje

#language

Tworzenie przez model generatywnej AI wyników, które wydają się wiarygodne, ale niepoprawne pod względem merytorycznym, które sugerują, że odnoszą się do świata rzeczywistego. Na przykład generatywny model AI, w którym twierdzi się, że Barack Obama zmarł w 1865 roku, to hallucynacja.

I

nauka w kontekście

#language
#generatywna AI

Synonim dla promptów typu „few-shot”.

L

LaMDA (Language Model for Dialogue Applications)

#language

duży model językowy oparty na Transformerze, opracowany przez Google i wytrenowany na dużym zbiorze dialogów, który może generować realistyczne odpowiedzi konwersacyjne.

W skrócie: LaMDA – nasza przełomowa technologia konwersacyjna.

model językowy

#language

model, który ocenia prawdopodobieństwo wystąpienia model lub sekwencji tokenów w dłuższej kolejności.

duży model językowy

#language

Termin nieformalny bez ścisłej definicji oznacza zwykle model językowy z dużą liczbą parametrów. Niektóre duże modele językowe zawierają ponad 100 mld parametrów.

przestrzeń utajona

#language

Synonim terminu umieszczanie przestrzeni.

LLM

#language

Skrót od wyrażenia big model language (duży model językowy).

LoRA

#language
#generatywna AI

Skrót od terminu Niska pozycja w rankingu.

Dostosowanie do niskiej pozycji (LoRA)

#language
#generatywna AI

Algorytm do efektywnego dostrajania parametrów, który dostraja tylko podzbiór parametrów dużego modelu językowego. LoRA zapewnia następujące korzyści:

  • Szybsze dostrajanie niż techniki, które wymagają dostrajania wszystkich parametrów modelu.
  • Zmniejsza koszt obliczeniowy wnioskowania w dostrojonym modelu.

Model dostrojony przy użyciu LoRA utrzymuje lub poprawia jakość prognoz.

LoRA umożliwia stosowanie wielu wyspecjalizowanych wersji modelu.

P

maskowany model językowy

#language

Model językowy prognozujący prawdopodobieństwo wypełnienia pustych pól w sekwencji przez tokeny kandydatów. Na przykład model językowy z maskowaniem może obliczyć prawdopodobieństwo, że propozycje słów kluczowych zastąpią podkreślenie w tym zdaniu:

____ w kapeluszu wróciła.

W literaturze zamiast podkreślenia jest zazwyczaj używany ciąg „MASK”. Na przykład:

„MASK” z kapelusza wróciła.

Większość nowoczesnych modeli językowych z maskowaniem jest dwukierunkowa.

metauczenie się

#language

Podzbiór systemów uczących się, który znajduje lub ulepsza algorytm uczenia. System metauczący się może również trenować model tak, aby szybko nauczył się nowych zadań na podstawie niewielkiej ilości danych lub z doświadczenia zdobytego w poprzednich zadaniach. Algorytmy metauczenia się zazwyczaj dążą do osiągnięcia tych celów:

  • ulepszanie lub poznawanie ręcznie opracowanych funkcji (takich jak inicjator czy optymalizator).
  • zwiększyć wydajność przetwarzania danych i mocy obliczeniowej;
  • Usprawnij uogólnienie.

Meta-uczenie jest powiązane z kilkoma uczeniem się.

modalność

#language

Ogólna kategoria danych. Na przykład liczby, tekst, obrazy, filmy i dźwięki to 5 różnych modalności.

równoległość modeli

#language

Sposób skalowania trenowania lub wnioskowania, który polega na umieszczaniu różnych części model na różnych model. Równoległość modeli umożliwia korzystanie z modeli, które są zbyt duże, aby zmieścić się na jednym urządzeniu.

Aby wdrożyć równoległość modelu, system zwykle wykonuje te czynności:

  1. Fragmenty (dzielą) model na mniejsze części.
  2. Rozprowadza trenowanie tych mniejszych części na wielu procesorach. Każdy procesor trenuje własną część modelu.
  3. Łączy wyniki, aby utworzyć jeden model.

Równoległość modelu spowalnia trenowanie.

Zobacz też artykuł na temat równoległości danych.

samouczenie się

#language

Rozszerzenie uwagi, które wielokrotnie stosuje mechanizm samodzielnego utrzymywania uwagi w przypadku każdej pozycji w sekwencji wejściowej.

W projekcie Transformers pojawiła się koncepcja wielogłowego skupienia uwagi.

model multimodalny

#language

Model, którego dane wejściowe lub wyjściowe zawierają więcej niż 1 modalność. Załóżmy na przykład, że jako funkcje używane są zarówno obraz, jak i podpis tekstowy (2 modalności), i zwraca wynik wskazujący, w jakim stopniu podpis tekstowy jest dopasowany do obrazu. Dane wejściowe tego modelu są multimodalne, a wyniki unimodalne.

N

rozumienie języka naturalnego

#language

Określanie intencji użytkownika na podstawie tego, co wpisał lub powiedział. Na przykład wyszukiwarka używa rozumienia języka naturalnego, aby określić, czego szuka użytkownik na podstawie tego, co wpisał lub powiedział użytkownik.

N-gram

#seq
#language

Uporządkowana sekwencja N słów. Na przykład słowo prawdziwe szaleństwo ma wartość 2 gramów. Ponieważ kolejność ma znaczenie, ale tak naprawdę to dwa gramy, które różnią się od prawdziwości szalonej.

N Nazwy dla tego rodzaju N-gramów Przykłady
2 bigram, czyli 2 gramy iść, jechać, zjeść obiad, zjeść kolację
3 trygram lub 3 gramy zdało się za dużo, trzy niewidome myszki, dzwonki i dzwonki
4 4 gramy spacerować w parku, pył na wietrze, chłopiec zjadł soczewicę

Wiele modeli rozumienia języka naturalnego opiera się na N-gramach do przewidywania następnego słowa, które użytkownik wpisze lub powie. Załóżmy np., że użytkownik wpisał trzy ślepy. Model NLU oparty na trygramach prawdopodobnie przewidzi, że użytkownik następnym razem wpisze myszy.

Porównaj N gramów z torbą słów, czyli nieuporządkowanymi zestawami słów.

NLU

#language

Skrót od rozumienia języka naturalnego.

O

prompt z pytaniem „one-shot”

#language
#generatywna AI

Wskazówka zawierająca jeden przykład ilustrujący, jak powinien zareagować duży model językowy. Na przykład ten prompt zawiera 1 przykład z dużym modelem językowym pokazującym, jak powinien odpowiedzieć na zapytanie.

Elementy jednego promptu Notatki
Jaka jest oficjalna waluta danego kraju? Pytanie, na które ma odpowiedzieć LLM.
Francja: EUR Przykład:
Indie: Faktyczne zapytanie.

Porównaj prośby „one-shot” z tymi terminami:

P

dostrajanie z wykorzystaniem parametrów

#language
#generatywna AI

Zestaw technik do dostrajania dużego wytrenowanego modelu językowego (PLM) skuteczniej niż pełne dostrajanie. Dostrajanie bez użycia parametrów pozwala zwykle dopracować znacznie mniej parametrów niż pełne dostrajanie, ale ogólnie pozwala uzyskać duży model językowy, który działa równie dobrze (lub prawie tak samo) jak duży model językowy zbudowany z pełnego dostrajania.

Porównaj dostrajanie z wykorzystaniem parametrów:

Dostrajanie z uwzględnieniem parametrów jest też nazywane dostrajaniem z wykorzystaniem parametrów.

potokowanie

#language

Forma równoległości do modelu, w której przetwarzanie modelu jest podzielone na kolejne etapy, a każdy etap jest wykonywany na innym urządzeniu. Gdy etap przetwarza 1 wsad, poprzedni etap może działać w następnej.

Zobacz też trenowanie etapowe.

PLM

#language
#generatywna AI

Skrót od wyrażenia wytrenowanego modelu językowego.

kodowanie pozycyjne

#language

Metoda dodawania w sekwencji informacji o pozycji tokena do jego umieszczania. Modele transformatorów wykorzystują kodowanie pozycjonujące, aby lepiej zrozumieć relacje między różnymi częściami sekwencji.

Powszechna implementacja kodowania pozycyjnego wykorzystuje funkcję sinusoidalną. (W szczególności częstotliwość i amplituda funkcji sinusoidalnej są określane przez pozycję tokena w sekwencji). Ta technika umożliwia modelowi Transformera naukę uczestniczenia w różnych częściach sekwencji w zależności od ich pozycji.

wytrenowany model

#language
#image
#generatywna AI

Modele lub komponenty modelu (np. wektor do umieszczania), które zostały już wytrenowane. Czasami umieszczasz wytrenowane wektory dystrybucyjne do sieci neuronowej. Innym razem model będzie trenować same wektory dystrybucyjne i nie korzystać z wytrenowanych wcześniej wektorów dystrybucyjnych.

Termin wstępnie wytrenowany model językowy odnosi się do dużego modelu językowego, który został poddany wstępnym trenowaniu.

przedtrenowanie

#language
#image
#generatywna AI

Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane modele to niezdarne giganty, które trzeba zwykle dopracować przez dodatkowe szkolenie. Eksperci ds. systemów uczących się mogą na przykład wstępnie wytrenować duży model językowy na ogromnym zbiorze danych tekstowych, takim jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu model można następnie doprecyzować za pomocą jednej z tych metod:

prośba

#language
#generatywna AI

Dowolny tekst wpisany jako dane wejściowe do dużego modelu językowego, aby uwarunkować model tak, aby działał w określony sposób. Mogą być krótkie, jak zdanie, lub dowolnie długie (np. cały tekst powieści). Prośby można podzielić na wiele kategorii, w tym te wymienione w tej tabeli:

Kategoria promptu Przykład Notatki
Pytanie Jak szybko lata gołąb?
Instrukcja Napisz zabawny wiersz o arbitrażu. Prompt z prośbą o wykonanie jakiegoś działania przez duży model językowy.
Przykład Przetłumacz kod Markdown na HTML. Na przykład:
Markdown: * element listy
HTML: <ul> <li>element listy</li> </ul>
Pierwsze zdanie w tym przykładowym promptie to instrukcja. Pozostała część promptu jest przykładowa.
Rola Wyjaśnij, dlaczego zejście gradientowe jest używane podczas nauki systemów uczących się podczas studiów doktoranckich z fizyki. Pierwsza część zdania jest instrukcją, a zdania „dla doktora fizyki” – rolę.
Częściowe dane wejściowe do ukończenia modelu Premier Wielkiej Brytanii mieszka w Częściowe żądanie danych wejściowych może kończyć się nagle (jak w tym przykładzie) lub kończyć podkreśleniem.

Model generatywnej AI może odpowiedzieć na prompt przy użyciu tekstu, kodu, obrazów, elementów umieszczanych czy filmów.

uczenie się oparte na promptach

#language
#generatywna AI

Zdolność określonych modeli, która pozwala im dostosowywać swoje działanie w odpowiedzi na dowolny tekst (prompty). W typowym modelu uczenia się opartym na promptach duży model językowy odpowiada na prompt, generując tekst. Załóżmy na przykład, że użytkownik wpisuje następujący prompt:

Streść trzecią zasadę dynamiki Newtona.

Model zdolny do uczenia się na podstawie promptów nie jest specjalnie wytrenowany tak, aby odpowiadał na poprzedni prompt. Raczej „wie” dużo faktów o fizyce, ogólnych regułach językowych i o tym, co składa się na przydatne odpowiedzi. Wiedza ta wystarczy, aby udzielić (mam nadzieję) przydatnej odpowiedzi. Dodatkowa opinia człowieka („Ta odpowiedź była zbyt skomplikowana” lub „Co to jest reakcja?”) umożliwia niektórym systemom edukacyjnym opartym na promptach stopniowe zwiększanie użyteczności odpowiedzi.

projekt promptu

#language
#generatywna AI

Synonim terminu inżynieria promptów.

tworzenie promptów

#language
#generatywna AI

Sztuka tworzenia promptów zwracających pożądane odpowiedzi z dużego modelu językowego. Ludzie zajmują się tworzeniem promptów. Pisanie uporządkowanych promptów to kluczowy element zapewniania przydatnych odpowiedzi z dużego modelu językowego. Inżynieria promptów zależy od wielu czynników, w tym:

Więcej informacji o tworzeniu pomocnych promptów znajdziesz w artykule Wprowadzenie do projektowania promptów.

Projektowanie promptów jest synonimem słowa „inżynieria promptów”.

dostrajanie promptów

#language
#generatywna AI

Mechanizm dostrajania efektywnego działania parametrów, który uczy się przedrostka, który system dodaje do rzeczywistego potwierdzenia.

Jedną z odmian dostrajania promptów, nazywanej czasem dostrajaniem prefiksów, jest dodanie prefiksu do każdej warstwy. W przeciwieństwie do tego większość dostrajania promptów dodaje prefiks do warstwy wejściowej.

R

prompty dotyczące roli

#language
#generatywna AI

Opcjonalna część promptu, która określa grupę odbiorców odpowiedzi modelu generatywnej AI. Bez prompta duży model językowy zapewnia odpowiedź, która może, ale nie musi być przydatna dla osoby zadającej pytania. Dzięki promptowi dotyczącego roli duży model językowy może udzielić odpowiedzi w sposób bardziej odpowiedni i przydatny dla określonej grupy odbiorców. Na przykład te fragmenty promptów dotyczących roli są pogrubione:

  • Streść ten artykuł dla doktoratu w dziedzinie ekonomii.
  • Opisz, jak działają pływy u 10-letniego dziecka.
  • Opisz kryzys finansowy w 2008 roku. Mów tak jak do dziecka lub do golden retrievera.

S

do samodzielnego myślenia

#language

Warstwa sieci neuronowej, która przekształca sekwencję umieszczania (np. wektorów dystrybucyjnych tokena) w inną sekwencję reprezentacji właściwościowych. Każde umieszczenie w sekwencji wyjściowej odbywa się przez integrowanie informacji z elementów sekwencji wejściowej za pomocą mechanizmu uwagi.

Element uwagi na siebie odnosi się do sekwencji skupiania się na sobie, a nie do innego kontekstu. Samodzielna koncentracja to jeden z głównych elementów Transformers, który wykorzystuje terminologię wyszukiwania słownika, np. „zapytanie”, „klucz” i „wartość”.

Warstwa skupienia uwagi zaczyna się od sekwencji wprowadzania danych, po jednej dla każdego słowa. Wejściową reprezentacją słowa może być proste umieszczenie. Przy każdym słowie w sekwencji wejściowej sieć ocenia trafność słowa w odniesieniu do każdego elementu w całej sekwencji słów. Wynik trafności określa, w jakim stopniu końcowa reprezentacja słowa obejmuje inne reprezentacje.

Weźmy na przykład to zdanie:

Zwierzę nie przeszło przez ulicę, bo było zbyt zmęczone.

Ilustracja poniżej (z artykułu Transformer: A Neural Network Architecture for Language Understanding) pokazuje wzorzec uwagi w warstwie uwagi dla zaimka it, przy czym ciemność każdego wiersza wskazuje, w jakim stopniu poszczególne słowa przyczyniają się do reprezentacji:

To zdanie pojawia się dwukrotnie: Zwierzak nie przekroczył ulicy, bo był zbyt zmęczony. Linie łączą zaimek w jednym zdaniu z 5 tokenami (The, zwierzę, ulica, to i kropka) w drugim zdaniu.  Najmocniejsza granica między zaimkiem a słowem zwierzęcie jest najsilniejsza.

Warstwa zwracania uwagi wyróżnia słowa, które pasują do tego słowa. W tym przypadku warstwa uwagi nauczyła się wyróżniać słowa, które może się odnosić, przypisując największą wagę zwierzęciu.

W przypadku sekwencji n tokenów funkcja samozwania przekształca sekwencję reprezentacji właściwościowych n osobnych razy, po jednym na każdym położeniu w sekwencji.

Zapoznaj się też z artykułami uwagi i samodzielnej uwagi.

analiza nastawienia

#language

Stosowanie algorytmów statystycznych lub algorytmów systemów uczących się do określania ogólnego nastawienia grupy (pozytywnej lub negatywnej) do usługi, produktu, organizacji lub tematu. Na przykład za pomocą rozumienia języka naturalnego algorytm może przeprowadzić analizę nastawienia na podstawie opinii tekstowych o kursie uniwersyteckim, aby określić, w jakim stopniu dany kurs podoba się lub nie podoba się studentom.

zadanie między sekwencją a sekwencją

#language

Zadanie, które konwertuje sekwencję wejściową tokenów na wyjściową sekwencję tokenów. Na przykład 2 popularne rodzaje zadań od sekwencji do sekwencji to:

  • Tłumacze:
    • Przykładowa sekwencja wejściowa: „Kocham Cię”.
    • Przykładowa sekwencja wyjściowe: „Je t'aime”.
  • Odpowiadanie na pytania:
    • Przykładowa sekwencja wejściowa: „Czy będę potrzebować samochodu w Nowym Jorku?”.
    • Przykładowa sekwencja wyjściowe: „Nie. Zostaw samochód w domu”.

Pomiń gram

#language

Ciąg znaków n-gram, który może pomijać słowa w pierwotnym kontekście, co oznacza, że mogły one wcześniej nie występować obok siebie. Dokładniej rzecz ujmując, „k skip-n-gram” to n gram, w którym pominięto do k słów.

Na przykład „szybki lis brązowy” może ważyć 2 gramy:

  • „szybki”
  • „szybki brązowy”
  • „lis brunatny”

„1-kip-2 gram” to para słów, między którymi znajduje się maksymalnie 1 słowo. W związku z tym „szybki lis brązowy” ma następujące 2 gramy, z których można pominąć:

  • „brązowy”
  • „szybki lis”

Poza tym wszystkie 2 gramy mają też 1 pomiń 2 gramy, bo można pominąć mniej niż 1 słowo.

Teksty pomijania przydają się, gdy chcesz lepiej zrozumieć kontekst słowa. W tym przykładzie słowo „lis” było bezpośrednio powiązane ze słowem „szybkim” w zbiorze 1-2-gramów, ale nie w zestawie 2 gramów.

Pomiń gramy pomagają w trenowaniu modeli umieszczania słów.

dostrajanie promptów

#language
#generatywna AI

Technika dostrajania dużego modelu językowego do konkretnego zadania bez dostrajania, które pochłania dużą ilość zasobów. Zamiast ponownie trenować wszystkie wagi w modelu, dostrajanie promptów automatycznie dostosowuje komunikat tak, aby osiągnąć ten sam cel.

Po wyświetleniu promptu tekstowego dostrajanie niewymagających promptów zwykle dołącza do promptu dodatkowe wektory tokenów i optymalizuje dane wejściowe za pomocą propagacji wstecznej.

„Twardy” prompt zawiera rzeczywiste tokeny, a nie osadzone tokeny.

obiekt rozproszony

#language
#fundamentals

feature, którego wartości są głównie zero lub puste. Na przykład cecha zawierająca 1 wartość i milion wartości 0 jest bardzo rozmieszczona. W przeciwieństwie do tego cechy gęstej mają wartości, które w większości nie są puste ani nie mają zerowej wartości.

W systemach uczących się niektóre funkcje są bardzo rzadkie, Cechy kategorialne są zwykle ubogie w dane. Na przykład spośród 300 możliwych gatunków drzew w lesie jeden przykład może zidentyfikować tylko klon. Spośród milionów możliwych filmów w bibliotece jeden przykład może zidentyfikować tylko „Casablanca”.

W modelu zazwyczaj reprezentujesz rozproszone funkcje za pomocą kodowania „1 szybko”. Jeśli jednostronne kodowanie jest duże, możesz nałożyć na nie warstwę do umieszczania, aby zwiększyć efektywność.

rzadka reprezentacja

#language
#fundamentals

Przechowywanie tylko pozycji elementów innych niż zero w obiekcie rozproszonym.

Załóżmy np., że funkcja kategorialna o nazwie species identyfikuje 36 gatunków drzew w konkretnym lesie. Teraz załóżmy, że każdy przykład identyfikuje tylko jeden gatunek.

Możesz użyć wektora „1 hot” do reprezentowania gatunków drzew w każdym przykładzie. Wektor „1 gorący” zawiera jeden element 1 (reprezentujący konkretne gatunki drzew w tym przykładzie) i 35 elementów 0 (czyli 35 gatunków drzew nie w tym przykładzie). Jednorazowa reprezentacja właściwości maple może więc wyglądać mniej więcej tak:

Wektor, w którym pozycje od 0 do 23 mają wartość 0, pozycja 24 ma wartość 1, a pozycje od 25 do 35 mają wartość 0.

Natomiast rozproszona reprezentacja mogłaby po prostu określić pozycję konkretnego gatunku. Jeśli maple znajduje się na pozycji 24, rzadkie reprezentowanie właściwości maple wyglądałoby tak:

24

Zwróć uwagę, że reprezentacja rzadka jest znacznie bardziej zwięzła niż ta prezentowana tylko raz.

szkolenie etapowe

#language

Taktyka trenowania modelu w sekwencji konkretnych etapów. Celem może być przyspieszenie procesu trenowania lub uzyskanie lepszej jakości modelu.

Ilustracja przedstawiająca progresywne łączenie:

  • Etap 1 zawiera 3 ukryte warstwy, etap 2 – 6 ukrytych, a 3 – 12 ukrytych.
  • Etap 2 rozpoczyna trening od ciężarów zdobytych w 3 ukrytych warstwach etapu 1. Etap 3 rozpoczyna trening od ciężarów zdobytych w 6 ukrytych warstwach etapu 2.

3 etapy oznaczone jako Etap 1, 2 i 3.
          Każdy etap zawiera inną liczbę warstw: etap 1 zawiera 3 warstwy, etap 2 – 6 warstw, a etap 3 – 12 warstw.
          Trzy warstwy z etapu 1 stają się pierwszymi 3 warstwami etapu 2.
          Analogicznie 6 warstw z etapu 2 stają się pierwszymi 6 warstwami etapu 3.

Zobacz też potokowanie potoku.

token podrzędny

#language

W modelach językowych jest to token, który jest podłańcuchem słowa, którym może być całe słowo.

Na przykład wyraz „itemize” można podzielić na części „item” (słowo główne) i „ize” (przyrostek), z których każdy jest reprezentowany przez własny token. Rozdzielenie nietypowych słów na takie części, zwane podsłowami, umożliwia modelom językowym opracowanie bardziej typowych części składowych słowa, takich jak prefiksy i sufiksy.

I odwrotnie, popularne słowa, takie jak „bycie” mogą nie zostać podzielone i mogą być reprezentowane przez jeden token.

T

T5

#language

Model przenoszenia nauczania za pomocą tekstu na tekst został wdrożony przez sztuczną inteligencję Google w 2020 r.. T5 to model kodera-dekodera oparty na architekturze Transformera, wytrenowany na bardzo dużym zbiorze danych. Pomaga w różnych zadaniach związanych z przetwarzaniem języka naturalnego, takich jak generowanie tekstu, tłumaczenie języków i odpowiadanie na pytania w sposób konwersacyjny.

Nazwa T5 pochodzi od pięciu liter T w „Transformerze transferu tekstu na tekst”.

T5X

#language

Platforma typu open source systemów uczących się przeznaczona do tworzenia i trenowania dużych modeli przetwarzania języka naturalnego (NLP). Kod T5 jest zaimplementowany w bazie kodu T5X (opartej na technologii JAX i Flax).

temperatura

#language
#image
#generatywna AI

Hiperparametr, który kontroluje stopień losowości danych wyjściowych modelu. Wyższe temperatury oznaczają więcej losowych danych wyjściowych, a niższe – mniej losowych danych wyjściowych.

Wybór najlepszej temperatury zależy od konkretnej aplikacji i preferowanych właściwości danych wyjściowych modelu. Na przykład podnosisz temperaturę przy tworzeniu aplikacji, która generuje dane wyjściowe kreacji. I na odwrót, należałoby obniżyć temperaturę podczas tworzenia modelu, który klasyfikuje obrazy lub tekst, aby zwiększyć dokładność i spójność modelu.

Funkcja softmax jest często używana do określania temperatury.

rozpiętość tekstu

#language

Zakres indeksu tablicy powiązany z określoną podsekcją ciągu tekstowego. Na przykład słowo good w ciągu znaków s="Be good now" w Pythonie zajmuje fragment tekstu od 3 do 6.

token

#language

W modelu językowym atomowa jednostka, na której model się trenuje i na której tworzy prognozy. Token zwykle jest jednym z tych elementów:

  • słowo, na przykład wyrażenie „psy jak koty” składa się z 3 tokenów: „psy”, „jak” i „koty”.
  • po jednym znaku, np. wyrażenie „ryba na rowerze” składa się z 9 tokenów znakowych. (Pamiętaj, że puste miejsce jest liczone jako jeden z tokenów).
  • podsłowa, w których pojedyncze słowo może być pojedynczym tokenem lub wieloma tokenami; Słowo podrzędne składa się ze słowa głównego, prefiksu lub sufiksu. Na przykład model językowy używający słów podrzędnych jako tokenów może postrzegać słowo „psy” jako 2 tokeny (słowa głównego „pies” i przyrostek „s”). Ten sam model językowy może postrzegać pojedyncze słowo „wyższe” jako 2 słowa podrzędne (słowo główne „wysoki” i przyrostek „er”).

W domenach innych niż modele językowe tokeny mogą reprezentować inne rodzaje jednostek atomowych. Na przykład w przypadku rozpoznawania obrazów token może być podzbiorem obrazu.

Transformator

#language

Opracowana przez Google architektura sieci neuronowej, która opiera się na mechanizmach samodzielnej uwagi, aby przekształcać sekwencję reprezentacji właściwościowych w sekwencję osadzonych danych wyjściowych, nie korzystając z konwolucji ani powracających sieci neuronowych. Transformer to taki zbiór warstw, które skupiają uwagę.

Transformer może zawierać takie elementy:

Koder przekształca sekwencję wektorów dystrybucyjnych w nową sekwencję o tej samej długości. Koder zawiera N identycznych warstw, z których każda zawiera 2 warstwy podrzędne. Te 2 warstwy podrzędne są stosowane w każdej pozycji wejściowej sekwencji umieszczania, przekształcając każdy element sekwencji w nowe umieszczenie. Pierwsza warstwa podrzędna kodera agreguje informacje z sekwencji wejściowej. Druga warstwa podrzędna kodera przekształca zagregowane informacje w umieszczone dane wyjściowe.

Dekoder przekształca sekwencję reprezentacji właściwościowych w sekwencję reprezentacji danych wyjściowych, czasem o innej długości. Dekoder zawiera również N identycznych warstw z 3 warstwami podrzędnymi, z których 2 są podobne do warstw podrzędnych kodera. Trzecia podwarstwa dekodera pobiera dane wyjściowe kodera i stosuje mechanizm samodzielnej uwagi, aby zbierać z niej informacje.

Post na blogu Transformer: A Novel Neural Network Architecture for Language Understanding zawiera dobre wprowadzenie do Transformers.

trygram

#seq
#language

N-gram, w którym N=3.

U

jednokierunkowa

#language

System oceniający tylko tekst, który występuje przed docelową sekcją tekstu. Natomiast system dwukierunkowy ocenia zarówno tekst, który poprzedza, jak i następuje po docelowej sekcji tekstu. Więcej informacji znajdziesz w sekcji Dwukierunkowy.

jednokierunkowy model językowy

#language

Model językowy, którego prawdopodobieństwo opiera się wyłącznie na tokenach występujących przed, a nie po tokenach docelowych. Porównaj z dwukierunkowym modelem językowym.

V

wariacyjny autokoder (VAE)

#language

Rodzaj autokodera, który korzysta z rozbieżności między danymi wejściowymi i wyjściowymi w celu generowania zmodyfikowanych wersji danych wejściowych. Autokodery wariacyjne przydają się w przypadku generatywnej AI.

Wskaźniki VAE opierają się na wnioskowaniu wariacyjnym, czyli technice szacowania parametrów modelu prawdopodobieństwa.

Ś

wektor dystrybucyjny

#language

Reprezentowanie każdego słowa w zestawie słów w wektorze osadzonym, czyli reprezentowanie każdego słowa jako wektorze wartości zmiennoprzecinkowych z zakresu od 0.0 do 1.0. Wyrazy o podobnych instrukcjach wyglądają podobnie do innych słów. Na przykład marchew, celant i ogórek będą miały stosunkowo podobne obrazy, które bardzo różnią się od przykładów samolotu, okularów przeciwsłonecznych czy pasty do zębów.

Z

prompt „zero-shot”

#language
#generatywna AI

Wskazówka, która nie zawiera przykładowego sposobu, w jaki duży model językowy ma reagować. Na przykład:

Elementy jednego promptu Notatki
Jaka jest oficjalna waluta danego kraju? Pytanie, na które ma odpowiedzieć LLM.
Indie: Faktyczne zapytanie.

Duży model językowy może odpowiadać dowolnej z tych wartości:

  • Rupia
  • INR
  • Rupia indyjska
  • rupia
  • Rupia indyjska

Wszystkie odpowiedzi są prawidłowe, ale możesz preferować konkretny format.

Porównaj prompty typu zero-shot z tymi terminami: