Ta strona została przetłumaczona przez Cloud Translation API.

Słowniczek systemów uczących się: sprawdzanie języka

Ta strona zawiera definicje terminów z glosariusza oceny językowej. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

A

uwaga

#language

Mechanizm używany w sieci neuronowej, który wskazuje znaczenie danego słowa lub jego części. Uwaga kompresuje ilość informacji, których model potrzebuje do przewidywania następnego tokena lub słowa. Typowe mechanizmy uwagi mogą składać się z ważonej sumy zbioru danych wejściowych, gdzie waga dla każdego wejścia jest obliczana przez inną część sieci neuronowej.

Zapoznaj się też z konceptami samouczenia się i samouczenia się z wieloma głowami, które są elementami składowymi transformacji.

Więcej informacji o samouczeniu znajdziesz w artykule LLM: czym są duże modele językowe? z cyklu „Szkolenie z systemów uczących się”.

autoencoder

#language

#image

System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autoenkodery to połączenie enkodera i dekodera. Autoenkodery działają w ramach następującego dwuetapowego procesu:

Koder mapuje dane wejściowe na (zazwyczaj) stratny format o mniejszej wymiarowości (pośredni).
Dekoder tworzy wersję pierwotnego wejścia z utratą jakości, mapując format o mniejszym wymiarze na pierwotny format wejściowy o większym wymiarze.

Autoenkodery są trenowane kompleksowo, a dekodery próbują odtworzyć oryginalne dane wejściowe z pośredniego formatu kodowania w jak najbliższej postaci. Ponieważ format pośredni jest mniejszy (ma mniejszą wymiarność) niż format oryginalny, autoencoder musi się nauczyć, które informacje z danych wejściowych są istotne. Dane wyjściowe nie będą dokładnie takie same jak dane wejściowe.

Na przykład:

Jeśli dane wejściowe to grafika, kopia nieścisła będzie podobna do oryginalnej grafiki, ale nieco zmodyfikowana. Być może kopia niepełna usuwa szum z pierwotnej grafiki lub wypełnia brakujące piksele.
Jeśli dane wejściowe to tekst, autoencoder wygeneruje nowy tekst, który będzie naśladował (ale nie będzie identyczny) z tekstem oryginalnym.

Zobacz też wariacyjne autoenkodery.

automatyczna ocena

#language

#generativeAI

Korzystanie z oprogramowania do oceny jakości danych wyjściowych modelu.

Gdy dane wyjściowe modelu są stosunkowo proste, skrypt lub program może porównać je z złotą odpowiedzią. Ten typ automatycznej oceny jest czasem nazywany automatyczną oceną. Dane takie jak ROUGE lub BLEU są często przydatne do automatycznej oceny.

Gdy dane wyjściowe modelu są złożone lub nie ma jednej prawidłowej odpowiedzi, automatyczną ocenę czasami wykonuje oddzielny program ML o nazwie autorater.

Porównaj z weryfikacją manualną.

autorater evaluation

#language

#generativeAI

Hybrydowy mechanizm oceny jakości danych wyjściowych generatywnej AI, który łączy ocenę manualną z oceną automatyczną. Autor tekstów to model ML trenowany na podstawie danych utworzonych przez ludzkich recenzentów. W idealnej sytuacji narzędzie automatyczne uczy się naśladować ludzkiego weryfikatora.

Dostępne są gotowe autory, ale najlepsze autory są dopasowywane do konkretnego zadania, które oceniasz.

model autoregresyjny

#language

#image

#generativeAI

model, który wyprowadza prognozę na podstawie swoich poprzednich prognoz. Na przykład autoregresyjne modele językowe przewidują następny token na podstawie wcześniej przewidzianych tokenów. Wszystkie duże modele językowe oparte na transformerach są autoregresyjne.

Z kolei modele obrazów oparte na GAN zwykle nie są autoregresyjne, ponieważ generują obraz w jednym przejeździe do przodu, a nie w kolejnych krokach. Jednak niektóre modele do generowania obrazów są autoregresyjne, ponieważ generują obraz krok po kroku.

średnia precyzja w k

#language

#Dane

Dane podsumowujące skuteczność modelu w przypadku pojedynczego promptu, które generują wyniki w postaci rankingu, np. numerowane listy rekomendacji książek. Średnia precyzja k to średnia precyzji dla każdego odpowiedniego wyniku. Wzór na średnią precyzję w przypadku k:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

gdzie:

$n$ to liczba odpowiednich elementów na liście.

Porównaj z przypomnieniem na poziomie k.

Kliknij ikonę, aby zobaczyć przykład

Załóżmy, że duży model językowy otrzymał to zapytanie:

List the 6 funniest movies of all time in order.

Duży model językowy zwraca tę listę:

Ogólne
Mean Girls
Platoon
druhny,
Obywatel Kane
To jest Spinal Tap

Cztery filmy na liście zwróconych wyników są bardzo zabawne (czyli trafne), ale 2 filmy to dramaty (nietrafne). Wyniki są podane w tabeli poniżej:

Pozycja	Film	Trafne?	Dokładność w przypadku k
1	Ogólne	Tak	1,0
2	Mean Girls	Tak	1,0
3	Platoon	Nie	nie ma związku z zapytaniem
4	druhny,	Tak	0,75
5	Obywatel Kane	Nie	nie ma związku z zapytaniem
6	To jest Spinal Tap	Tak	0,67

Liczba trafnych wyników to 4. Dlatego średnią dokładność na poziomie 6 możesz obliczyć w ten sposób:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

bag of words

#language

reprezentacja słów w wyrażeniu lub fragmencie tekstu, niezależnie od ich kolejności. Na przykład torebka słów reprezentuje te 3 wyrażenia w identyczny sposób:

pies skacze
skacze na psa
pies skacze

Każde słowo jest mapowane na indeks w rzadkim wektorze, który zawiera indeks dla każdego słowa w słowniku. Na przykład wyrażenie pies skacze jest mapowane na wektor cech z wartościami innymi niż 0 w 3 indeksach odpowiadających słowom the, dog i jumps. Wartość różna od 0 może być dowolna:

1, aby wskazać obecność słowa.
Liczba wystąpień słowa w worku. Jeśli na przykład wyrażenie brzmiałoby brązowy pies to pies o brązowym futrze, zarówno brąz, jak i pies miałyby wartość 2, a pozostałe słowa – wartość 1.
inną wartość, np. logarytm z liczby wystąpień słowa w worku.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Architektura modelu do reprezentowania tekstu. Wytrenowany model BERT może działać jako część większego modelu do klasyfikacji tekstu lub innych zadań uczenia maszynowego.

BERT ma te cechy:

Korzysta z architektury Transformer, a zatem opiera się na samouczeniu.
Korzysta z części enkodera w modelu Transformer. Zadaniem kodera jest tworzenie dobrych reprezentacji tekstu, a nie wykonywanie konkretnych zadań, takich jak klasyfikacja.
Jest dwukierunkowy.
Używa maskowania do treningu nienadzorowanego.

Dostępne warianty BERT:

ALBERT, co jest akronimem A Light BERT.
LaBSE.

Aby zapoznać się z omówieniem modelu BERT, przeczytaj artykuł Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing.

dwukierunkowy

#language

Termin używany do opisania systemu, który ocenia tekst zarówno poprzedzający, jak i następujący docelowy fragment tekstu. Natomiast jednokierunkowy system analizuje tylko tekst, który poprzedza docelowy fragment tekstu.

Weźmy na przykład zamaskowany model językowy, który musi określić prawdopodobieństwa dla słowa lub słów reprezentowanych przez podkreślenie w takim pytaniu:

Co jest dla Ciebie ważne?

Model językowy jednokierunkowy musiałby opierać swoje prawdopodobieństwa tylko na kontekście określonym przez słowa „Co”, „jest” i „to”. Natomiast dwukierunkowy model językowy może uzyskać kontekst z wyrażeń „z” i „tobą”, co może pomóc w generowaniu lepszych prognoz.

dwukierunkowy model językowy

#language

model językowy, który określa prawdopodobieństwo wystąpienia danego tokena w danym miejscu w wyciągu z tekstu na podstawie poprzedzającego i następującego tekstu.

bigram

#seq

#language

N-gram, w którym N=2.

BLEU (Bilingual Evaluation Understudy)

#language

Dane o zakresie od 0,0 do 1,0 służące do oceny tłumaczeń maszynowych, np. z hiszpańskiego na japoński.

Aby obliczyć wynik, BLEU zwykle porównuje tłumaczenie modelu ML (tekst wygenerowany) z tłumaczeniem eksperta (tekst referencyjny). Wynik BLEU zależy od stopnia podobieństwa n-gramów w wygenerowanym tekście i tekście referencyjnym.

Pierwotny artykuł na temat tego wskaźnika to BLEU: a Method for Automatic Evaluation of Machine Translation.

Zobacz też BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

Wskaźnik służący do oceny tłumaczeń maszynowych z jednego języka na inny, zwłaszcza z i na język angielski.

W przypadku tłumaczeń z języka angielskiego i na angielski BLEURT jest bardziej zbliżone do ocen nadawanych przez ludzi niż BLEU. W odróżnieniu od BLEU BLEURT kładzie nacisk na podobieństwa semantyczne (znaczeniowe) i może uwzględniać parafrazowanie.

BLEURT korzysta z wstępnie wytrenowanych dużych modeli językowych (dokładnie BERT), które są następnie dostrojone na podstawie tekstu od ludzkich tłumaczy.

Pierwotny artykuł na temat tego wskaźnika to BLEURT: Learning Robust Metrics for Text Generation.

C

przyczynowy model językowy

#language

Synonim jednokierunkowego modelu językowego.

Zapoznaj się z artykułem Dwukierunkowa model języka, aby poznać różne podejścia do modelowania języka.

wykorzystanie w prompcie łańcucha myśli

#language

#generativeAI

Technika zastosowania prompta, która zachęca duży model językowy (LLM) do wyjaśnienia swojego rozumowania krok po kroku. Weź pod uwagę tę prośbę, zwracając szczególną uwagę na drugie zdanie:

Ile g kierowca odczuwa w samochodzie, który przyspiesza z 0 do 60 mil na godzinę w 7 sekundach? W odpowiedzi pokaż wszystkie istotne obliczenia.

Odpowiedź LLM:

Wyświetl sekwencję wzorów fizycznych, podając w odpowiednich miejscach wartości 0, 60 i 7.
Wyjaśnij, dlaczego wybrano te wzory i co oznaczają poszczególne zmienne.

Prompty z łańcuchem myśli zmuszają LLM do wykonania wszystkich obliczeń, co może prowadzić do bardziej poprawnej odpowiedzi. Ponadto prompt łańcucha myślenia umożliwia użytkownikowi sprawdzenie kroków LLM, aby określić, czy odpowiedź ma sens.

czat

#language

#generativeAI

Treść dialogu z systemem ML, zwykle z dużym modelem językowym. Poprzednia interakcja w czacie (to, co wpisujesz i jak duży model językowy reaguje) staje się kontekstem dla kolejnych części czatu.

Czatbot to aplikacja oparta na dużym modelu językowym.

konfabulacja

#language

Synonim halucynacji.

Konfabulacja jest prawdopodobnie bardziej poprawnym terminem technicznym niż halucynacja. Jednak najpierw popularność zyskała halucynacja.

analizowanie okręgów wyborczych

#language

Dzielenie zdania na mniejsze struktury gramatyczne („elementy składowe”). Późniejsza część systemu ML, np. model rozumienia języka naturalnego, może analizować składniki z większą łatwością niż oryginalne zdania. Weź pod uwagę na przykład takie zdanie:

Mój przyjaciel adoptował 2 koty.

Analizator składowych może podzielić to zdanie na 2 składniki:

Mój przyjaciel to wyrażenie rzeczownikowe.
adopting two cats to wyrażenie zawierające czasownik.

Te składniki można dalej dzielić na mniejsze składniki. Na przykład czasownik

adoptował 2 koty

może być dalej podzielony na:

adopted to czasownik.
dwa koty to inny rzeczownik.

kontekstowy wektor dystrybucyjny języka

#language

#generativeAI

Wpisanie, które zbliża się do „rozumienia” słów i wyrażeń w sposób podobny do tego, w jaki robią to płynnie posługujący się językiem użytkownicy. Umieszczanie w kontekście za pomocą wektorów osadzonych w języku pozwala zrozumieć złożoną składnię, semantykę i kontekst.

Rozważmy na przykład wektory zastępcze słowa cow (ang. „krowa”). Starsze wektory zanurzeniowe, takie jak word2vec, mogą reprezentować angielskie słowa w taki sposób, że odległość w przestrzeni wektorów zanurzeniowych od cow do bull jest podobna do odległości od ewe do ram (samiec owcy) lub od female do male (samiec). Umieszczanie w kontekście zasobów danych językowych może być jeszcze bardziej przydatne, ponieważ pozwala rozpoznać, że użytkownicy języka angielskiego czasami używają słowa cow (krowa) w oznaczaniu zarówno krowy, jak i byka.

okno kontekstu

#language

#generativeAI

Liczba tokenów, które model może przetworzyć w danym promptzie. Im większe okno kontekstu, tym więcej informacji może wykorzystać model, aby udzielić spójnych i konsekwentnych odpowiedzi na prompt.

crash blossom

#language

zdanie lub wyrażenie o niejednoznacznym znaczeniu; Crash blossoms stanowią poważny problem w rozumieniu języka naturalnego. Na przykład nagłówek Nadmiarkowa biurokracja blokuje wieżowiec to kwintesencja crash blossom, ponieważ model NLU może interpretować nagłówek dosłownie lub przenośnie.

Kliknij ikonę, aby dodać dodatkowe notatki.

Aby wyjaśnić tę tajemniczą kwestię:

Papierologia może oznaczać:
- klej;
- nadmierna biurokracja;
Holds Up może odnosić się do jednej z tych opcji:
- Wsparcie strukturalne
- opóźnieniach,

D

dekoder

#language

Ogólnie chodzi o dowolny system ML, który przekształca przetworzoną, gęstą lub wewnętrzną reprezentację w nieprzetworzoną, rzadką lub zewnętrzną reprezentację.

Dekodery są często elementem większego modelu, w którym często są sparowane z enkoderem.

W zadaniach sekwencja–sekwencja dekoder zaczyna się od stanu wewnętrznego wygenerowanego przez koder, aby przewidzieć następną sekwencję.

Definicję dekodera w ramach architektury transformera znajdziesz w artykule Transformer.

Więcej informacji znajdziesz w sekcji Duże modele językowe w Szybkim szkoleniu z uczenia maszynowego.

usuwanie szumów

#language

Typowe podejście do samokontrolowanego uczenia się:

Szum jest sztucznie dodawany do zbioru danych.
Model usuwa szum.

Denoising umożliwia uczenie się na nieoznaczonych przykładach. Pierwotny zbiór danych służy jako docel lub etykieta, a zaszumione dane są wejściem.

Niektóre zamaskowane modele językowe używają redukcji szumów w ten sposób:

Do nieoznaczonego zdania dodawany jest sztucznie szum przez zamaskowanie niektórych tokenów.
Model próbuje przewidzieć oryginalne tokeny.

bezpośrednie prompty

#language

#generativeAI

Synonim promptów „zero-shot”.

E

edytuj odległość

#language

#Dane

Pomiar podobieństwa 2 ciągów tekstowych. W systemach uczących się odległość edytowania jest przydatna z tych powodów:

Odległość edytowania jest łatwa do obliczenia.
Odległość edycji umożliwia porównanie 2 ciągów, które są do siebie podobne.
Odległość edytowania może określać, na ile różne ciągi znaków są podobne do danego ciągu znaków.

Istnieje kilka definicji odległości edycji, z których każda wykorzystuje inne operacje na ciągach znaków. Przykładem jest odległość Levenshteina.

warstwa wstawiania

#language

#fundamentals

Specjalny warstwę ukrytą, która jest trenowana na podstawie cechy kategorialnej o dużej wymiarowości, aby stopniowo uczyć się wektora zanurzonego o mniejszej wymiarowości. Warstwę embeddingu można wykorzystać do trenowania sieci neuronowej w znacznie bardziej wydajny sposób niż przy użyciu tylko cechy wielowymiarowej.

Na przykład Earth obsługuje obecnie około 73 tys. gatunków drzew. Załóżmy, że gatunek drzewa jest atrybutem w Twoim modelu,więc warstwa wejściowa modelu zawiera wektor typu one-hot o długości 73 000 elementów. Na przykład baobab może być przedstawione w ten sposób:

Tablica 73 tysięcy elementów. Pierwsze 6232 elementy mają wartość 0. Następny element zawiera wartość 1. Ostatnie 66 767 elementów ma wartość zero.

Tablica o 73 tys. elementach jest bardzo długa. Jeśli nie dodasz do modelu warstwy embeddingu, trenowanie zajmie bardzo dużo czasu z powodu mnożenia 72 999 zer. Możesz wybrać warstwę z 12 wymiarami. W konsekwencji warstwa embeddingu będzie stopniowo uczyć się nowego wektora embeddingu dla każdego gatunku drzewa.

W niektórych sytuacjach zaszyfrowanie jest odpowiednią alternatywą dla warstwy umieszczania.

Więcej informacji znajdziesz w sekcji Embeddings w szybkim szkoleniu z uczenia maszynowego.

przestrzeń do wklejania

#language

D-wymiarowa przestrzeń wektorowa, do której mapowane są cechy z wyższej wymiarowości. Przestrzeń do wklejania jest trenowana w celu przechwytywania struktury, która jest istotna dla danego zastosowania.

Iloczyn skalarny 2 wewnętrznych obiektów jest miarą ich podobieństwa.

wektor dystrybucyjny

#language

Ogólnie mówiąc, tablica liczb zmiennoprzecinkowych pobranych z dowolnego ukrytego warstwy, które opisują dane wejściowe tej ukrytej warstwy. Często wektor ten jest tablicą liczb zmiennoprzecinkowych wytrenowanych w warstwie embeddingu. Załóżmy na przykład, że warstwa embeddingu musi nauczyć się wektora embeddingu dla każdego z 73 tys. gatunków drzew na Ziemi. Być może następująca tablica jest wektorem dystrybucyjnym baobabu:

Tablica 12 elementów, z których każdy zawiera liczbę zmiennoprzecinkową
z zakresu od 0,0 do 1,0.

Wektor dystrybucyjny to nie zbiór losowych liczb. Warstwę wbudowania określają te wartości podczas trenowania, podobnie jak sieć neuronowa uczy się innych wag podczas trenowania. Każdy element tablicy to ocena pewnej cechy gatunku drzewa. Który element reprezentuje którą cechę gatunku drzew? Jest to bardzo trudne do określenia przez ludzi.

Matematycznie niezwykłą cechą wektora dystrybucyjnego jest to, że podobne elementy mają podobne zbiory liczb zmiennoprzecinkowych. Na przykład podobne gatunki drzew mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż niepodobna do siebie grupa gatunków drzew. Sekwoje i sekwojadendro są spokrewnionymi gatunkami drzew, więc będą miały bardziej podobny zestaw liczb zmiennoprzecinkowych niż sekwoje i palmy kokosowe. Liczby w wektorze zastępczym będą się zmieniać za każdym razem, gdy ponownie przeszkolisz model, nawet jeśli będziesz to robić z identycznymi danymi wejściowymi.

koder

#language

Ogólnie chodzi o dowolny system ML, który przekształca dane w postaci nieprzetworzonej, rzadkiej lub zewnętrznej w postać bardziej przetworzoną, gęstszą lub bardziej wewnętrzną.

Enkodery są często elementem większego modelu, w którym są często sparowane z dekoderem. Niektóre transformery łączą kodery z dekoderami, ale inne używają tylko kodera lub tylko dekodera.

Niektóre systemy używają danych wyjściowych kodera jako danych wejściowych do sieci klasyfikacyjnej lub regresyjnej.

W zadaniach sekwencja–sekwencja enkoder przyjmuje sekwencję wejściową i zwraca stan wewnętrzny (wektory). Następnie dekoder używa tego stanu wewnętrznego do przewidywania następnej sekwencji.

Definicję enkodera w architekturze Transformer znajdziesz w artykule Transformer.

Więcej informacji znajdziesz w części LLMs: What's a large language model (Duże modele językowe: co to jest duży model językowy) w sekcji Szybkie szkolenie z systemów uczących się.

evals

#language

#generativeAI

#Dane

Jest to głównie skrót od oceny LLM. Ogólnie rzecz biorąc, evals to skrót od dowolnej formy oceny.

ocena

#language

#generativeAI

#Dane

Proces pomiaru jakości modelu lub porównywania różnych modeli.

Aby ocenić nadzorowany model uczenia maszynowego, zwykle porównujemy go z zestawami walidacyjnym i testowym. Ocena modelu LLMzazwyczaj obejmuje szerszą ocenę jakości i bezpieczeństwa.

F

prompty „few-shot”

#language

#generativeAI

prompt zawierający więcej niż 1 (czyli „kilka”) przykładów pokazujących, jak duży model językowy powinien odpowiadać. Na przykład poniższy długi prompt zawiera 2 przykłady, które pokazują dużemu modelowi językowemu, jak odpowiadać na zapytanie.

Części jednego promptu	Uwagi
`Jaka jest oficjalna waluta w wybranym kraju?`	Pytanie, na które ma odpowiedzieć model LLM.
`Francja: EUR`	Przykład:
`Wielka Brytania: GBP`	Inny przykład
`Indie:`	Faktyczne zapytanie.

Prompty „few-shot” zwykle przynoszą lepsze wyniki niż prompty „zero-shot” i „one-shot”. Prompty „few-shot” wymagają jednak dłuższego promptu.

Prompty „few-shot” to forma uczenia się typu „few-shot”, stosowana w uczeniu się na podstawie promptów.

Więcej informacji znajdziesz w sekcji tworzenie promptów w szybkim szkoleniu z uczenia maszynowego.

Skrzypce

#language

Biblioteka konfiguracyjna napisana głównie w Pythonie, która ustawia wartości funkcji i klas bez konieczności stosowania inwazyjnego kodu lub infrastruktury. W przypadku Pax i innych baz kodu ML te funkcje i klasy reprezentują modele i trenowanie parametry hiperzmiennych.

Fiddle zakłada, że kody baz danych systemów uczących się są zwykle podzielone na:

kod biblioteki, który definiuje warstwy i optymalizatory;
kod „klejący” zbiór danych, który wywołuje biblioteki i połącza wszystko ze sobą.

Fiddle rejestruje strukturę wywołań kodu pośredniczącego w nieocenionej i zmiennej formie.

dostrojenie

#language

#image

#generativeAI

Drugi przejazd treningowy, który jest wykonywany na wytrenowanym wcześniej modelu w celu dostosowania jego parametrów do konkretnego zastosowania. Przykładowa pełna sekwencja trenowania niektórych dużych modeli językowych:

Wstępne trenowanie: trenowanie dużego modelu językowego na ogromnym ogólnym zbiorze danych, takim jak wszystkie strony Wikipedii w języku angielskim.
Dostosowywanie: wytrenowanie wstępnie wytrenowanego modelu do wykonywania konkretnego zadania, np. odpowiadania na pytania medyczne. Dostrojenie polega zwykle na wykorzystaniu setek lub tysięcy przykładów dotyczących konkretnego zadania.

Innym przykładem jest pełna sekwencja trenowania dużego modelu obrazu:

Wstępne trenowanie: trenowanie dużego modelu obrazów na olbrzymim ogólnym zbiorze danych, takim jak wszystkie obrazy w Wikimedia Commons.
Dostrojenie: wytrenowanie wstępnie przeszkolonego modelu do wykonywania konkretnego zadania, np. generowania obrazów orek.

Dostosowanie dokładne może obejmować dowolną kombinację tych strategii:

zmodyfikować wszystkie istniejące parametry wytrenowanego wcześniej modelu; Czasami nazywa się to pełnym dostrojeniem.
Modyfikowanie tylko niektórych istniejących parametrów wstępnie wytrenowanego modelu (zazwyczaj warstw najbliżej warstwy wyjściowej), przy zachowaniu innych istniejących parametrów (zazwyczaj warstw najbliżej wejściowej warstwy). Zobacz dostrajanie z uwzględnieniem wydajności.
Dodawanie kolejnych warstw, zwykle na wierzchu istniejących warstw najbliżej warstwy wyjściowej.

Dostrojenie to forma uczenia się przez przenoszenie. W ramach dostrojenia można użyć innej funkcji utraty lub innego typu modelu niż te, które zostały użyte do trenowania wstępnie wytrenowanego modelu. Możesz na przykład dostosować wstępnie wytrenowany model dużych obrazów, aby uzyskać model regresji zwracający liczbę ptaków na obrazie wejściowym.

Porównaj dostosowanie do tych terminów:

distillation
nauka oparta na promptach,

Więcej informacji znajdziesz w części Dostrojenie z szybkiego szkolenia z uczenia maszynowego.

Len

#language

Wysokowydajna biblioteka open source do uczenia głębokiego oparta na JAX. Flax udostępnia funkcje treningu sieci neuronowych oraz metody oceny ich wydajności.

Flaxformer

#language

Biblioteka Transformer oparta na Flaxie, przeznaczona głównie do przetwarzania języka naturalnego i badania multimodalnego.

G

Gemini

#language

#image

#generativeAI

Ekosystem obejmujący najbardziej zaawansowaną AI od Google. Elementy tego ekosystemu to:

różne modele Gemini.
Interaktywny interfejs konwersacyjny do modelu Gemini. Użytkownicy wpisują prompty, a Gemini na nie odpowiada.
różne interfejsy Gemini API.
różne usługi biznesowe oparte na modelach Gemini, np. Gemini dla Google Cloud.

Modele Gemini

#language

#image

#generativeAI

Najnowocześniejsze modele multimodalne oparte na Transformerze od Google. Modele Gemini zostały zaprojektowane specjalnie do integracji z agentami.

Użytkownicy mogą wchodzić w interakcje z modelami Gemini na różne sposoby, m.in. za pomocą interaktywnego interfejsu dialogowego i pakietów SDK.

wygenerowany tekst

#language

#generativeAI

Ogólnie tekst generowany przez model ML. Podczas oceny dużych modeli językowych niektóre dane porównują wygenerowany tekst z tekstem odniesienia. Załóżmy na przykład, że chcesz sprawdzić, jak skutecznie model ML tłumaczy z języka francuskiego na holenderski. W tym przypadku:

Wygenerowany tekst to tłumaczenie na język niderlandzki, które generuje model uczenia maszynowego.
Tekst referencyjny to tłumaczenie na język niderlandzki, które zostało utworzone przez tłumacza (lub oprogramowanie).

Pamiętaj, że niektóre strategie oceny nie uwzględniają tekstu odniesienia.

generatywnej AI

#language

#image

#generativeAI

Nowe, rewolucyjne pole, które nie ma formalnej definicji. Większość ekspertów zgadza się jednak, że modele generatywnej AI mogą tworzyć („generować”) treści, które:

złożone
spójny
oryginał

Na przykład model generatywnej AI może tworzyć zaawansowane eseje lub obrazy.

Niektóre starsze technologie, w tym sieci LSTM i sieci RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci uważają, że te wcześniejsze technologie są generatywną AI, podczas gdy inni uważają, że prawdziwa generatywna AI wymaga bardziej złożonego wyjścia, niż mogą wytworzyć te wcześniejsze technologie.

W przeciwieństwie do systemów ML prognozujących.

złota odpowiedź

#language

#generativeAI

Odpowiedź, która jest uznana za dobrą. Na przykład w przypadku tego prompta:

2 + 2

Najlepszą odpowiedzią jest:

4

Kliknij tutaj, aby zobaczyć informacje o złotej odpowiedzi i tekście referencyjnym.

Niektóre wskaźniki oceny, takie jak ROUGE, porównują tekst referencyjny z tekstem wygenerowanym przez model. Gdy na prompta istnieje tylko jedna prawidłowa odpowiedź, złota odpowiedź zwykle służy jako tekst referencyjny.

Niektóre prompty nie mają jednej prawidłowej odpowiedzi. Na przykład prompt Podsumuj ten dokument prawdopodobnie będzie miał wiele prawidłowych odpowiedzi. W przypadku takich promptów tekst referencyjny często jest niepraktyczny, ponieważ model może generować bardzo szeroki zakres możliwych podsumowań. W tej sytuacji może jednak być przydatna złota odpowiedź. Na przykład złota odpowiedź zawierająca dobre podsumowanie dokumentu może pomóc w trenowaniu narzędzia automatycznego generowania treści w celu odkrywania wzorców dobrych podsumowań dokumentów.

GPT (generatywna, wstępnie wytrenowana sieć Transformer)

#language

Rodzina dużych modeli językowych opartych na architekturze Transformer opracowanych przez OpenAI.

Warianty GPT mogą dotyczyć wielu modalności, w tym:

generowanie obrazów (np. ImageGPT);
generowanie obrazu na podstawie tekstu (np. DALL-E).

H

halucynacje

#language

wygenerowanie przez model generatywnej AI wyników, które wydają się wiarygodne, ale są nieprawdziwe, i które rzekomo wygłaszają twierdzenia na temat rzeczywistego świata; Na przykład model generatywnej AI, który twierdzi, że Barack Obama zmarł w 1865 r., halucynuje.

sprawdzenie przez weryfikatora

#language

#generativeAI

Proces, w którym ludzie oceniają jakość danych wyjściowych modelu AI; na przykład dwujęzyczne osoby oceniają jakość modelu tłumaczenia maszynowego. Weryfikacja manualna jest szczególnie przydatna do oceny modeli, które nie mają jednej prawidłowej odpowiedzi.

Porównaj z automatyczną oceną i opłatą za automatyczną ocenę.

I

uczenie się w kontekście

#language

#generativeAI

Synonim promptów „few-shot”.

L

LaMDA (Language Model for Dialogue Applications)

#language

Transformer duży model językowy opracowany przez Google na podstawie dużego zbioru danych z dialogami, który może generować realistyczne odpowiedzi w formie konwersacji.

LaMDA – nasza rewolucyjna technologia konwersacyjna zawiera omówienie.

model językowy

#language

Model, który szacuje prawdopodobieństwo wystąpienia tokena lub sekwencji tokenów w dłuższej sekwencji tokenów.

Kliknij ikonę, aby dodać dodatkowe notatki.

Choć może to być nieintuicyjne, wiele modeli oceniających tekst nie jest modelami językowymi. Na przykład modele klasyfikacji tekstu i modele analizy nastroju nie są modelami językowymi.

Więcej informacji znajdziesz w części Co to jest model językowy? w Szybkim szkoleniu z uczenia maszynowego.

duży model językowy

#language

Minimalnie model językowy o bardzo dużej liczbie parametrów. Nieformalnie: dowolny model językowy oparty na Transformerze, np. Gemini lub GPT.

Więcej informacji znajdziesz w sekcji Duże modele językowe (LLM) w szybkim szkoleniu z uczenia maszynowego.

przestrzeń ukryta

#language

Synonim przestrzeni wektorów dystrybucyjnych.

odległość Levenshteina,

#language

#metric

Wskaźnik odległość edycji, który oblicza najmniejszą liczbę operacji usuwania, wstawiania i zastępowania niezbędnych do zamiany jednego słowa na drugie. Na przykład odległość Levenshteina między słowami „serce” i „rzutki” wynosi 3, ponieważ te 3 zmiany wymagają najmniejszej liczby modyfikacji, aby jedno słowo zamienić na drugie:

heart → deart (zastąp „h” przez „d”)
deart → dart (usuń „e”)
dart → darts (insert "s")

Powyższa sekwencja nie jest jedyną ścieżką z 3 edycjami.

LLM

#language

#generativeAI

Skrót od duży model językowy.

Oceny LLM (evals)

#language

#generativeAI

#Dane

Zestaw danych i punktów odniesienia do oceny skuteczności dużych modeli językowych (LLM). Ogólnie rzecz biorąc, oceny LLM:

Pomagać badaczom w określaniu obszarów, w których modele LLM wymagają poprawy.
przydają się do porównywania różnych modeli LLM i określania, który z nich najlepiej nadaje się do danego zadania;
pomagać w zapewnieniu bezpieczeństwa i zgody z zasadami etycznymi w przypadku modeli LLM.

Aby dowiedzieć się więcej, zapoznaj się z sekcją Duże modele językowe (LLM) w szybkim szkoleniu z uczenia maszynowego.

LoRA

#language

#generativeAI

Skrót od Low-Rank Adaptation.

Adaptacja niskiego rzędu (LoRA)

#language

#generativeAI

Techniczne zagadnienia dotyczące parametrów dotyczące dokładnego dostrojenia, które polega na „zamrożeniu” wstępnie wytrenowanych wag modelu (aby nie można ich było już modyfikować), a następnie wstawianiu do modelu małego zestawu wag do trenowania. Ten zbiór trenowanych wag (zwany też „macierzami aktualizacji”) jest znacznie mniejszy niż model podstawowy, a więc jego trenowanie przebiega znacznie szybciej.

LoRA zapewnia te korzyści:

Poprawia jakość prognoz modelu w przypadku domeny, w której zastosowano dostrajanie.
Szybciej dostosowuje model niż techniki, które wymagają dostosowania wszystkich jego parametrów.
Zmniejsza koszt obliczeń wywnioskowania przez umożliwienie jednoczesnego obsługiwania wielu wyspecjalizowanych modeli, które mają ten sam model podstawowy.

Kliknij ikonę, aby dowiedzieć się więcej o macierzach aktualizacji w LoRa.

Macierz aktualizacji używana w metodach LoRA składa się z macierzy dekompozycji rang, które są wyprowadzane z modelu podstawowego, aby filtrować szumy i skupić się na najważniejszych cechach modelu.

M

zamaskowany model językowy

#language

model językowy, który przewiduje prawdopodobieństwo, że tokeny kandydatów wypełnią puste miejsca w sekwencji. Na przykład model języka z zamaskowanymi danymi może obliczyć prawdopodobieństwo dla wybranych słów, aby zastąpić podkreślenie w tym zdaniu:

Z powrotem pojawił się ____ w czapce.

W dokumentacji zamiast podkreślenia zwykle używany jest ciąg „MASK”. Na przykład:

Maska w kapeluszu wróciła.

Większość współczesnych zamaskowanych modeli językowych jest dwukierunkowa.

średnia średnia precyzja w k (mAP@k)

#language

#generativeAI

#Dane

Statystyczna średnia wszystkich wyników średniej precyzji na k w przypadku zbioru danych do weryfikacji. Średnia średnia precyzja w k służy m.in. do oceny jakości rekomendacji generowanych przez system rekomendacji.

Chociaż wyrażenie „średnia średnia” brzmi niepotrzebnie, nazwa tego wskaźnika jest odpowiednia. Wskaźnik ten oblicza średnią średnią dokładność w przypadku wartości k.

Kliknij ikonę, aby zobaczyć przykład.

Załóżmy, że tworzysz system rekomendacji, który generuje spersonalizowaną listę polecanych powieści dla każdego użytkownika. Na podstawie opinii wybranych użytkowników obliczasz 5 wartości średniej dokładności dla k wyników (po 1 wyniku na użytkownika):

0,73
0,77
0,67
0,82
0,76

Średnia precyzja na poziomie K wynosi więc:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

metauczenie się

#language

Podzbiór systemów uczących się, który wykrywa lub ulepsza algorytm uczenia się. System metanauki może też trenować model, aby szybko uczyć się nowych zadań na podstawie niewielkiej ilości danych lub doświadczenia zdobytego podczas wykonywania poprzednich zadań. Algorytmy metauczenia się zazwyczaj próbują osiągnąć te cele:

Ulepszać lub uczyć się funkcji ręcznie zaprojektowanych (takich jak inicjalizator czy optymalizator).
oszczędność danych i zasobów obliczeniowych;
poprawa uogólniania;

Metanauka jest powiązana z nauką typu few-shot.

mieszanka ekspertów

#language

#generativeAI

Schemat zwiększania wydajności sieci neuronowej przez wykorzystanie tylko podzbioru jej parametrów (zwanego ekspertem) do przetwarzania danego wejściowego tokena lub przykładu. Gating network kieruje każdy token wejściowy lub przykład do odpowiednich ekspertów.

Szczegółowe informacje znajdziesz w tych artykułach:

MMIT

#language

#image

#generativeAI

Skrót od multimodal instruction-tuned.

modalność

#language

Ogólna kategoria danych. Przykładowo liczby, tekst, obrazy, filmy i dźwięk to 5 różnych modalności.

model równoległości

#language

Sposób skalowania treningu lub wnioskowania, który polega na umieszczeniu różnych części jednego modelu na różnych urządzeniach. Modelowanie równoległe umożliwia tworzenie modeli, które są zbyt duże, aby zmieścić się na jednym urządzeniu.

Aby wdrożyć równoległość modelu, system zwykle wykonuje te czynności:

dzieli model na mniejsze części.
Rozprowadza szkolenie tych mniejszych części na wiele procesorów. Każdy procesor trenuje swój własny fragment modelu.
Łączy wyniki, aby utworzyć jeden model.

Równoległe wykonywanie działań przez model spowalnia trenowanie.

Zobacz też równoległość danych.

MOE

#language

#image

#generativeAI

Skrót od mixture of experts.

wieloczęściowa samouwaga

#language

Rozszerzenie samouczenia, które stosuje mechanizm samouczenia wielokrotnie w przypadku każdej pozycji w sekwencji wejściowej.

Transformery wprowadziły wielogłowe mechanizmy samouczenia.

multimodal instruction-tuned

#language

model dostosowany do instrukcji, który może przetwarzać dane wejściowe inne niż tekst, np. obrazy, filmy i dźwięk.

model multimodalny

#language

Model, którego dane wejściowe, dane wyjściowe lub oba te elementy obejmują więcej niż jedną modalność. Weźmy na przykład model, który jako cechy przyjmuje obraz i tekst (2 modalności) oraz zwraca wynik wskazujący, jak dobrze tekst pasuje do obrazu. Dane wejściowe tego modelu są multimodalne, a dane wyjściowe – unimodalne.

N

przetwarzanie języka naturalnego

#language

Nauka komputerów przetwarzania wypowiedzi lub wpisów użytkownika za pomocą reguł językowych. Prawie wszystkie współczesne systemy przetwarzania języka naturalnego opierają się na uczeniu maszynowym.

rozumienie języka naturalnego

#language

Podzbiór przetwarzania języka naturalnego, który określa zamiary wypowiedzi lub wpisów. Rozumienie języka naturalnego może wykraczać poza przetwarzanie języka naturalnego i uwzględniać złożone aspekty języka, takie jak kontekst, sarkazm i nastawienie.

N-gram

#seq

#language

Uporządkowana sekwencja N słów. Na przykład truly madly to 2-gram. Kolejność wyrazów ma znaczenie, więc madly truly to inny 2-gram niż truly madly.

N	Nazwa(y) tego typu N-gramu	Przykłady
2	bigram lub 2-gram	go, go to, eat lunch, eat dinner
3	trigram lub 3-gram	ate too much, happily ever after, the bell tolls
4	4-gram	walk in the park, dust in the wind, the boy ate lentils

Wiele modeli rozumiejących język naturalny korzysta z modeli N-gramów, aby przewidywać kolejne słowo, które użytkownik wpisze lub powie. Załóżmy na przykład, że użytkownik wpisał happily ever. Model NLU oparty na trigramach najprawdopodobniej przewidzi, że użytkownik wpisze następne słowo after.

Kontrastuj N-gramy z teczką słów, która jest nieuporządkowanym zbiorem słów.

Więcej informacji znajdziesz w sekcji Duże modele językowe w Szybkim szkoleniu z uczenia maszynowego.

NLP

#language

Skrót od przetwarzania języka naturalnego.

NLU

#language

Skrót od rozumienia języka naturalnego.

no one right answer (NORA)

#language

#generativeAI

prompt zawierający kilka odpowiednich odpowiedzi. Na przykład ten prompt nie ma jednej prawidłowej odpowiedzi:

Opowiedz mi kawał o słoniach.

Ocenianie promptów bez jednoznacznej odpowiedzi może być trudne.

NORA

#language

#generativeAI

Skrót od brak prawidłowej odpowiedzi.

O

prompty „one-shot”

#language

#generativeAI

prompt zawierający jeden przykład pokazujący, jak duży model językowy powinien odpowiadać. Na przykład poniższy prompt zawiera jeden przykład pokazujący dużemu modelowi językowemu, jak ma odpowiedzieć na zapytanie.

Części jednego promptu	Uwagi
`Jaka jest oficjalna waluta w wybranym kraju?`	Pytanie, na które ma odpowiedzieć model LLM.
`Francja: EUR`	Przykład:
`Indie:`	Faktyczne zapytanie.

Porównaj promptowanie jednorazowe z tymi terminami:

prompty „zero-shot”
prompty „few-shot”

P

dostrajanie z optymalnym wykorzystaniem parametrów

#language

#generativeAI

Zestaw technik dostrajania dużego wstępnie wytrenowanego modelu językowego (PLM) w bardziej efektywny sposób niż pełne dostrajanie. Dostrajanie konkretnych parametrów zwykle dotyczy znacznie mniejszej liczby parametrów niż pełne dostrajanie, ale ogólnie tworzy duży model językowy, który działa tak samo dobrze (lub prawie tak samo dobrze) jak duży model językowy utworzony na podstawie pełnego dostrajania.

Porównaj dostrajanie z uwzględnieniem wydajności parametrów z:

Dostrajanie z uwzględnieniem wydajności parametrów to także dostrajanie z uwzględnieniem wydajności parametrów.

przetwarzanie w potoku

#language

Forma paralelizowania modelu, w której przetwarzanie modelu jest dzielone na kolejne etapy, a każdy z nich jest wykonywany na innym urządzeniu. Podczas przetwarzania jednej partii przez jeden etap poprzedni etap może pracować nad kolejną partią.

Zobacz też szkolenie w etapach.

PLM

#language

#generativeAI

Skrót od wytrenowanego modelu językowego.

kodowanie pozycyjne

#language

Technika polegająca na dodawaniu informacji o pozycji tokena w sekwencji do jego ujęcia. Modele typu transformer korzystają z kodowania pozycyjnego, aby lepiej zrozumieć zależność między różnymi częściami sekwencji.

Typowa implementacja kodowania pozycyjnego używa funkcji sinusoidalnej. (W szczególności częstotliwość i amplituda funkcji sinusoidalnej są określane przez pozycję tokena w sekwencji). Ta technika umożliwia modelowi Transformer uczenie się zwracania uwagi na różne części sekwencji na podstawie ich pozycji.

model po trenowaniu

#language

#image

#generativeAI

Luźno zdefiniowany termin, który zwykle odnosi się do wytrenowanego wstępnie modelu, który przeszedł pewien proces przetwarzania w treningu, np. jeden lub więcej z tych elementów:

dokładność k (precision@k)

#language

#Dane

Dane służące do oceny uszeregowanej (posortowanej) listy elementów. Dokładność na poziomie k określa ułamek pierwszych k elementów na liście, które są „odpowiednie”. Czyli:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Wartość k musi być mniejsza lub równa długości zwracanej listy. Pamiętaj, że długość zwróconej listy nie jest uwzględniana w obliczeniach.

Odpowiednie treści są często subiektywną kwestią. Nawet eksperci oceniacze często nie zgadzają się co do tego, które treści są odpowiednie.

Porównaj z:

średnia precyzja na poziomie k
średnia średnia precyzja przy k

Kliknij ikonę, aby zobaczyć przykład.

Załóżmy, że duży model językowy otrzymał to zapytanie:

List the 6 funniest movies of all time in order.

Duży model językowy zwraca listę widoczną w 2 pierwszych kolumnach tej tabeli:

Pozycja	Film	Trafne?
1	Ogólne	Tak
2	Mean Girls	Tak
3	Platoon	Nie
4	druhny,	Tak
5	Obywatel Kane	Nie
6	To jest Spinal Tap	Tak

Dwa z pierwszych trzech filmów są odpowiednie, więc dokładność na poziomie 3 to:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

4 z 5 pierwszych filmów są bardzo zabawne, więc precyzja w przypadku 5 jest następująca:

$$\text{precision at 5} = \frac{\text{4}} {\text{5}} = 0.8$$

wytrenowany model

#language

#image

#generativeAI

Zwykle jest to model, który został już wytrenowany. Termin ten może też oznaczać wcześniej wytrenowany wektor zanurzeniowy.

Termin wstępnie wytrenowany model językowy zwykle odnosi się do już wytrenowanego dużego modelu językowego.

przed treningiem

#language

#image

#generativeAI

Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane wstępnie modele są niezgrabnymi olbrzymami i zwykle trzeba je dopracować, przeprowadzając dodatkowe szkolenie. Na przykład eksperci od uczenia maszynowego mogą wstępnie wytrenować duży model językowy na podstawie ogromnego zbioru danych tekstowych, takiego jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu model może zostać dopracowany za pomocą jednej z tych technik:

distillation
dokładne dopasowanie,
dostrajanie instrukcji
dostrajanie z optymalnym wykorzystaniem parametrów
prompt-tuning

prompt

#language

#generativeAI

dowolny tekst wprowadzony jako dane wejściowe do dużego modelu językowego, aby model zachowywał się w określony sposób; Prompty mogą być krótkie (wyrażenie) lub dowolnie długie (np. cały tekst powieści). Prompty dzielą się na kilka kategorii, m.in. te wymienione w tabeli poniżej:

Kategoria promptu	Przykład	Uwagi
Pytanie	`Jak szybko potrafi latać gołąb?`
Instrukcja	`Napisz zabawny wiersz o arbitrażu.`	Prompt, który prosi duży model językowy o coś zrobienie.
Przykład	`Przekształcaj kod Markdown w kod HTML. Na przykład: Markdown: * element listy HTML: <ul> <li>element listy</li> </ul>`	Pierwsze zdanie w tym przykładowym promptu to instrukcja. Pozostała część promptu to przykład.
Rola	`Wyjaśnij, dlaczego w przypadku osób z doktoratem z fizyki stosuje się w uczeniu maszynowym metodę gradientu prostego.`	Pierwsza część zdania to instrukcja, a wyrażenie „doktorat z fizyki” to część dotycząca roli.
Częściowe dane wejściowe dla modelu	`Premier Wielkiej Brytanii mieszka pod adresem`	Prompt dotyczący częściowego wprowadzania danych może kończyć się nagle (jak w tym przykładzie) lub podkreśleniem.

Model generatywnej AI może odpowiadać na prompt tekstem, kodem, obrazami, embeddingami, filmami... prawie wszystkim.

nauka oparta na promptach,

#language

#generativeAI

Umiejętność niektórych modeli, która umożliwia im dostosowanie ich zachowania w odpowiedzi na dowolny tekst wejściowy (prompty). W ramach typowej paradygmatu uczenia się na podstawie promptów duży model językowy odpowiada na prompt, generując tekst. Załóżmy na przykład, że użytkownik wpisuje ten prompt:

Opisz trzecią zasadę dynamiki Newtona.

Model zdolny do uczenia się na podstawie promptów nie jest specjalnie trenowany do odpowiadania na poprzedni prompt. Model „zna” wiele faktów z fizyki, wiele o ogólnych regułach językowych i wiele o tym, co stanowi ogólnie przydatne odpowiedzi. Ta wiedza wystarczy, aby udzielić (miejmy nadzieję) przydatnej odpowiedzi. Dodatkowe opinie użytkowników (np. „Ta odpowiedź była zbyt skomplikowana” lub „Jaka jest Twoja reakcja?”) umożliwiają niektórym systemom uczącym się na podstawie promptów stopniowe polepszanie przydatności odpowiedzi.

projektowanie promptów

#language

#generativeAI

Synonim tworzenia promptów.

tworzenie promptów

#language

#generativeAI

Sztuka tworzenia promptów, które wywołują pożądane odpowiedzi dużych modeli językowych. prompty są tworzone przez ludzi. Pisanie dobrze ustrukturyzowanych promptów jest kluczowym elementem zapewnienia przydatnych odpowiedzi dużego modelu językowego. Projektowanie promptów zależy od wielu czynników, w tym:

Zbiór danych użyty do wstępnego trenowania i ewentualnego dostrajania dużego modelu językowego.
temperaturę i inne parametry dekodowania, których model używa do generowania odpowiedzi.

Projektowanie promptów to synonim tworzenia promptów.

Więcej informacji o tworzeniu przydatnych promptów znajdziesz w artykule Wprowadzenie do projektowania promptów.

dostrajanie promptów

#language

#generativeAI

Mechanizm skutecznego doboru parametrów, który uczy się „prefiksu”, który system dołącza do rzeczywistego promptu.

Jedną z wariacji dostrajania promptu – czasami nazywanego dostrajaniem prefiksu – jest dodawanie prefiksu do każdej warstwy. Większość ustawień prompta dodaje tylko prefiks do warstwy wejściowej.

Kliknij ikonę, aby dowiedzieć się więcej o prefiksach.

W przypadku dostrajania promptu „prefiks” (zwany też „miękkim promptem”) to garść wyuczonych wektorów związanych z zadaniem, które są dodawane do zaszytych w tekstach embeddingów tokenów z samych promptów. System uczy się promptu miękkiego, zamrażając wszystkie inne parametry modelu i dostrajając go pod konkretne zadanie.

R

skuteczność przy k (recall@k)

#language

#Dane

Dane służące do oceny systemów, które zwracają uporządkowaną listę elementów. Odsetek k wskazuje ułamek odpowiednich elementów w pierwszych k elementach na liście spośród łącznej liczby zwróconych odpowiednich elementów.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Porównaj z dokładnością w k.

Kliknij ikonę, aby zobaczyć przykład.

Załóżmy, że duży model językowy otrzymuje to zapytanie:

List the 10 funniest movies of all time in order.

Duży model językowy zwraca listę widoczną w pierwszych dwóch kolumnach:

Pozycja	Film	Trafne?
1	Ogólne	Tak
2	Mean Girls	Tak
3	Platoon	Nie
4	druhny,	Tak
5	To jest Spinal Tap	Tak
6	Samolot!	Tak
7	Dzień świstaka	Tak
8	Monty Python i Święty Graal	Tak
9	Oppenheimer	Nie
10	Clueless	Tak

Osiem filmów z poprzedniej listy jest bardzo zabawnych, więc są to „odpowiednie pozycje na liście”. Dlatego 8 będzie mianownikiem we wszystkich obliczeniach przywołania w k. A licznik? Tylko 3 z pierwszych 4 elementów są istotne, więc odsetek wynosi:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 z pierwszych 8 filmów jest bardzo zabawnych, więc przypomnienie 8 to:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

tekst referencyjny

#language

#generativeAI

odpowiedź eksperta na prompt. Na przykład:

Przetłumacz pytanie „Jak masz na imię?” z angielskiego na francuski.

Odpowiedź eksperta może wyglądać tak:

Comment vous appelez-vous ?

Różne wskaźniki (np. ROUGE) mierzą stopień, w jaki tekst referencyjny pasuje do tekstu wygenerowanego przez model AI.

prompty dotyczące ról

#language

#generativeAI

Opcjonalna część prompta, która identyfikuje odbiorców docelowych odpowiedzi modelu generatywnej AI. Bez promptu duży model językowy podaje odpowiedź, która może być przydatna dla osoby zadającej pytanie, a może nie. Za pomocą prompta o roli duży model językowy może udzielać odpowiedzi w sposób bardziej odpowiedni i przydatny dla konkretnej grupy odbiorców. Na przykład w tych promptach pogrubiliśmy fragmenty dotyczące ról:

Streść ten dokument dla osoby z doktoratem z ekonomii.
Opisz, jak działają pływy dziecku w wieku 10 lat.
Wyjaśnij kryzys finansowy z 2008 r. Mów tak, jak do małego dziecka lub złotego retrievera.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

#Dane

Rodzina wskaźników, które oceniają automatyczne streszczenia i modele tłumaczenia maszynowego. Dane ROUGE określają, w jakim stopniu tekst referencyjny pokrywa się z tekstem wygenerowanym przez model ML. Każdy z elementów rodziny ROUGE różni się od siebie sposobem nakładanie się pomiarów. Wyższe wyniki ROUGE wskazują na większe podobieństwo tekstu referencyjnego do wygenerowanego niż niższe wyniki ROUGE.

Każdy element z rodziny ROUGE zwykle generuje te dane:

Precyzja
Czułość
F₁

Szczegółowe informacje i przykłady znajdziesz w tych artykułach:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#language

#Dane

Jest to element rodziny ROUGE, który skupia się na długości najdłuższego wspólnego podciągu w tekście referencyjnym i tekście wygenerowanym. Te formuły obliczają czułość i precyzję w przypadku ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Następnie możesz użyć F₁, aby zsumować czułość ROUGE-L i dokładność ROUGE-L w jednym wskaźniku:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Kliknij ikonę, aby zobaczyć przykładowe obliczenie ROUGE-L.

Zapoznaj się z tym tekstem referencyjnym i wygenerowanym tekstem.

Kategoria	Kto wyprodukował?	Tekst
Tekst referencyjny	Tłumacz	Chcę poznać wiele różnych rzeczy.
Wygenerowany tekst	model ML,	Chcę się wiele nauczyć.

Dlatego:

Najdłuższa wspólna podciąg znaków ma długość 5 (I want to of things).
Liczba słów w tekście referencyjnym wynosi 9.
Liczba słów w wygenerowanym tekście to 7.

W związku z tym:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L ignoruje wszystkie znaki nowej linii w tekście referencyjnym i wygenerowanym, więc najdłuższa wspólna podciągłość może obejmować kilka zdań. Gdy tekst referencyjny i wygenerowany tekst zawierają kilka zdań, lepszym wskaźnikiem jest zazwyczaj wariant ROUGE-L o nazwie ROUGE-Lsum. ROUGE-Lsum określa najdłuższy wspólny podciąg w każdej frazie w fragmentach tekstu, a następnie oblicza średnią z tych najdłuższych wspólnych podciągów.

Kliknij ikonę, aby zobaczyć przykładowe obliczenie sumy ROUGE-L.

Zapoznaj się z tym tekstem referencyjnym i wygenerowanym tekstem.

Kategoria	Kto wyprodukował?	Tekst
Tekst referencyjny	Tłumacz	Powierzchnia Marsa jest sucha. Prawie cała woda znajduje się głęboko pod ziemią.
Wygenerowany tekst	model ML,	Powierzchnia Marsa jest sucha. Jednak większość wody znajduje się pod ziemią.

Dlatego:

	Pierwsze zdanie	Drugie zdanie
Najdłuższa wspólna sekwencja	2 (Mars dry)	3 (woda jest pod ziemią)
Długość zdania w tekście referencyjnym	6	7
Długość zdania wygenerowanego tekstu	5	8

W związku z tym:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#language

#Dane

Zestaw wskaźników z rodziny ROUGE, który porównuje wspólne N-gramy o określonym rozmiarze w tekście referencyjnym i tekście wygenerowanym. Na przykład:

ROUGE-1 mierzy liczbę wspólnych tokenów w tekście referencyjnym i wygenerowanym.
ROUGE-2 mierzy liczbę wspólnych bigramów (2-gramów) w tekście referencyjnym i wygenerowanym.
ROUGE-3 mierzy liczbę wspólnych trójgramów (3-gramów) w tekście referencyjnym i wygenerowanym tekście.

Aby obliczyć ROUGE-N i ROUGE-N dla dowolnego elementu z rodziny ROUGE-N, użyj tych wzorów:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Następnie możesz użyć F₁, aby zsumować czułość ROUGE-N i precyzję ROUGE-N w jednym wskaźniku:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Kliknij ikonę, aby zobaczyć przykład.

Załóżmy, że decydujesz się użyć ROUGE-2 do pomiaru skuteczności tłumaczenia wygenerowanego przez model ML w porównaniu z tłumaczeniem wykonanym przez człowieka.

Kategoria	Kto wyprodukował?	Tekst	Bigramy
Tekst referencyjny	Tłumacz	Chcę poznać wiele różnych rzeczy.	I want, want to, to understand, understand a, a wide, wide variety, variety of, of things
Wygenerowany tekst	model ML,	Chcę się wiele nauczyć.	I want, want to, to learn, learn plenty, plenty of, of things

Dlatego:

Liczba pasujących dwugramów wynosi 3 (I want, want to i of things).
Liczba 2-gramów w tekście referencyjnym wynosi 8.
Liczba dwugramów w wygenerowanym tekście wynosi 6.

W związku z tym:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#language

#Dane

To łagodna forma ROUGE-N, która umożliwia dopasowanie skip-gram. Oznacza to, że ROUGE-N zlicza tylko n-gramy, które dokładnie pasują, ale ROUGE-S zlicza też n-gramy rozdzielone co najmniej 1 słowem. Na przykład:

Tekst referencyjny: Białe chmury
Wygenerowany tekst: Białe chmury z rozwianymi brzegami

Podczas obliczania ROUGE-N 2-gram White clouds nie pasuje do White billowing clouds. Jednak podczas obliczania ROUGE-S White clouds pasuje do White billowing clouds.

S

samouwaga (nazywana też warstwą samouwagi)

#language

Warstw sieci neuronowej, która przekształca sekwencję wektorów zanurzeniowych (np. wektorów zanurzeniowych tokenów) w inną sekwencję wektorów zanurzeniowych. Każde zakodowanie w sekwencji wyjściowej jest tworzone przez integrację informacji z elementów sekwencji wejściowej za pomocą mechanizmu uwagi.

Element self w self-attention odnosi się do sekwencji, która zwraca uwagę na siebie, a nie na inny kontekst. Samouwaga jest jednym z głównych elementów składowych transformacji i korzysta z terminologii wyszukiwania w słowniku, takiej jak „zapytanie”, „klucz” i „wartość”.

Warstwę samouczenia rozpoczyna sekwencja wejść, po jednym dla każdego słowa. Dane wejściowe dla słowa mogą stanowić proste zakodowanie. W przypadku każdego słowa w sekwencji wejściowej sieć ocenia trafność słowa w odniesieniu do wszystkich elementów w całej sekwencji słów. Wyniki trafności określają, w jakim stopniu ostateczne przedstawienie słowa uwzględnia przedstawienia innych słów.

Weź pod uwagę na przykład takie zdanie:

Zwierzę nie mogło przejść przez ulicę, ponieważ było zbyt zmęczone.

Ilustracja poniżej (z artykułu Transformer: nowatorska architektura sieci neuronowych na potrzeby rozumienia języka) przedstawia wzór uwagi warstwy samouczenia w przypadku zaimka to. Im ciemniejszy jest dany wiersz, tym większy wkład ma on w reprezentację:

Zdanie to pojawia się dwukrotnie: Zwierzę nie mogło przejść przez ulicę, ponieważ było zbyt zmęczone. Linie łączą zaimka „it” w jednym zdaniu z 5 tokenami (The, animal, street, it, and
the period) w drugim zdaniu. Granica między zaimkiem it a słowem animal jest wyraźna.

Warstwę samouczenia wyróżnia słowa, które są istotne dla „it”. W tym przypadku warstwa uwagi nauczyła się wyróżniać słowa, które może odnosić się do on, przypisując najwyższą wagę słowu zwierzę.

W przypadku sekwencji n tokenów transformacja samouczenia działa n razy, po jednym razie na każdą pozycję w sekwencji.

Zapoznaj się też z artykułami na temat uczenia z użyciem mechanizmu uwagi i uczenia z użyciem mechanizmu samouwagi wielogłowego.

analiza nastawienia

#language

Korzystanie z algorytmów statystycznych lub systemów uczących się do określania ogólnego nastawienia grupy (pozytywnego lub negatywnego) wobec usługi, produktu, organizacji lub tematu. Na przykład za pomocą rozumienia języka naturalnego algorytm mógłby przeprowadzić analizę nastawienia na podstawie tekstowych opinii z kursu uniwersyteckiego, aby określić, na ile ogólnie uczniom podobał się ten kurs.

Więcej informacji znajdziesz w przewodniku Klasyfikacja tekstu.

zadanie sekwencja-sekwencja

#language

Zadanie, które konwertuje sekwencję wejściową tokenów na wyjściową sekwencję tokenów. Na przykład 2 popularne rodzaje zadań sekwencyjnych to:

Tłumacze:
- Przykładowa sekwencja wejściowa: „Kocham Cię”.
- Przykładowa sekwencja danych wyjściowych: „Je t'aime”.
Odpowiadanie na pytania:
- Przykładowa sekwencja danych wejściowych: „Czy potrzebuję samochodu w Nowym Jorku?”
- Przykładowa sekwencja danych wyjściowych: „Nie. Pozostaw samochód w domu”.

skip-gram

#language

n-gram, który może pomijać (czyli „przeskakiwać”) słowa z pierwotnego kontekstu, co oznacza, że słowa N niekoniecznie muszą być pierwotnie sąsiadujące. Dokładniej rzecz biorąc, „k-skok-n-gram” to n-gram, w którym może zostać pominięty maksymalnie k słów.

Na przykład wyrażenie „szybka brązowa lisica” zawiera te możliwe 2-gramy:

„the quick”
„quick brown”
„brown fox”

„1-skip-2-gram” to para słów, między którymi jest maksymalnie 1 słowo. Dlatego wyrażenie „szybka brązowa lisica” ma następujące 2-gramy z 1 przeskokiem:

„brązowy”
„quick fox”

Dodatkowo wszystkie dwugramy są również jednowyrazowymi dwugramami, ponieważ nie można pominąć mniej niż jednego słowa.

Skip-gramy są przydatne do zrozumienia szerszego kontekstu danego słowa. W tym przykładzie słowo „fox” było bezpośrednio powiązane ze słowem „quick” w zbiorze 1-skip-2-gramów, ale nie w zbiorze 2-gramów.

Modele skip-gram pomagają trenować modele word embedding.

dostosowanie promptów,

#language

#generativeAI

Technika dostosowywania dużego modelu językowego do konkretnego zadania bez korzystania z wielu zasobów w ramach dokładnego dostrajania. Zamiast ponownego trenowania wszystkich wag w modelu, dostrajanie za pomocą promptów miękkich automatycznie dostosowuje prompt, aby osiągnąć ten sam cel.

W przypadku promptu tekstowego dostosowanie promptu miękkiego zwykle dodaje do promptu dodatkowe kodowania tokenów i korzysta z wstecznego propagowania, aby zoptymalizować dane wejściowe.

„Twardy” prompt zawiera tokeny zamiast ich zasobów danych.

rozproszona cecha

#language

#fundamentals

Cecha, której wartości są w większości równe 0 lub puste. Na przykład cecha zawierająca jedną wartość 1 i milion wartości 0 jest rzadka. Natomiast gęsta cecha ma wartości, które w większości nie są równe 0 ani puste.

W uczeniu maszynowym zaskakująco wiele cech jest cech rzadkich. Funkcje kategorialne są zwykle funkcjami rzadkimi. Na przykład z 300 możliwych gatunków drzew w lesie pojedynczy przykład może zidentyfikować tylko klon. Z milionów możliwych filmów w bibliotece filmów jeden może być oznaczony jako „Casablanca”.

W modelu rzadkie cechy są zwykle reprezentowane za pomocą kodowania 1-hot. Jeśli kodowanie jednobitowe jest duże, możesz umieścić na nim warstwę zanurzeniową, aby zwiększyć wydajność.

rzadka reprezentacja

#language

#fundamentals

przechowywanie tylko pozycji elementów o wartości niezerowej w funkcji rzadkiej;

Załóżmy na przykład, że cecha jakościowa o nazwie species określa 36 gatunków drzew w danym lesie. Załóżmy też, że każdy przykład identyfikuje tylko jeden gatunek.

W każdym przykładzie gatunek drzewa możesz reprezentować za pomocą wektora typu one-hot. Wektor jednoelementowy zawierałby 1 element 1 (reprezentujący dany gatunek drzewa w tym przykładzie) i 35 elementów 0 (reprezentujących 35 gatunków drzew nie w tym przykładzie). Reprezentacja jednoelementowa maple może wyglądać tak:

Wektor, w którym pozycje 0–23 mają wartość 0, pozycja 24 ma wartość 1, a pozycje 25–35 mają wartość 0.

Inną możliwością jest skąpa reprezentacja, która po prostu wskazuje pozycję danego gatunku. Jeśli maple znajduje się w pozycji 24, rzadka reprezentacja maple będzie wyglądać tak:

Zwróć uwagę, że rzadka reprezentacja jest znacznie bardziej zwarta niż reprezentacja jednobitowa.

Kliknij ikonę, aby wyświetlić nieco bardziej złożony przykład.

Załóżmy, że każdy przykład w modelu musi reprezentować słowa w zestawie (ale nie ich kolejność) w zdarzeniu w języku angielskim. Język angielski składa się z około 170 tys. słów, więc jest to cecha kategorialna z około 170 tys. elementów. Większość zdań w języku angielskim używa bardzo małej części tych 170 tys. słów, więc zbiór słów w pojedynczym przykładzie z pewnością będzie rzadki.

Rozważ zdanie:

My dog is a great dog

Do reprezentowania słów w tym zdaniu możesz użyć wariantu wektora one-hot. W tym wariancie wiele komórek wektora może zawierać wartość różną od 0. Ponadto w tym wariancie komórka może zawierać liczbę całkowitą inną niż 1. Chociaż słowa „mój”, „jest”, „a” i „świetny” występują tylko raz w tym zdaniu, słowo „pies” występuje 2 razy. Użycie tej wersji wektorów typu one-hot do reprezentowania słów w tym zdaniu daje wektor o 170 tys. elementach:

Rozrzedzielcza reprezentacja tego samego zdania wyglądałaby tak:

Jeśli nie masz pewności, kliknij ikonę.

Termin „rzadka reprezentacja” wprowadza wiele osób w błąd, ponieważ sama rzadka reprezentacja nie jest rzadkim wektorem. Rozrzeźbiona reprezentacja jest w istocie gęstą reprezentacją rozrzeźbionego wektora. Synonim reprezentacja indeksu jest nieco bardziej zrozumiały niż „reprezentacja rzadka”.

Więcej informacji znajdziesz w sekcji Praca z danymi kategorialnymi w Kursie intensywnym z systemów uczących się.

stopniowe szkolenie

#language

Strategia trenowania modelu w kolejności oddzielnych etapów. Celem może być przyspieszenie procesu uczenia się lub poprawa jakości modelu.

Poniżej przedstawiamy ilustrację progresywnego układania:

Etap 1 zawiera 3 ukryte warstwy, etap 2 – 6 ukrytych warstw, a etap 3 – 12 ukrytych warstw.
Etap 2 rozpoczyna się od uczenia się wag na podstawie 3 ukrytych warstw z etapu 1. Etap 3 rozpoczyna się od uczenia się wag wyuczonych na 6 ukrytych warstwach w etapie 2.

3 etapy: etap 1, etap 2 i etap 3.
Każdy etap zawiera inną liczbę warstw: etap 1 zawiera 3 warstwy, etap 2 zawiera 6 warstw, a etap 3 zawiera 12 warstw.
3 warstwy z etapu 1 stają się pierwszymi 3 warstwami etapu 2.
Podobnie 6 warstw z etapu 2 staje się 6 pierwszymi warstwami etapu 3.

Zobacz też przetwarzanie w sekwencji.

token podsłowa

#language

W modelach językowych token to podciąg słów, który może być całym słowem.

Na przykład słowo „wyszczególnić” może zostać podzielone na części „wyszczególnić” (wyraz podstawowy) i „-ować” (przyrostek), z których każdy jest reprezentowany przez własny token. Dzielenie nietypowych słów na takie elementy, zwane podsłowami, pozwala modelom językowym działać na bardziej typowych częściach składowych słowa, takim jak przedrosty i przyrostki.

Z drugiej strony, częste słowa, takie jak „going”, mogą nie być dzielone i reprezentowane przez pojedynczy element.

T

T5

#language

Model uczenia się przez przenoszenie tekst-tekst wprowadzony przez Google AI w 2020 roku. T5 to model enkodera-dekodera oparty na architekturze Transformer, wytrenowany na bardzo dużym zbiorze danych. Jest on skuteczny w rozwiązywaniu różnych zadań związanych z przetwarzaniem języka naturalnego, takich jak generowanie tekstu, tłumaczenie języków i odpowiadanie na pytania w sposób konwersacyjny.

Nazwa T5 pochodzi od 5 liter w nazwie „Text-to-Text Transfer Transformer”.

T5X

#language

Platforma open source do uczenia maszynowego, która służy do tworzenia i trenownia modeli przetwarzania języka naturalnego (NLP) na dużą skalę. T5 jest implementowany w bazie kodu T5X (która jest zbudowana na podstawie JAX i Flax).

temperatura

#language

#image

#generativeAI

Hiperparametr, który kontroluje stopień losowości danych wyjściowych modelu. Wyższe temperatury powodują bardziej losowe wyniki, a niższe – mniej losowe.

Wybór najlepszej temperatury zależy od konkretnego zastosowania i preferowanych właściwości wyników modelu. Na przykład prawdopodobnie podniesiesz temperaturę, gdy tworzysz aplikację, która generuje kreacje. Z kolei, aby zwiększyć dokładność i spójność modelu, który klasyfikuje obrazy lub tekst, prawdopodobnie obniżysz temperaturę.

Temperatura jest często używana z softmaxem.

tekst w ramce

#language

Zakres indeksu tablicy powiązany z określonym podzbiorem ciągu tekstowego. Na przykład słowo good w ciągu tekstowym Pythona s="Be good now" zajmuje zakres znaków od 3 do 6.

token

#language

W modelu językowym jest to element atomowy, na podstawie którego model się uczy i wydaje prognozy. Token to zwykle jeden z tych elementów:

słowa – na przykład wyrażenie „psy lubią koty” składa się z 3 tokenów słownych: „psy”, „lubią” i „koty”.
znaku – na przykład wyrażenie „bike fish” składa się z 9 znaków. (pamiętaj, że spacje są liczone jako jeden token).
podsłowach – w których pojedyncze słowo może być pojedynczym tokenem lub wieloma tokenami. Podsłowo składa się z rdzenia, prefiksu lub sufiksu. Na przykład model językowy, który używa podsłow jako tokenów, może traktować słowo „psy” jako 2 tokeny (podstawowe słowo „pies” i przyrostek liczby mnogiej „y”). Ten sam model językowy może traktować pojedyncze słowo „wyższy” jako 2 podsłowa (podstawowe słowo „wysoki” i przyrostek „szy”).

W domenach innych niż modele językowe tokeny mogą reprezentować inne rodzaje jednostek atomowych. Na przykład w przypadku widzenia komputerowego tokenem może być podzbiór obrazu.

Więcej informacji znajdziesz w sekcji Duże modele językowe w Szybkim szkoleniu z uczenia maszynowego.

dokładność top-k

#language

#Dane

Odsetek wystąpień „oznacznika docelowego” na pierwszych kpozycjach wygenerowanych list. Mogą to być spersonalizowane rekomendacje lub lista elementów uporządkowana według softmaxa.

Dokładność top-k jest też nazywana dokładnością w k-tym przypadku.

Kliknij ikonę, aby zobaczyć przykład.

Rozważ system uczenia maszynowego, który używa softmaxa do identyfikowania prawdopodobieństw drzew na podstawie zdjęcia ich liści. Poniższa tabela zawiera listy danych wyjściowych wygenerowane na podstawie 5 zdjęć drzewa. Każdy wiersz zawiera etykietę docelową i 5 najbardziej prawdopodobnych drzew. Na przykład, gdy etykietą docelową było maple, model uczenia maszynowego zidentyfikował elm jako najbardziej prawdopodobne drzewo, dąb jako drugie najbardziej prawdopodobne drzewo itd.

Etykieta docelowa	1	2	3	4	5
klon	elm	dąb	maple	buk	topola
dereń	dąb	dogwood	topola	Hickory	klon
dąb	oak	Basswood	szarańcza	olcha	Linden
Linden	klon	paw-paw	dąb	Basswood	topola
dąb	szarańcza	Linden	oak	klon	paw-paw

Etykieta docelowa pojawia się na pierwszym miejscu tylko raz, więc dokładność top-1 to:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

Etykieta docelowa pojawia się 4 razy na jednej z 3 najlepszych pozycji, więc dokładność w przypadku 3 najlepszych pozycji wynosi:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

toksyczne

#language

#Dane

stopień, w jakim treści są obraźliwe, zawierają groźby lub są nękające; Wiele modeli systemów uczących się może wykrywać i mierzyć toksyczność. Większość z nich identyfikuje toksyczność na podstawie wielu parametrów, takich jak poziom obraźliwego języka i poziom języka groźnego.

Transformator

#language

Architektura sieci neuronowej opracowana w Google, która wykorzystuje mechanizmy samouczenia do przekształcania sekwencji wejść w sekwencję wyjść bez korzystania z konwolucji ani powtarzających się sieci neuronowych. Sieć Transformer można traktować jako zestaw warstw samouczenia.

Transformator może zawierać:

koder
dekoder
zarówno koder, jak i dekoder.

Koderek przekształca sekwencję zaszyfrowanych danych w nową sekwencję o tej samej długości. Koder zawiera N identycznych warstw, z których każda zawiera 2 podwarstwy. Te 2 podwarstwy są stosowane w każdej pozycji sekwencji embeddingu wejściowego, przekształcając każdy element sekwencji w nowy embedding. Pierwszy podwarstwowy koder agreguje informacje z całości sekwencji wejściowej. Druga warstwa podrzędna kodera przekształca zagregowane informacje w embedding wyjściowy.

Dekodery przekształcają sekwencję wejść w sekwencję wyjść, która może mieć inną długość. Dekoder zawiera też N identycznych warstw z 3 podwarstwami, z których 2 są podobne do podwarstw kodera. Trzeci podwarstw decodera pobiera dane wyjściowe z enkodera i za pomocą mechanizmu samouczenia zbiera z nich informacje.

W poście na blogu Transformer: nowatorska architektura sieci neuronowych na potrzeby rozumienia języka znajdziesz dobre wprowadzenie do transformacji.

Więcej informacji znajdziesz w części LLMs: What's a large language model? (Duże modele językowe: czym są duże modele językowe?) w sekcji Szybkie szkolenie z systemów uczących się.

trygram

#seq

#language

N-gram, w którym N=3.

U

jednokierunkowy

#language

System, który ocenia tylko tekst poprzedzający docelowy fragment tekstu. System dwukierunkowy analizuje zarówno tekst poprzedzający, jak i następujący wybrany fragment tekstu. Więcej informacji znajdziesz w sekcji dwukierunkowy.

jednokierunkowy model językowy

#language

Model językowy, który opiera swoje prawdopodobieństwa tylko na tokenach pojawiających się przed, a nie po tokenach docelowych. W przeciwieństwie do dwukierunkowej modelu językowego.

V

autoenkoder wariancyjny (VAE)

#language

Rodzaj autoenkodera, który wykorzystuje rozbieżność między danymi wejściowymi a danymi wyjściowymi do generowania zmodyfikowanych wersji danych wejściowych. Autokodeki wariancyjne są przydatne w przypadku generatywnej AI.

VAE opiera się na wnioskowaniu wariancjalnym, czyli metodzie szacowania parametrów modelu prawdopodobieństwa.

W

wektor dystrybucyjny słowa

#language

Reprezentowanie każdego słowa w zbiorze słów za pomocą wektora zanurzeniowego, czyli reprezentowanie każdego słowa za pomocą wektora wartości zmiennoprzecinkowych z zakresu od 0,0 do 1,0. Słowa o podobnym znaczeniu mają bardziej podobne reprezentacje niż słowa o różnym znaczeniu. Na przykład marchew, seler i ogórek miałyby podobne reprezentacje, które różniłyby się od reprezentacji samolotu, okularów i pasty do zębów.

Z

prompty „zero-shot”

#language

#generativeAI

prompt, który nie podaje przykładu tego, jak chcesz, aby duży model językowy odpowiadał. Na przykład:

Części jednego promptu	Uwagi
`Jaka jest oficjalna waluta w wybranym kraju?`	Pytanie, na które ma odpowiedzieć model LLM.
`Indie:`	Faktyczne zapytanie.

Duży model językowy może odpowiedzieć:

Rupia
INR
₹
Rupia indyjska
Rupia
rupia indyjska,

Wszystkie odpowiedzi są prawidłowe, ale możesz preferować określony format.

Porównaj promptowanie bez przykładów z tymi pojęciami:

prompty „one-shot”
prompty „few-shot”