Ta strona została przetłumaczona przez Cloud Translation API.

Glosariusz terminów związanych z uczenie maszynowe: dane

Ta strona zawiera terminy z glosariusza danych. Aby wyświetlić wszystkie terminy z glosariusza, kliknij tutaj.

A

dokładność

#fundamentals

#Dane

Liczba prawidłowych prognoz klasyfikacji podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który dokonał 40 prawidłowych i 10 nieprawidłowych prognoz, ma dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja binarna podaje konkretne nazwy różnych kategorii prawidłowych prognoz i nieprawidłowych prognoz. Wzór na dokładność w przypadku klasyfikacji binarnej jest taki:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

TP to liczba wyników prawdziwie pozytywnych (poprawnych prognoz).
TN to liczba wyników prawdziwie negatywnych (prawidłowych prognoz).
FP to liczba fałszywie pozytywnych wyników (nieprawidłowych prognoz).
FN to liczba wyników fałszywie negatywnych (nieprawidłowych prognoz).

Porównaj dokładność z precyzją i czułością.

Kliknij ikonę, aby dowiedzieć się więcej o dokładności i zbiorach danych z niezrównoważonymi klasami.

Dokładność jest przydatnym wskaźnikiem w niektórych sytuacjach, ale w innych może być bardzo myląca. Dokładność jest zwykle słabą miarą oceny modeli klasyfikacji, które przetwarzają zbiory danych z nierównomiernym rozkładem klas.

Załóżmy na przykład, że w pewnym subtropikalnym mieście śnieg pada tylko 25 dni w ciągu stulecia. Liczba dni bez śniegu (klasa negatywna) znacznie przewyższa liczbę dni ze śniegiem (klasa pozytywna), więc zbiór danych o śniegu dla tego miasta jest niezrównoważony pod względem klas. Wyobraź sobie model klasyfikacji binarnej, który ma prognozować, czy danego dnia będzie padać śnieg, czy nie, ale codziennie prognozuje „nie”. Ten model jest bardzo dokładny, ale nie ma możliwości prognozowania. W tabeli poniżej znajdziesz podsumowanie wyników prognoz na przestrzeni wieku:

Kategoria	Liczba
PP	0
TN	36499
FP	0
FN	25

Dokładność tego modelu wynosi zatem:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Chociaż dokładność na poziomie 99,93% wydaje się bardzo imponująca, model w rzeczywistości nie ma mocy predykcyjnej.

Precyzja i czułość są zwykle bardziej przydatnymi wskaźnikami niż dokładność do oceny modeli wytrenowanych na zbiorach danych z nierównomiernym rozkładem klas.

Więcej informacji znajdziesz w sekcji Klasyfikacja: dokładność, czułość, precyzja i powiązane dane w kursie Machine Learning Crash Course.

obszar pod krzywą precyzji i czułości,

#Dane

Zobacz PR AUC (obszar pod krzywą PR).

obszar pod krzywą charakterystyki operacyjnej odbiornika

#Dane

Zobacz AUC (obszar pod krzywą ROC).

AUC (obszar pod krzywą ROC)

#fundamentals

#Dane

Liczba z zakresu od 0,0 do 1,0 reprezentująca zdolność modelu klasyfikacji binarnej do rozdzielania klas pozytywnych od klas negatywnych. Im bliżej wartości 1,0 jest AUC, tym lepiej model rozróżnia klasy.

Na przykład poniższa ilustracja przedstawia model klasyfikacji, który doskonale rozdziela klasy pozytywne (zielone owale) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie doskonały model ma wartość AUC równą 1,0:

Oś liczbowa z 8 pozytywnymi przykładami po jednej stronie i 9 negatywnymi po drugiej.

Z kolei poniższa ilustracja przedstawia wyniki modelu klasyfikacji, który generował losowe wyniki. Ten model ma wartość AUC 0,5:

Oś liczb z 6 przykładami dodatnimi i 6 przykładami ujemnymi.
Kolejność przykładów to: pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny.

Tak, poprzedni model ma wartość AUC 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład poniższy model w pewnym stopniu rozdziela wartości pozytywne od negatywnych, dlatego ma wartość AUC między 0,5 a 1,0:

Oś liczb z 6 przykładami dodatnimi i 6 przykładami ujemnymi.
Kolejność przykładów to: negatywny, negatywny, negatywny, negatywny, pozytywny, negatywny, pozytywny, pozytywny, negatywny, pozytywny, pozytywny, pozytywny.

AUC ignoruje każdą wartość ustawioną dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi klasyfikacji.

Kliknij ikonę, aby dowiedzieć się więcej o zależności między krzywymi AUC i ROC.

AUC to obszar pod krzywą ROC. Na przykład krzywa ROC modelu, który doskonale rozróżnia wyniki pozytywne od negatywnych, wygląda tak:

AUC to obszar szarego regionu na poprzedniej ilustracji. W tym nietypowym przypadku pole to po prostu długość szarego obszaru (1,0) pomnożona przez jego szerokość (1,0). Iloczyn 1,0 i 1,0 daje wartość AUC równą dokładnie 1,0, czyli najwyższy możliwy wynik AUC.

Z kolei krzywa ROC dla modelu klasyfikacji, który w ogóle nie potrafi rozróżniać klas, wygląda tak: Obszar tego szarego regionu wynosi 0,5.

Bardziej typowa krzywa ROC wygląda mniej więcej tak:

Ręczne obliczenie pola pod tą krzywą byłoby bardzo pracochłonne, dlatego większość wartości AUC jest zwykle obliczana przez program.

Kliknij ikonę, aby wyświetlić bardziej formalną definicję AUC.

AUC to prawdopodobieństwo, że model klasyfikacji będzie bardziej pewny, że losowo wybrany przykład pozytywny jest rzeczywiście pozytywny, niż że losowo wybrany przykład negatywny jest pozytywny.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

średnia precyzja przy k

#Dane

Miara podsumowująca skuteczność modelu w przypadku pojedynczego prompta, który generuje wyniki w postaci listy, np. listy rekomendacji książek. Średnia precyzja przy k to średnia wartości precyzji przy k dla każdego trafnego wyniku. Wzór na średnią precyzję przy k to:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

gdzie:

$n$ to liczba odpowiednich elementów na liście.

Porównaj z przypominaniem w momencie k.

Kliknij ikonę, aby zobaczyć przykład.

Załóżmy, że duży model językowy otrzymuje to zapytanie:

List the 6 funniest movies of all time in order.

Duży model językowy zwraca tę listę:

The General
Mean Girls
Platoon
Dla druhen
Obywatel Kane
This Is Spinal Tap

Cztery filmy na zwróconej liście są bardzo zabawne (czyli są trafne), ale dwa to dramaty (nie są trafne). W tabeli poniżej znajdziesz szczegółowe wyniki:

Pozycja	Film	Czy jest to trafne?	Precyzja przy k
1	The General	Tak	1,0
2	Mean Girls	Tak	1,0
3	Platoon	Nie	nieistotne,
4	Dla druhen	Tak	0,75
5	Obywatel Kane	Nie	nieistotne,
6	This Is Spinal Tap	Tak	0,67

Liczba trafnych wyników to 4. Dlatego średnią precyzję przy 6 możesz obliczyć w ten sposób:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

bazowa

#Dane

Model używany jako punkt odniesienia do porównywania skuteczności innego modelu (zwykle bardziej złożonego). Na przykład model regresji logistycznej może być dobrym modelem bazowym dla modelu głębokiego.

W przypadku konkretnego problemu wartość bazowa pomaga deweloperom modeli określić minimalną oczekiwaną skuteczność, jaką musi osiągnąć nowy model, aby był przydatny.

Pytania logiczne (BoolQ)

#Dane

Zbiór danych do oceny umiejętności modelu LLM w zakresie odpowiadania na pytania, na które można odpowiedzieć „tak” lub „nie”. Każde wyzwanie w zbiorze danych składa się z 3 elementów:

zapytanie,
Fragment zawierający odpowiedź na zapytanie.
Prawidłowa odpowiedź, czyli tak lub nie.

Na przykład:

Zapytanie: czy w stanie Michigan są jakieś elektrownie atomowe?
Fragment: …trzy elektrownie jądrowe dostarczają do Michigan około 30% energii elektrycznej.
Prawidłowa odpowiedź: tak

Badacze zebrali pytania z zanonimizowanych i zagregowanych zapytań w wyszukiwarce Google, a następnie wykorzystali strony Wikipedii, aby potwierdzić informacje.

Więcej informacji znajdziesz w artykule BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions (w języku angielskim).

BoolQ to komponent zestawu SuperGLUE.

BoolQ

#Dane

Skrót od Boolean Questions (pytania logiczne).

C

CB

#Dane

Skrót od CommitmentBank.

Wynik F1 dla n-gramów znakowych (ChrF)

#Dane

Wskaźnik służący do oceny modeli tłumaczenia maszynowego. Wynik F-score dla N-gramów znakowych określa stopień, w jakim N-gramy w tekście referencyjnym pokrywają się z N-gramami w wygenerowanym tekście modelu ML.

Wskaźnik F znaków N-gramów jest podobny do wskaźników z rodzin ROUGE i BLEU, z tą różnicą, że:

Wynik F-score n-gramów znakowych działa na znakowych n-gramach.
ROUGE i BLEU działają na słowach w postaci n-gramów lub tokenów.

Wybór wiarygodnych alternatyw (COPA)

#Dane

Zbiór danych do oceny, jak dobrze model LLM potrafi wskazać lepszą z 2 alternatywnych odpowiedzi na założenie. Każde wyzwanie w zbiorze danych składa się z 3 elementów:

założenie, które zwykle jest stwierdzeniem, po którym następuje pytanie;
Dwie możliwe odpowiedzi na pytanie postawione w założeniu, z których jedna jest prawidłowa, a druga nieprawidłowa.
Poprawna odpowiedź

Na przykład:

Założenie: mężczyzna złamał palec u nogi. Jaka była tego PRZYCZYNA?
Możliwe odpowiedzi:
1. Zrobiła mu się dziura w skarpetce.
2. Upuścił młotek na stopę.
Prawidłowa odpowiedź: 2

COPA jest komponentem zespołu SuperGLUE.

CommitmentBank (CB)

#Dane

Zbiór danych do oceny umiejętności modelu LLM w określaniu, czy autor fragmentu tekstu wierzy w zdanie docelowe w tym fragmencie. Każdy wpis w zbiorze danych zawiera:

fragment,
klauzula docelowa w tym fragmencie,
Wartość logiczna wskazująca, czy autor fragmentu uważa, że klauzula docelowa

Na przykład:

Fragment: Jak miło było usłyszeć śmiech Artemidy. Jest bardzo poważnym dzieckiem. Nie wiedziałem, że ma poczucie humoru.
Klauzula docelowa: she had a sense of humor
Wartość logiczna: Prawda, co oznacza, że autor uważa, że klauzula docelowa

CommitmentBank jest komponentem zestawu SuperGLUE.

COPA

#Dane

Skrót od Choice of Plausible Alternatives.

koszt

#Dane

Synonim słowa strata.

obiektywność kontrfaktyczna,

#responsible

#Dane

Miara sprawiedliwości, która sprawdza, czy model klasyfikacji daje ten sam wynik w przypadku 2 osób, z których jedna jest identyczna z drugą, z wyjątkiem co najmniej jednego atrybutu chronionego. Ocena modelu klasyfikacji pod kątem obiektywności kontrfaktycznej to jedna z metod wykrywania potencjalnych źródeł uprzedzeń w modelu.

Więcej informacji znajdziesz w tych artykułach:

Sprawiedliwość: sprawiedliwość kontrfaktyczna w szybkim szkoleniu z uczenia maszynowego.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

entropia krzyżowa

#Dane

Uogólnienie funkcji straty logarytmicznej na problemy z klasyfikacją wieloklasową. Entropia krzyżowa określa różnicę między dwoma rozkładami prawdopodobieństwa. Zobacz też perplexity.

dystrybuanta

#Dane

Funkcja, która określa częstotliwość próbek mniejszą lub równą wartości docelowej. Rozważmy na przykład rozkład normalny wartości ciągłych. Dystrybuanta informuje, że około 50% próbek powinno być mniejszych lub równych średniej, a około 84% próbek powinno być mniejszych lub równych odchyleniu standardowemu powyżej średniej.

D

parytet demograficzny

#responsible

#Dane

Metryka sprawiedliwości, która jest spełniona, jeśli wyniki klasyfikacji modelu nie zależą od danego atrybutu wrażliwego.

Jeśli na przykład zarówno Liliputanie, jak i Brobdingnagianie ubiegają się o przyjęcie na Uniwersytet Glubbdubdrib, równość demograficzna jest osiągana, gdy odsetek przyjętych Liliputanów jest taki sam jak odsetek przyjętych Brobdingnagian, niezależnie od tego, czy jedna grupa jest średnio bardziej wykwalifikowana od drugiej.

Kontrastuje to z wyrównanymi szansami i równością szans, które dopuszczają, aby wyniki klasyfikacji w agregacji zależały od atrybutów wrażliwych, ale nie dopuszczają, aby wyniki klasyfikacji dla określonych etykiet prawdziwych danych zależały od atrybutów wrażliwych. Więcej informacji znajdziesz w artykule „Walka z dyskryminacją za pomocą inteligentniejszych systemów uczących się”, w którym znajdziesz wizualizację przedstawiającą kompromisy przy optymalizacji pod kątem równości demograficznej.

Więcej informacji znajdziesz w sekcji Sprawiedliwość: równość demograficzna w szybkim szkoleniu z uczenia maszynowego.

E

odległość przeniesienia ziemi (EMD)

#Dane

Miara względnego podobieństwa dwóch rozkładów. Im mniejsza odległość między rozkładami, tym są one bardziej podobne.

odległość edycji,

#Dane

Miara podobieństwa dwóch ciągów tekstowych. W uczeniu maszynowym odległość edycji jest przydatna z tych powodów:

Odległość edycji jest łatwa do obliczenia.
Odległość edycji może porównywać 2 ciągi znaków, o których wiadomo, że są do siebie podobne.
Odległość edycji może określać stopień podobieństwa różnych ciągów znaków do danego ciągu.

Istnieje kilka definicji odległości edycji, z których każda wykorzystuje inne operacje na ciągach znaków. Przykład znajdziesz w artykule Odległość Levenshteina.

empiryczna dystrybuanta (eCDF lub EDF)

#Dane

Dystrybuanta na podstawie pomiarów empirycznych z rzeczywistego zbioru danych. Wartość funkcji w dowolnym punkcie osi X to ułamek obserwacji w zbiorze danych, które są mniejsze lub równe określonej wartości.

entropia

#df

#Dane

W teorii informacji jest to opis tego, jak nieprzewidywalny jest rozkład prawdopodobieństwa. Entropia jest też definiowana jako ilość informacji zawartych w każdym przykładzie. Rozkład ma najwyższą możliwą entropię, gdy wszystkie wartości zmiennej losowej są jednakowo prawdopodobne.

Entropia zbioru z 2 możliwymi wartościami „0” i „1” (np. etykietami w problemie klasyfikacji binarnej) ma następujący wzór:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

gdzie:

H to entropia.
p to ułamek przykładów „1”.
q to ułamek przykładów „0”. Pamiętaj, że q = (1 – p).
log to zwykle log₂. W tym przypadku jednostką entropii jest bit.

Załóżmy na przykład, że:

100 przykładów zawiera wartość „1”
300 przykładów zawiera wartość „0”

Wartość entropii wynosi więc:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bita na przykład

Zbiór, który jest doskonale zrównoważony (np.200 zer i 200 jedynek), ma entropię 1,0 bita na przykład. W miarę jak zbiór staje się bardziej niezrównoważony, jego entropia zbliża się do 0,0.

W drzewach decyzyjnych entropia pomaga formułować przyrost informacji, aby rozdzielacz mógł wybierać warunki podczas tworzenia drzewa decyzyjnego klasyfikacji.

Porównaj entropię z:

zanieczyszczenie Giniego
funkcja straty entropii krzyżowej,

Entropia jest często nazywana entropią Shannona.

Więcej informacji znajdziesz w sekcji Exact splitter for binary classification with numerical features (Dokładny rozdzielacz do klasyfikacji binarnej z cechami numerycznymi) w kursie Decision Forests.

równość szans,

#responsible

#Dane

Miara sprawiedliwości, która pozwala ocenić, czy model prognozuje pożądany wynik równie dobrze dla wszystkich wartości wrażliwego atrybutu. Inaczej mówiąc, jeśli pożądanym wynikiem modelu jest klasa pozytywna, celem jest uzyskanie takiej samej liczby prawdziwie pozytywnych wyników we wszystkich grupach.

Równość szans jest związana z wyrównaniem szans, co wymaga, aby zarówno współczynniki wyników prawdziwie pozytywnych, jak i współczynniki wyników fałszywie pozytywnych były takie same dla wszystkich grup.

Załóżmy, że Uniwersytet Glubbdubdrib przyjmuje zarówno Liliputów, jak i Brobdingnagów na wymagający program matematyczny. Szkoły średnie w Lilliput oferują rozbudowany program nauczania matematyki, a większość uczniów kwalifikuje się do programu uniwersyteckiego. W szkołach średnich w Brobdingnagu nie ma zajęć z matematyki, więc znacznie mniej uczniów ma odpowiednie kwalifikacje. Równość szans jest zachowana w przypadku preferowanej etykiety „przyjęty” w odniesieniu do narodowości (Liliput lub Brobdingnag), jeśli kwalifikujący się uczniowie mają takie samo prawdopodobieństwo przyjęcia niezależnie od tego, czy są Liliputami, czy Brobdingnagami.

Załóżmy na przykład, że na Uniwersytet Glubbdubdrib zgłasza się 100 Liliputów i 100 Brobdingnagów, a decyzje o przyjęciu są podejmowane w ten sposób:

Tabela 1. Kandydaci z Lilliput (90% z nich spełnia wymagania)

	Zakwalifikowany	Niezakwalifikowany
Admitted	45	3
Odrzucono	45	7
Łącznie	90	10
Odsetek przyjętych uczniów spełniających kryteria: 45/90 = 50% Odsetek odrzuconych uczniów niespełniających kryteriów: 7/10 = 70% Łączny odsetek przyjętych uczniów z Lilliputu: (45+3)/100 = 48%

Tabela 2. Kandydaci z Brobdingnagu (10% – kwalifikujący się):

	Zakwalifikowany	Niezakwalifikowany
Admitted	5	9
Odrzucono	5	81
Łącznie	10	90
Odsetek przyjętych uczniów spełniających kryteria: 5/10 = 50% Odsetek odrzuconych uczniów niespełniających kryteriów: 81/90 = 90% Łączny odsetek przyjętych uczniów z Brobdingnagu: (5+9)/100 = 14%

Powyższe przykłady spełniają warunek równości szans w zakresie przyjęcia wykwalifikowanych uczniów, ponieważ wykwalifikowani Liliputanie i Brobdingnagianie mają 50% szans na przyjęcie.

Chociaż równość szans jest spełniona, te 2 kryteria obiektywności nie są spełnione:

równość demograficzna: Liliputanie i Brobdingnagianie są przyjmowani na uniwersytet w różnym tempie: 48% Liliputanów i tylko 14% Brobdingnagianów.
Równe szanse: chociaż kwalifikujący się uczniowie z Lilliputu i Brobdingnagu mają takie same szanse na przyjęcie, dodatkowe ograniczenie, że niekwalifikujący się uczniowie z Lilliputu i Brobdingnagu mają takie same szanse na odrzucenie, nie jest spełnione. W przypadku osób niekwalifikujących się do kategorii Liliputów odsetek odrzuceń wynosi 70%, a w przypadku osób niekwalifikujących się do kategorii Brobdingnagów – 90%.

Więcej informacji znajdziesz w module Sprawiedliwość: równość szans w kursie Machine Learning Crash Course.

wyrównane szanse

#responsible

#Dane

Wskaźnik sprawiedliwości, który pozwala ocenić, czy model prognozuje wyniki równie dobrze dla wszystkich wartości wrażliwego atrybutu w odniesieniu do klasy pozytywnej i klasy negatywnej, a nie tylko jednej z nich. Innymi słowy, zarówno współczynnik wyników prawdziwie dodatnich, jak i współczynnik wyników fałszywie ujemnych powinny być takie same w przypadku wszystkich grup.

Wyrównane szanse są powiązane z równością szans, która koncentruje się tylko na odsetku błędów w przypadku jednej klasy (pozytywnej lub negatywnej).

Załóżmy na przykład, że Uniwersytet Glubbdubdrib przyjmuje do wymagającego programu matematycznego zarówno Liliputów, jak i Brobdingnagów. Szkoły średnie w Lillipucie oferują bogaty program nauczania matematyki, a większość uczniów kwalifikuje się do programu uniwersyteckiego. W szkołach średnich w Brobdingnagu nie ma zajęć z matematyki, więc znacznie mniej uczniów ma odpowiednie kwalifikacje. Warunek wyrównanych szans jest spełniony, jeśli niezależnie od tego, czy kandydat jest Liliputem, czy Brobdingnagiem, jeśli spełnia wymagania, ma takie samo prawdopodobieństwo przyjęcia do programu, a jeśli nie spełnia wymagań, ma takie samo prawdopodobieństwo odrzucenia.

Załóżmy, że 100 Liliputów i 100 Brobdingnagów zgłasza się na Uniwersytet Glubbdubdrib, a decyzje o przyjęciu są podejmowane w ten sposób:

Tabela 3. Kandydaci z Lilliput (90% z nich spełnia wymagania)

	Zakwalifikowany	Niezakwalifikowany
Admitted	45	2
Odrzucono	45	8
Łącznie	90	10
Odsetek przyjętych uczniów spełniających kryteria: 45/90 = 50% Odsetek odrzuconych uczniów niespełniających kryteriów: 8/10 = 80% Łączny odsetek przyjętych uczniów z Lilliputu: (45+2)/100 = 47%

Tabela 4. Kandydaci z Brobdingnagu (10% – kwalifikujący się):

	Zakwalifikowany	Niezakwalifikowany
Admitted	5	18
Odrzucono	5	72
Łącznie	10	90
Odsetek przyjętych uczniów spełniających kryteria: 5/10 = 50% Odsetek odrzuconych uczniów niespełniających kryteriów: 72/90 = 80% Łączny odsetek przyjętych uczniów z Brobdingnagu: (5+18)/100 = 23%

Warunek wyrównanych szans jest spełniony, ponieważ zakwalifikowani studenci z Lilliputu i Brobdingnagu mają 50% szans na przyjęcie, a niezakwalifikowani studenci z Lilliputu i Brobdingnagu mają 80% szans na odrzucenie.

Wyrównane szanse są formalnie zdefiniowane w artykule „Equality of Opportunity in Supervised Learning” w ten sposób: „predyktor Ŷ spełnia warunek wyrównanych szans w odniesieniu do atrybutu chronionego A i wyniku Y, jeśli Ŷ i A są niezależne pod warunkiem Y”.

oceny

#generativeAI

#Dane

Używany głównie jako skrót od ocen modeli LLM. Ogólnie rzecz biorąc, oceny to skrót od dowolnej formy oceny.

ocena

#generativeAI

#Dane

Proces pomiaru jakości modelu lub porównywania różnych modeli ze sobą.

Aby ocenić nadzorowany model uczenia maszynowego, zwykle porównujesz go ze zbiorem walidacyjnym i zbiorem testowym. Ocena LLM zwykle obejmuje szersze oceny jakości i bezpieczeństwa.

dopasowanie dokładne

#Dane

Wskaźnik typu „wszystko albo nic”, w którym dane wyjściowe modelu są zgodne z danymi podstawowymi lub tekstem referencyjnym albo nie są. Jeśli np. odpowiedź oparta na danych podstawowych to pomarańczowy, jedynym wynikiem modelu, który spełnia kryterium dopasowania ścisłego, jest pomarańczowy.

Dopasowanie ścisłe może też oceniać modele, których dane wyjściowe są sekwencją (listą elementów z określonymi pozycjami). Ogólnie rzecz biorąc, dopasowanie ścisłe wymaga, aby wygenerowana lista rankingowa dokładnie odpowiadała rzeczywistości, tzn. każdy element na obu listach musi być w tej samej kolejności. Jeśli jednak dane referencyjne składają się z wielu prawidłowych sekwencji, dopasowanie ścisłe wymaga, aby dane wyjściowe modelu pasowały do jednej z nich.

Podsumowywanie ekstremalne (xsum)

#Dane

Zbiór danych do oceny zdolności LLM do podsumowywania pojedynczego dokumentu. Każdy wpis w zbiorze danych składa się z tych elementów:

Dokument autorstwa British Broadcasting Corporation (BBC).
Podsumowanie dokumentu w jednym zdaniu.

Więcej informacji znajdziesz w artykule Nie podawaj szczegółów, tylko podsumowanie! Topic-Aware Convolutional Neural Networks for Extreme Summarization.

P

F₁

#Dane

„Złożony” wskaźnik klasyfikacji binarnej, który zależy zarówno od precyzji, jak i od czułości. Oto wzór:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Aby zobaczyć przykłady, kliknij ikonę.

Załóżmy, że precyzja i czułość mają te wartości:

precyzja = 0,6
recall = 0.4

Wartość F₁ oblicza się w ten sposób:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Gdy precyzja i czułość są dość podobne (jak w poprzednim przykładzie), F₁ jest zbliżona do ich średniej. Gdy precyzja i czułość znacznie się od siebie różnią, wartość F₁ jest bliższa mniejszej z nich. Na przykład:

precyzja = 0,9
recall = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

wskaźnik obiektywności,

#responsible

#Dane

Matematyczna definicja „obiektywności”, którą można zmierzyć. Do często używanych wskaźników sprawiedliwości należą:

wyrównane szanse
równość przewidywalności
obiektywność kontrfaktyczna,
parytet demograficzny

Wiele wskaźników obiektywności wzajemnie się wyklucza. Więcej informacji znajdziesz w sekcji Brak spójnych wskaźników obiektywności.

wynik fałszywie negatywny (FN),

#fundamentals

#Dane

Przykład, w którym model błędnie przewiduje klasę negatywną. Na przykład model przewiduje, że dana wiadomość e-mail nie jest spamem (klasa negatywna), ale w rzeczywistości jest spamem.

współczynnik wyników fałszywie negatywnych,

#Dane

Odsetek rzeczywistych przykładów pozytywnych, dla których model błędnie przewidział klasę negatywną. Współczynnik fałszywie negatywnych wyników oblicza się według tego wzoru:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Więcej informacji znajdziesz w sekcji Progi i macierz pomyłek w szybkim szkoleniu z uczenia maszynowego.

wynik fałszywie pozytywny (FP),

#fundamentals

#Dane

Przykład, w którym model błędnie przewiduje klasę pozytywną. Na przykład model przewiduje, że dana wiadomość e-mail to spam (klasa pozytywna), ale w rzeczywistości nie jest to spam.

Więcej informacji znajdziesz w sekcji Progi i macierz pomyłek w szybkim szkoleniu z uczenia maszynowego.

współczynnik wyników fałszywie pozytywnych (FPR),

#fundamentals

#Dane

Odsetek rzeczywistych przykładów negatywnych, dla których model błędnie przewidział klasę pozytywną. Współczynnik fałszywie dodatnich wyników oblicza się według tego wzoru:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie pozytywnych jest osią X na krzywej ROC.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

znaczenie cech,

#df

#Dane

Synonim terminu znaczenie zmiennych.

model podstawowy

#generativeAI

#Dane

Bardzo duży wytrenowany model, który został wytrenowany na ogromnym i zróżnicowanym zbiorze treningowym. Model podstawowy może wykonywać obie te czynności:

dobrze reagować na szeroki zakres żądań,
Służyć jako model podstawowy do dodatkowego dostrajania lub innego dostosowywania.

Innymi słowy, model podstawowy jest już bardzo przydatny w ogólnym sensie, ale można go dodatkowo dostosować, aby był jeszcze bardziej przydatny w konkretnym zadaniu.

odsetek sukcesów

#generativeAI

#Dane

Dane do oceny wygenerowanego tekstu przez model ML. Ułamek sukcesów to liczba „udanych” wygenerowanych wyników tekstowych podzielona przez łączną liczbę wygenerowanych wyników tekstowych. Jeśli na przykład duży model językowy wygenerował 10 bloków kodu, z których 5 działało prawidłowo, odsetek udanych prób wyniesie 50%.

Chociaż odsetek sukcesów jest ogólnie przydatny w statystyce, w uczeniu maszynowym ten wskaźnik jest przydatny głównie do pomiaru zadań weryfikowalnych, takich jak generowanie kodu lub rozwiązywanie problemów matematycznych.

G

zanieczyszczenie Giniego,

#df

#Dane

Dane podobne do entropii. Rozdzielacze używają wartości pochodzących z nieczystości Giniego lub entropii do tworzenia warunków klasyfikacji drzew decyzyjnych. Przyrost informacji jest obliczany na podstawie entropii. Nie ma powszechnie akceptowanego odpowiednika terminu dla danych pochodzących z nieczystości Giniego, ale te nienazwane dane są równie ważne jak przyrost informacji.

Zanieczyszczenie Giniego jest też nazywane wskaźnikiem Giniego lub po prostu gini.

Kliknij ikonę, aby poznać szczegóły matematyczne dotyczące zanieczyszczenia Giniego.

Zanieczyszczenie Giniego to prawdopodobieństwo błędnej klasyfikacji nowych danych pochodzących z tego samego rozkładu. Zanieczyszczenie Giniego zbioru z 2 możliwymi wartościami „0” i „1” (np. etykietami w problemie klasyfikacji binarnej) oblicza się za pomocą tego wzoru:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

gdzie:

I to zanieczyszczenie Giniego.
p to ułamek przykładów „1”.
q to ułamek przykładów „0”. Pamiętaj, że q = 1-p

Rozważmy na przykład ten zbiór danych:

100 etykiet (0,25 zbioru danych) zawiera wartość „1”
300 etykiet (0,75 zbioru danych) zawiera wartość „0”

Zanieczyszczenie Giniego wynosi więc:

p = 0,25
q = 0,75
I = 1 – (0,25² + 0,75²) = 0,375

W związku z tym losowa etykieta z tego samego zbioru danych miałaby 37, 5% szans na nieprawidłową klasyfikację i 62, 5% szans na prawidłową klasyfikację.

Etykieta doskonale zrównoważona (np.200 etykiet „0” i 200 etykiet „1”) miałaby zanieczyszczenie Gini równe 0, 5. Etykieta o dużej nierównowadze będzie miała zanieczyszczenie Giniego bliskie 0,0.

H

funkcja straty hinge

#Dane

Rodzina funkcji strat do klasyfikacji, która ma na celu znalezienie granicy decyzyjnej jak najdalej od każdego przykładu treningowego, co maksymalizuje margines między przykładami a granicą. KSVM używają funkcji straty zawiasowej (lub powiązanej funkcji, np. kwadratowej funkcji straty zawiasowej). W przypadku klasyfikacji binarnej funkcja straty zawiasowej jest zdefiniowana w ten sposób:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

gdzie y to prawdziwa etykieta, czyli -1 lub +1, a y' to surowe dane wyjściowe modelu klasyfikacji:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W związku z tym wykres funkcji straty zawiasowej w zależności od (y * y') wygląda tak:

Wykres kartezjański składający się z 2 połączonych odcinków. Pierwszy odcinek zaczyna się w punkcie (-3, 4), a kończy w punkcie (1, 0). Drugi segment linii zaczyna się w punkcie (1, 0) i ciągnie się w nieskończoność ze współczynnikiem kierunkowym 0.

I

brak spójnych wskaźników obiektywności,

#responsible

#Dane

Koncepcja, że niektóre pojęcia obiektywności są wzajemnie niekompatybilne i nie można ich spełnić jednocześnie. Dlatego nie ma jednego uniwersalnego wskaźnika, który można by zastosować do wszystkich problemów związanych z uczeniem maszynowym.

Może to zniechęcać, ale brak spójnych wskaźników obiektywności nie oznacza, że działania na rzecz obiektywności są bezcelowe. Zamiast tego sugeruje, że obiektywność musi być definiowana w kontekście danego problemu ML, aby zapobiegać szkodom związanym z jego przypadkami użycia.

Więcej informacji o braku spójnych wskaźników obiektywności znajdziesz w artykule „(Nie)możliwość obiektywności”.

sprawiedliwość indywidualna,

#responsible

#Dane

Miara sprawiedliwości, która sprawdza, czy podobne osoby są klasyfikowane w podobny sposób. Na przykład Akademia Brobdingnagian może chcieć zapewnić sprawiedliwość indywidualną, dbając o to, aby dwóch uczniów z identycznymi ocenami i wynikami testów standaryzowanych miało takie same szanse na przyjęcie.

Pamiętaj, że sprawiedliwość indywidualna zależy całkowicie od tego, jak zdefiniujesz „podobieństwo” (w tym przypadku oceny i wyniki testów). Jeśli Twoje dane dotyczące podobieństwa nie uwzględniają ważnych informacji (np. poziomu trudności programu nauczania), możesz wprowadzić nowe problemy związane ze sprawiedliwością.

Więcej informacji o sprawiedliwości indywidualnej znajdziesz w artykule „Fairness Through Awareness”.

przyrost informacji

#df

#Dane

W lasach decyzyjnych różnica między entropią węzła a ważoną (według liczby przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.

Rozważmy na przykład te wartości entropii:

entropia węzła nadrzędnego = 0,6
entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2.
entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1.

40% przykładów znajduje się w jednym węźle podrzędnym, a 60% – w drugim. Dlatego:

ważona suma entropii węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Zysk informacji wynosi więc:

przyrost informacji = entropia węzła nadrzędnego – ważona suma entropii węzłów podrzędnych.
przyrost informacji = 0,6 – 0,14 = 0,46

Większość rozdzielaczy dąży do tworzenia warunków, które maksymalizują przyrost informacji.

zgodność ocen

#Dane

Miara częstotliwości, z jaką weryfikatorzy zgadzają się ze sobą podczas wykonywania zadania. Jeśli oceniający nie zgadzają się ze sobą, może być konieczne ulepszenie instrukcji zadania. Czasami nazywana też zgodnością między oceniającymi lub wiarygodnością między oceniającymi. Zobacz też współczynnik kappa Cohena, który jest jednym z najpopularniejszych wskaźników zgodności ocen.

Więcej informacji znajdziesz w sekcji Dane kategorialne: typowe problemy w kursie Machine Learning Crash Course.

L

Utrata sygnału L₁

#fundamentals

#Dane

Funkcja straty, która oblicza wartość bezwzględną różnicy między rzeczywistymi wartościami etykiet a wartościami przewidywanymi przez model. Na przykład poniżej przedstawiamy obliczenia utraty L₁ dla partii 5 przykładów:

Rzeczywista wartość przykładu	Wartość prognozowana przez model	Wartość bezwzględna różnicy
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = utrata L₁

Funkcja straty L₁ jest mniej wrażliwa na wartości odstające niż funkcja straty L₂.

Średni błąd bezwzględny to średnia strata L₁ na przykład.

Aby zobaczyć formalny zapis matematyczny, kliknij ikonę.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

gdzie:

$n$ to liczba przykładów.
$y$ to rzeczywista wartość etykiety.
$\hat{y}$ to wartość, którą model prognozuje dla $y$.

Więcej informacji znajdziesz w sekcji Regresja liniowa: funkcja straty w kursie Machine Learning Crash Course.

Funkcja straty L₂

#fundamentals

#Dane

Funkcja straty, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiet a wartościami przewidywanymi przez model. Oto przykład obliczania straty L₂ dla partii pięciu przykładów:

Rzeczywista wartość przykładu	Wartość prognozowana przez model	Kwadrat delty
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = przegrana L₂

Ze względu na podnoszenie do kwadratu funkcja straty L₂ wzmacnia wpływ wartości odstających. Oznacza to, że funkcja straty L₂ reaguje silniej na nieprawidłowe prognozy niż funkcja straty L₁. Na przykład funkcja straty L₁ dla poprzedniej partii wyniesie 8, a nie 16. Zwróć uwagę, że 1 wartość odstająca odpowiada za 9 z 16 wartości.

Modele regresji zwykle używają funkcji utraty L₂.

Błąd średniokwadratowy to średnia strata _L2 na przykład. Strata kwadratowa to inna nazwa straty L₂.

Aby zobaczyć formalny zapis matematyczny, kliknij ikonę.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

gdzie:

$n$ to liczba przykładów.
$y$ to rzeczywista wartość etykiety.
$\hat{y}$ to wartość, którą model prognozuje dla $y$.

Więcej informacji znajdziesz w sekcji Regresja logistyczna: funkcja straty i regularyzacja w kursie Machine Learning Crash Course.

Oceny LLM

#generativeAI

#Dane

Zestaw danych i punktów odniesienia do oceny wydajności dużych modeli językowych (LLM). Ogólnie rzecz biorąc, oceny LLM:

pomagać badaczom w określaniu obszarów, w których modele LLM wymagają ulepszeń;
Przydają się do porównywania różnych LLM i określania, który z nich najlepiej nadaje się do konkretnego zadania.
pomagać w zapewnieniu bezpieczeństwa i etycznego charakteru LLM;

Więcej informacji znajdziesz w szybkim szkoleniu z uczenia maszynowego w sekcji Duże modele językowe (LLM).

strata

#fundamentals

#Dane

Podczas trenowania modelu nadzorowanego miara odległości prognozy modelu od jego etykiety.

Funkcja straty oblicza stratę.

Więcej informacji znajdziesz w sekcji Regresja liniowa: funkcja straty w kursie Machine Learning Crash Course.

funkcja straty,

#fundamentals

#Dane

Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę na partii przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które generują dobre prognozy, niż w przypadku modeli, które generują złe prognozy.

Celem trenowania jest zwykle minimalizowanie straty zwracanej przez funkcję straty.

Istnieje wiele różnych rodzajów funkcji straty. Wybierz odpowiednią funkcję straty dla rodzaju tworzonego modelu. Na przykład:

Funkcja straty L₂ (lub średnia kwadratowa błędów) to funkcja straty dla regresji liniowej.
Log Loss to funkcja straty dla regresji logistycznej.

M

rozkład macierzy,

W matematyce mechanizm służący do znajdowania macierzy, których iloczyn skalarny jest zbliżony do macierzy docelowej.

W systemach rekomendacji macierz docelowa często zawiera oceny produktów przez użytkowników. Na przykład macierz docelowa systemu rekomendacji filmów może wyglądać tak, jak poniżej. Liczby całkowite dodatnie to oceny użytkowników, a 0 oznacza, że użytkownik nie ocenił filmu:

	Casablanca	Filadelfijska opowieść	Czarna Pantera	Wonder Woman	Pulp Fiction
Użytkownik 1	5,0	3,0	0,0	2,0	0,0
Użytkownik 2	4.0	0,0	0,0	1,0	5,0
Użytkownik 3	3,0	1,0	4.0	5,0	0,0

System rekomendacji filmów ma na celu przewidywanie ocen użytkowników dla filmów, które nie zostały jeszcze ocenione. Na przykład czy użytkownik 1 polubi film Czarna Pantera?

Jednym z podejść do systemów rekomendacji jest użycie faktoryzacji macierzy do wygenerowania tych 2 macierzy:

Macierz użytkowników o wymiarach liczba użytkowników × liczba wymiarów osadzania.
Macierz elementów o wymiarach liczba wymiarów osadzania × liczba elementów.

Na przykład zastosowanie faktoryzacji macierzy w przypadku 3 użytkowników i 5 produktów może dać te macierze użytkowników i produktów:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Iloczyn skalarny macierzy użytkowników i macierzy elementów daje macierz rekomendacji, która zawiera nie tylko pierwotne oceny użytkowników, ale także prognozy dotyczące filmów, których każdy użytkownik nie widział. Na przykład ocena filmu Casablanca przez użytkownika 1 wynosiła 5,0. Produkt odpowiadający tej komórce w macierzy rekomendacji powinien mieć wartość około 5, 0.

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Co ważniejsze, czy użytkownik 1 polubi film Czarna Pantera? Obliczenie iloczynu skalarnego odpowiadającego pierwszemu wierszowi i trzeciej kolumnie daje prognozowaną ocenę 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Rozkład macierzy zwykle daje macierz użytkowników i macierz produktów, które razem są znacznie bardziej kompaktowe niż macierz docelowa.

MBPP

#Dane

Skrót od Mostly Basic Python Problems.

Średni błąd bezwzględny (MAE)

#Dane

Średnia utrata na przykład, gdy używana jest utrata _L1. Średni błąd bezwzględny obliczany jest w ten sposób:

Obliczanie straty L₁ dla partii.
Podziel utratę L₁ przez liczbę przykładów w partii.

Aby zobaczyć formalny zapis matematyczny, kliknij ikonę.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

gdzie:

$n$ to liczba przykładów.
$y$ to rzeczywista wartość etykiety.
$\hat{y}$ to wartość, którą model prognozuje dla $y$.

Rozważmy na przykład obliczenie funkcji straty L₁ na podstawie poniższej partii 5 przykładów:

Rzeczywista wartość przykładu	Wartość prognozowana przez model	Strata (różnica między wartością rzeczywistą a przewidywaną)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = utrata L₁

W tym przypadku wartość funkcji straty L₁ wynosi 8, a liczba przykładów to 5. Średni błąd bezwzględny wynosi więc:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Porównaj średni błąd bezwzględny z błędem średniokwadratowym i średnią kwadratową błędów.

średnia precyzja przy k (mAP@k),

#generativeAI

#Dane

Średnia statystyczna wszystkich wyników średniej precyzji przy k w zbiorze danych do weryfikacji. Średnia precyzja przy k jest używana do oceny jakości rekomendacji generowanych przez system rekomendacji.

Chociaż wyrażenie „średnia arytmetyczna” brzmi redundantnie, nazwa wskaźnika jest odpowiednia. W końcu ten wskaźnik oblicza średnią z wielu wartości średniej precyzji przy k.

Kliknij ikonę, aby zobaczyć przykład.

Załóżmy, że tworzysz system rekomendacji, który generuje spersonalizowaną listę rekomendowanych powieści dla każdego użytkownika. Na podstawie opinii wybranych użytkowników obliczasz te 5 wartości średniej precyzji przy k (po 1 wartości na użytkownika):

0,73
0.77
0,67
0,82
0.76

Średnia precyzja przy K wynosi więc:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

Błąd średniokwadratowy (MSE)

#Dane

Średnia utrata na przykład, gdy używana jest utrata ₂. Oblicz błąd średniokwadratowy w ten sposób:

Oblicz stratę L₂ dla partii.
Podziel utratę L₂ przez liczbę przykładów w partii.

Aby zobaczyć formalny zapis matematyczny, kliknij ikonę.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ gdzie:

$n$ to liczba przykładów.
$y$ to rzeczywista wartość etykiety.
$\hat{y}$ to prognoza modelu dla $y$.

Rozważmy na przykład utratę w przypadku tej partii 5 przykładów:

Rzeczywista wartość	Prognoza modelu	Strata	Strata kwadratowa
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = przegrana L₂

Dlatego błąd średniokwadratowy wynosi:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Błąd średniokwadratowy to popularny optymalizator trenowania, szczególnie w przypadku regresji liniowej.

Porównaj błąd średniokwadratowy ze średnim błędem bezwzględnym i średnią kwadratową błędów.

TensorFlow Playground używa średniego błędu kwadratowego do obliczania wartości funkcji straty.

Kliknij ikonę, aby wyświetlić więcej informacji o wartościach odstających.

Wartości odstające mają duży wpływ na błąd średniokwadratowy. Na przykład strata 1 to strata kwadratowa 1, ale strata 3 to strata kwadratowa 9. W tabeli powyżej przykład z utratą 3 odpowiada za około 56% błędu średniokwadratowego, a każdy z przykładów z utratą 1 odpowiada za zaledwie 6% błędu średniokwadratowego.

Wartości odstające nie wpływają na średni błąd bezwzględny tak mocno jak na średni błąd kwadratowy. Na przykład utrata 3 kont powoduje tylko ok. 38% średniego błędu bezwzględnego.

Obcinanie to jeden ze sposobów zapobiegania uszkodzeniu zdolności predykcyjnej modelu przez ekstremalne wartości odstające.

wskaźnik

#TensorFlow

#Dane

statystykę, która Cię interesuje;

Cel to wskaźnik, który system uczący się próbuje optymalizować.

Interfejs Metrics API (tf.metrics)

#Dane

Interfejs TensorFlow API do oceny modeli. Na przykład tf.metrics.accuracy określa, jak często prognozy modelu są zgodne z etykietami.

funkcja straty minimax

#Dane

Funkcja straty dla generatywnych sieci przeciwstawnych na podstawie entropii krzyżowej między rozkładem wygenerowanych danych a rzeczywistych danych.

W pierwszym artykule opisującym generatywne sieci przeciwstawne użyto funkcji straty minimax.

Więcej informacji znajdziesz w sekcji Funkcje straty w kursie Generative Adversarial Networks.

pojemność modelu,

#Dane

Złożoność problemów, których model może się nauczyć. Im bardziej złożone problemy model może rozwiązywać, tym większa jest jego pojemność. Pojemność modelu zwykle rośnie wraz z liczbą jego parametrów. Formalną definicję pojemności modelu klasyfikacji znajdziesz w sekcji Wymiar VC.

Wykorzystanie chwili

Zaawansowany algorytm spadku gradientowego, w którym krok uczenia zależy nie tylko od pochodnej w bieżącym kroku, ale także od pochodnych kroków, które bezpośrednio go poprzedzały. Momentum polega na obliczaniu wykładniczo ważonej średniej ruchomej gradientów w czasie, co jest analogiczne do pędu w fizyce. Momentum czasami zapobiega utknięciu uczenia w lokalnych minimach.

Mostly Basic Python Problems (MBPP)

#Dane

Zbiór danych do oceny umiejętności modelu LLM w generowaniu kodu w Pythonie. Mostly Basic Python Problems zawiera około 1000 problemów programistycznych pochodzących z różnych źródeł. Każdy problem w zbiorze danych zawiera:

opis zadania,
Kod rozwiązania
3 automatyczne przypadki testowe

N

klasa wyników negatywnych,

#fundamentals

#Dane

W klasyfikacji binarnej jedna klasa jest określana jako pozytywna, a druga jako negatywna. Klasa pozytywna to rzecz lub zdarzenie, które model testuje, a klasa negatywna to inna możliwość. Na przykład:

Klasa negatywna w teście medycznym może oznaczać „brak guza”.
Klasa negatywna w modelu klasyfikacji e-maili może być oznaczona jako „nie spam”.

Porównaj z klasą wyników pozytywnych.

O

cel

#Dane

Wskaźnik, który algorytm próbuje zoptymalizować.

funkcja celu

#Dane

Formuła matematyczna lub dane, które model ma optymalizować. Na przykład funkcja celu w przypadku regresji liniowej to zwykle średnia kwadratowa strata. Dlatego podczas trenowania modelu regresji liniowej celem jest zminimalizowanie straty średniokwadratowej.

W niektórych przypadkach celem jest maksymalizacja funkcji celu. Jeśli np. funkcja celu to dokładność, celem jest jej maksymalizacja.

Zobacz też utratę.

P

pass at k (pass@k)

#Dane

Wskaźnik określający jakość kodu (np. w języku Python) generowanego przez duży model językowy. W szczególności wartość k w przypadku testu Pass@k określa prawdopodobieństwo, że co najmniej 1 z k wygenerowanych bloków kodu przejdzie wszystkie testy jednostkowe.

Duże modele językowe często mają trudności z generowaniem dobrego kodu w przypadku złożonych problemów programistycznych. Inżynierowie oprogramowania radzą sobie z tym problemem, prosząc duży model językowy o wygenerowanie wielu (k) rozwiązań tego samego problemu. Następnie inżynierowie oprogramowania testują każde z tych rozwiązań za pomocą testów jednostkowych. Obliczenie wyniku testu na poziomie k zależy od wyników testów jednostkowych:

Jeśli co najmniej jedno z tych rozwiązań przejdzie test jednostkowy, LLM przejdzie to wyzwanie związane z generowaniem kodu.
Jeśli żadne z rozwiązań nie przejdzie testu jednostkowego, LLM nie zaliczy tego zadania związanego z generowaniem kodu.

Formuła dla przepustki na poziomie k wygląda tak:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

Ogólnie wyższe wartości k dają wyższe wyniki testu Pass@k, ale wymagają większych zasobów dużego modelu językowego i testów jednostkowych.

Kliknij ikonę, aby zobaczyć przykład.

Załóżmy, że inżynier oprogramowania prosi duży model językowy o wygenerowanie k=10 rozwiązań dla n=50 trudnych problemów z kodowaniem. Oto wyniki:

30 kart
20 niepowodzeń

Wynik zaliczający to:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

występ

#Dane

Termin o wielu znaczeniach:

Standardowe znaczenie w inżynierii oprogramowania. Chodzi o to, jak szybko (lub wydajnie) działa to oprogramowanie.
Znaczenie w uczeniu maszynowym. Skuteczność odpowiada na pytanie: jak dokładny jest ten model? Czyli jak dobre są prognozy modelu?

permutacyjna ważność zmiennych

#df

#Dane

Rodzaj znaczenia zmiennej, który ocenia wzrost błędu prognozy modelu po przestawieniu wartości cechy. Znaczenie zmiennej permutacji jest niezależnym od modelu wskaźnikiem.

perplexity

#Dane

Miara tego, jak dobrze model wykonuje swoje zadanie. Załóżmy na przykład, że Twoim zadaniem jest odczytanie kilku pierwszych liter słowa, które użytkownik wpisuje na klawiaturze telefonu, i zaproponowanie listy możliwych słów do dokończenia. Złożoność P w tym przypadku to w przybliżeniu liczba propozycji, które musisz podać, aby na liście znalazło się słowo, które użytkownik próbuje wpisać.

Złożoność jest powiązana z entropią krzyżową w ten sposób:

$$P= 2^{-\text{cross entropy}}$$

klasa wyników pozytywnych,

#fundamentals

#Dane

Klasa, dla której przeprowadzasz test.

Na przykład klasą pozytywną w modelu do wykrywania raka może być „guz”. Klasą pozytywną w modelu klasyfikacji e-maili może być „spam”.

Porównaj z klasą wyników negatywnych.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Termin klasa pozytywna może być mylący, ponieważ „pozytywny” wynik wielu testów jest często niepożądany. Na przykład w wielu testach medycznych klasa pozytywna odpowiada guzom lub chorobom. Ogólnie rzecz biorąc, chcesz, aby lekarz powiedział Ci: „Gratulacje! Wyniki testu były negatywne”. Niezależnie od tego klasa pozytywna to zdarzenie, które ma wykryć test.

W tym przypadku testujesz jednocześnie klasy pozytywne i negatywne.

PR AUC (obszar pod krzywą PR)

#Dane

Obszar pod interpolowaną krzywą precyzji i czułości, uzyskany przez wykreślenie punktów (czułość, precyzja) dla różnych wartości progu klasyfikacji.

precyzja

#fundamentals

#Dane

Miara dla modeli klasyfikacji, która odpowiada na to pytanie:

Gdy model przewidział klasę pozytywną, jaki odsetek prognoz był prawidłowy?

Oto wzór:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

gdzie:

Prawdziwie pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
Fałszywie pozytywny wynik oznacza, że model błędnie przewidział klasę pozytywną.

Załóżmy na przykład, że model wygenerował 200 prognoz pozytywnych. Z tych 200 pozytywnych prognoz:

150 z nich to wyniki prawdziwie pozytywne.
50 z nich to wyniki fałszywie pozytywne.

W tym przypadku:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Porównaj z dokładnością i czułością.

Więcej informacji znajdziesz w sekcji Klasyfikacja: dokładność, czułość, precyzja i powiązane dane w kursie Machine Learning Crash Course.

precyzja przy k (precision@k)

#Dane

Rodzaj danych do oceny uporządkowanej listy elementów. Precyzja przy k określa ułamek pierwszych k elementów na liście, które są „trafne”. Czyli:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Wartość parametru k musi być mniejsza lub równa długości zwróconej listy. Pamiętaj, że długość zwróconej listy nie jest uwzględniana w obliczeniach.

Trafność jest często subiektywna. Nawet ludzie, którzy są ekspertami w ocenianiu, często nie zgadzają się co do tego, które elementy są trafne.

Porównaj z:

średnia precyzja przy k
średnia precyzja przy k

Kliknij ikonę, aby zobaczyć przykład.

Załóżmy, że duży model językowy otrzymuje to zapytanie:

List the 6 funniest movies of all time in order.

Duży model językowy zwraca listę widoczną w pierwszych 2 kolumnach poniższej tabeli:

Pozycja	Film	Czy jest to trafne?
1	The General	Tak
2	Mean Girls	Tak
3	Platoon	Nie
4	Dla druhen	Tak
5	Obywatel Kane	Nie
6	This Is Spinal Tap	Tak

2 z 3 pierwszych filmów są trafne, więc precyzja przy 3 wynosi:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

Trzy z pierwszych pięciu filmów są bardzo zabawne, więc precyzja na poziomie 5 wynosi:

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

krzywej precyzji i czułości

#Dane

Krzywa precyzji w porównaniu z czułością przy różnych progach klasyfikacji.

błąd prognozy,

#Dane

Wartość wskazująca, jak bardzo średnia prognoz różni się od średniej etykiet w zbiorze danych.

Nie należy go mylić z wyrazem „bias” w modelach uczenia maszynowego ani z uprzedzeniami w kontekście etyki i bezstronności.

równość prognozowana,

#responsible

#Dane

Wskaźnik obiektywności, który sprawdza, czy w przypadku danego modelu klasyfikacji wartości precyzji są równoważne w przypadku rozpatrywanych podgrup.

Na przykład model, który przewiduje przyjęcie do college'u, spełniałby warunek równości predykcyjnej w przypadku narodowości, gdyby jego wskaźnik precyzji był taki sam w przypadku Liliputów i Brobdingnagów.

Równość cen prognozowanych jest czasami nazywana równością cen prognozowanych.

Więcej informacji o równości predykcyjnej znajdziesz w sekcji 3.2.1 artykułu „Wyjaśnienie definicji sprawiedliwości”.

prognozowana równość cen

#responsible

#Dane

Inna nazwa równości predykcyjnej.

funkcja gęstości prawdopodobieństwa

#Dane

Funkcja, która określa częstotliwość występowania próbek danych o dokładnie określonej wartości. Gdy wartości zbioru danych są ciągłymi liczbami zmiennoprzecinkowymi, dokładne dopasowania występują rzadko. Jednak całkowanie funkcji gęstości prawdopodobieństwa od wartości x do wartości y daje oczekiwaną częstotliwość próbek danych między x a y.

Rozważmy na przykład rozkład normalny o średniej 200 i odchyleniu standardowym 30. Aby określić oczekiwaną częstotliwość próbek danych mieszczących się w zakresie od 211,4 do 218,7, możesz scałkować funkcję gęstości prawdopodobieństwa rozkładu normalnego w zakresie od 211,4 do 218,7.

R

Zbiór danych do czytania ze zrozumieniem z wykorzystaniem zdroworozsądkowego rozumowania (ReCoRD)

#Dane

Zbiór danych do oceny zdolności dużego modelu językowego do wnioskowania opartego na zdrowym rozsądku. Każdy przykład w zbiorze danych zawiera 3 komponenty:

paragraf lub dwa z artykułu prasowego;
Zapytanie, w którym jedna z encji wyraźnie lub domyślnie zidentyfikowanych w fragmencie jest zamaskowana.
Odpowiedź (nazwa elementu, który należy umieścić w masce)

Obszerną listę przykładów znajdziesz w artykule ReCoRD.

ReCoRD jest komponentem zespołu SuperGLUE.

RealToxicityPrompts

#Dane

Zbiór danych zawierający zestaw początków zdań, które mogą zawierać toksyczne treści. Użyj tego zbioru danych, aby ocenić zdolność modelu LLM do generowania nietoksycznego tekstu uzupełniającego zdanie. Zwykle do określania, jak dobrze LLM wykonał to zadanie, używa się Perspective API.

Więcej informacji znajdziesz w artykule RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models.

wycofanie

#fundamentals

#Dane

Miara dla modeli klasyfikacji, która odpowiada na to pytanie:

Gdy dane podstawowe należały do klasy pozytywnej, jaki odsetek prognoz został przez model prawidłowo zidentyfikowany jako klasa pozytywna?

Oto wzór:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

gdzie:

Prawdziwie pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
Fałszywie negatywny wynik oznacza, że model błędnie przewidział klasę negatywną.

Załóżmy na przykład, że model dokonał 200 prognoz na podstawie przykładów, w których prawdziwa klasa to klasa pozytywna. Z tych 200 prognoz:

180 z nich to wyniki prawdziwie pozytywne.
20 z nich to wyniki fałszywie negatywne.

W tym przypadku:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Kliknij ikonę, aby wyświetlić uwagi dotyczące zbiorów danych z nierównomiernym rozkładem klas.

Precyzja jest szczególnie przydatna do określania mocy predykcyjnej modeli klasyfikacji, w których klasa pozytywna występuje rzadko. Rozważmy na przykład zbiór danych z nierównowagą klas, w którym klasa pozytywna dla określonej choroby występuje tylko u 10 pacjentów na milion. Załóżmy, że model generuje 5 milionów prognoz, które dają następujące wyniki:

30 wyników prawdziwie pozytywnych
20 wyników fałszywie negatywnych
4 999 000 wyników prawdziwie negatywnych
950 wyników fałszywie pozytywnych

Wartość parametru „recall” tego modelu wynosi zatem:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Natomiast dokładność tego modelu wynosi:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Wysoka wartość dokładności wygląda imponująco, ale w zasadzie nie ma znaczenia. W przypadku zbiorów danych z nierównomiernym rozkładem klas czułość jest znacznie bardziej przydatnym wskaźnikiem niż dokładność.

Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane dane.

czułość przy k (recall@k)

#Dane

Metryka do oceny systemów, które generują uporządkowaną listę elementów. Wartość k w przypadku miary Recall określa odsetek trafnych elementów w pierwszych k elementach na liście w stosunku do łącznej liczby zwróconych trafnych elementów.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Kontrast z precyzją przy progu ufności k.

Kliknij ikonę, aby zobaczyć przykład.

Załóżmy, że duży model językowy otrzymał to zapytanie:

List the 10 funniest movies of all time in order.

Duży model językowy zwraca listę widoczną w pierwszych 2 kolumnach:

Pozycja	Film	Czy jest to trafne?
1	The General	Tak
2	Mean Girls	Tak
3	Platoon	Nie
4	Dla druhen	Tak
5	This Is Spinal Tap	Tak
6	Airplane!	Tak
7	Dzień Świstaka	Tak
8	Monty Python i Święty Graal	Tak
9	Oppenheimer	Nie
10	Clueless	Tak

Osiem filmów z powyższej listy jest bardzo zabawnych, więc są to „odpowiednie elementy na liście”. Dlatego w mianowniku wszystkich obliczeń precyzji przy k będzie liczba 8. A co z licznikiem? 3 z 4 pierwszych elementów są istotne, więc przywołanie przy 4 elementach wynosi:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 z 8 pierwszych filmów jest bardzo zabawnych, więc przypomnienie po 8 filmach wygląda tak:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

Rozpoznawanie implikacji tekstowych (RTE)

#Dane

Zbiór danych do oceny zdolności LLM do określania, czy hipoteza może wynikać (logicznie) z fragmentu tekstu. Każdy przykład w ocenie RTE składa się z 3 części:

fragment, zwykle z artykułów informacyjnych lub z Wikipedii;
hipoteza,
Prawidłowa odpowiedź, która może być:
- Prawda, co oznacza, że hipoteza może wynikać z fragmentu.
- Fałsz, co oznacza, że hipotezy nie można wywnioskować z fragmentu.

Na przykład:

Fragment: euro jest walutą Unii Europejskiej.
Hipoteza: Francja używa euro jako waluty.
Wynikanie: prawda, ponieważ Francja jest częścią Unii Europejskiej.

RTE jest komponentem zespołu SuperGLUE.

ReCoRD

#Dane

Skrót od Reading Comprehension with Commonsense Reasoning Dataset.

Krzywa charakterystyki operacyjnej odbiornika (ROC)

#fundamentals

#Dane

Wykres przedstawiający odsetek prawdziwie pozytywnych wyników w porównaniu z odsetkiem fałszywie pozytywnych wyników dla różnych progów klasyfikacji w klasyfikacji binarnej.

Kształt krzywej ROC wskazuje na zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od negatywnych. Załóżmy na przykład, że binarny model klasyfikacji doskonale oddziela wszystkie klasy negatywne od wszystkich klas pozytywnych:

Oś liczb z 8 przykładami pozytywnymi po prawej stronie i 7 przykładami negatywnymi po lewej.

Krzywa ROC poprzedniego modelu wygląda tak:

Krzywa charakterystyki operacyjnej odbiornika. Oś X to współczynnik wyników fałszywie pozytywnych, a oś Y to współczynnik wyników prawdziwie pozytywnych. Krzywa ma kształt odwróconej litery L. Krzywa zaczyna się w punkcie (0,0) i biegnie prosto w górę do punktu (0,1). Wtedy krzywa przechodzi od punktu (0,0, 1,0) do punktu (1,0, 1,0).

Z kolei na poniższej ilustracji przedstawiono surowe wartości regresji logistycznej w przypadku bardzo słabego modelu, który w ogóle nie potrafi odróżnić klas negatywnych od pozytywnych:

Oś liczb z pozytywnymi przykładami i negatywnymi klasami całkowicie wymieszanymi.

Krzywa ROC tego modelu wygląda tak:

Krzywa ROC, która jest w rzeczywistości linią prostą od punktu (0,0) do punktu (1,1).

W rzeczywistości większość modeli klasyfikacji binarnej w pewnym stopniu rozdziela klasy pozytywne i negatywne, ale zwykle nie robi tego idealnie. Typowa krzywa ROC znajduje się więc gdzieś pomiędzy tymi dwoma skrajnościami:

Krzywa charakterystyki operacyjnej odbiornika. Oś X to współczynnik wyników fałszywie pozytywnych, a oś Y to współczynnik wyników prawdziwie pozytywnych. Krzywa ROC przypomina drżący łuk
przebiegający przez punkty kompasu od zachodu do północy.

Punkt na krzywej ROC najbliższy punktowi (0,0, 1,0) teoretycznie określa idealny próg klasyfikacji. Na wybór idealnego progu klasyfikacji wpływa jednak kilka innych problemów z rzeczywistego świata. Na przykład fałszywe negatywy mogą być znacznie bardziej uciążliwe niż fałszywe pozytywy.

Podsumowaniem krzywej ROC jest wartość liczbowa o nazwie AUC, która jest pojedynczą liczbą zmiennoprzecinkową.

Średnia kwadratowa błędów (RMSE)

#fundamentals

#Dane

Pierwiastek kwadratowy z błędu średniokwadratowego.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Dane

Rodzina wskaźników, które oceniają modele automatycznego podsumowywania i tłumaczenia maszynowego. Wskaźniki ROUGE określają stopień, w jakim tekst referencyjny pokrywa się z wygenerowanym tekstem modelu ML. Każdy element rodziny ROUGE mierzy nakładanie się w inny sposób. Wyższe wyniki ROUGE wskazują na większe podobieństwo między tekstem referencyjnym a wygenerowanym niż niższe wyniki ROUGE.

Każdy element rodziny ROUGE generuje zwykle te dane:

Precyzja
Czułość
F₁

Szczegółowe informacje i przykłady znajdziesz w tych artykułach:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Dane

Wskaźnik z rodziny ROUGE, który koncentruje się na długości najdłuższego wspólnego podciągu w tekście referencyjnym i wygenerowanym tekście. Wartości przywołania i precyzji dla ROUGE-L są obliczane według tych wzorów:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Następnie możesz użyć wskaźnika F₁, aby połączyć czułość ROUGE-L i precyzję ROUGE-L w jeden wskaźnik:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Kliknij ikonę, aby zobaczyć przykładowe obliczenia ROUGE-L.

Przyjrzyj się poniższym tekstom referencyjnym i wygenerowanym.

Kategoria	Kto wyprodukował?	Tekst
Tekst referencyjny	Tłumacz	Chcę zrozumieć wiele różnych rzeczy.
wygenerowany tekst;	Model ML	Chcę się wiele nauczyć.

Dlatego:

Najdłuższy wspólny podciąg to 5 (I want to of things).
Liczba słów w tekście referencyjnym wynosi 9.
Liczba słów w wygenerowanym tekście wynosi 7.

W konsekwencji:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L ignoruje znaki nowego wiersza w tekście referencyjnym i wygenerowanym, więc najdłuższy wspólny podciąg może obejmować wiele zdań. Jeśli tekst referencyjny i wygenerowany składają się z wielu zdań, lepszym wskaźnikiem jest zwykle odmiana ROUGE-L o nazwie ROUGE-Lsum. Wskaźnik ROUGE-Lsum określa najdłuższy wspólny podciąg dla każdego zdania w fragmencie, a następnie oblicza średnią tych najdłuższych wspólnych podciągów.

Kliknij ikonę, aby zobaczyć przykładowe obliczenia ROUGE-Lsum.

Przyjrzyj się poniższym tekstom referencyjnym i wygenerowanym.

Kategoria	Kto wyprodukował?	Tekst
Tekst referencyjny	Tłumacz	Powierzchnia Marsa jest sucha. Prawie cała woda znajduje się głęboko pod ziemią.
wygenerowany tekst;	Model ML	Mars ma suchą powierzchnię. Jednak zdecydowana większość wody znajduje się pod ziemią.

Dlatego:

	Pierwsze zdanie	Drugie zdanie
Najdłuższa wspólna sekwencja	2 (Mars dry)	3 (woda jest pod ziemią)
Długość zdań w tekście referencyjnym	6	7
Długość zdań w wygenerowanym tekście	5	8

W związku z tym:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Dane

Zestaw wskaźników z rodziny ROUGE, który porównuje wspólne n-gramy o określonym rozmiarze w tekście referencyjnym i tekście wygenerowanym. Na przykład:

ROUGE-1 mierzy liczbę wspólnych tokenów w tekście referencyjnym i wygenerowanym.
ROUGE-2 mierzy liczbę wspólnych bigramów (2-gramów) w tekście referencyjnym i wygenerowanym.
ROUGE-3 mierzy liczbę wspólnych trigramów (3-gramów) w tekście referencyjnym i wygenerowanym.

Aby obliczyć wartość ROUGE-N recall i ROUGE-N precision dla dowolnego elementu rodziny ROUGE-N, możesz użyć tych wzorów:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Następnie możesz użyć F₁, aby połączyć czułość ROUGE-N i precyzję ROUGE-N w jeden rodzaj danych:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Kliknij ikonę, aby zobaczyć przykład.

Załóżmy, że chcesz użyć ROUGE-2 do pomiaru skuteczności tłumaczenia modelu ML w porównaniu z tłumaczeniem wykonanym przez człowieka.

Kategoria	Kto wyprodukował?	Tekst	Bigramy
Tekst referencyjny	Tłumacz	Chcę zrozumieć wiele różnych rzeczy.	Chcę, chcę, chcę zrozumieć, zrozumieć wiele, wiele różnych, różnych rzeczy.
wygenerowany tekst;	Model ML	Chcę się wiele nauczyć.	I want, want to, to learn, learn plenty, plenty of, of things

Dlatego:

Liczba pasujących 2-gramów wynosi 3 (I want, want to i of things).
Liczba 2-gramów w tekście referencyjnym wynosi 8.
Liczba 2-gramów w wygenerowanym tekście wynosi 6.

W konsekwencji:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Dane

Łagodna forma ROUGE-N, która umożliwia dopasowywanie skip-gramów. Oznacza to, że ROUGE-N zlicza tylko n-gramy, które są dokładnie takie same, ale ROUGE-S zlicza też n-gramy oddzielone co najmniej jednym słowem. Na przykład:

tekst referencyjny: Białe chmury
wygenerowany tekst: Białe, kłębiące się chmury

Podczas obliczania ROUGE-N 2-gram White clouds nie pasuje do White billowing clouds. Jednak podczas obliczania ROUGE-S fraza White clouds pasuje do frazy White billowing clouds.

R-kwadrat

#Dane

Rodzaj danych regresji wskazujący, w jakim stopniu zmienność etykiety wynika z pojedynczej cechy lub zestawu cech. Wartość R-kwadrat mieści się w zakresie od 0 do 1 i można ją interpretować w ten sposób:

Wartość R-kwadrat równa 0 oznacza, że żadna część zmienności etykiety nie jest spowodowana zestawem cech.
Wartość R-kwadrat równa 1 oznacza, że wszystkie zmiany etykiety są spowodowane zestawem funkcji.
Wartość R-kwadrat w zakresie od 0 do 1 wskazuje, w jakim stopniu wariancję etykiety można przewidzieć na podstawie konkretnej cechy lub zestawu cech. Na przykład wartość R-kwadrat równa 0,10 oznacza, że 10% wariancji etykiety wynika z zestawu cech, a wartość R-kwadrat równa 0,20 oznacza, że z zestawu cech wynika 20% wariancji etykiety itd.

Wartość R kwadrat to kwadrat współczynnika korelacji Pearsona między wartościami prognozowanymi przez model a danymi podstawowymi.

RTE

#Dane

Skrót od Recognizing Textual Entailment.

S

ocena

#Dane

Część systemu rekomendacji, która podaje wartość lub ranking każdego elementu wygenerowanego w fazie generowania kandydatów.

miara podobieństwa,

#clustering

#Dane

W algorytmach klastrowania jest to miara używana do określania, jak podobne są do siebie 2 przykłady.

rozproszenie

#Dane

Liczba elementów ustawionych na zero (lub null) w wektorze lub macierzy podzielona przez łączną liczbę wpisów w tym wektorze lub macierzy. Załóżmy na przykład, że masz macierz ze 100 elementami, w której 98 komórek zawiera zero. Obliczenie rzadkości wygląda następująco:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Rzadkość cech odnosi się do rzadkości wektora cech, a rzadkość modelu – do rzadkości wag modelu.

SQuAD

#Dane

Akronim od Stanford Question Answering Dataset (zbiór danych do odpowiadania na pytania opracowany przez Uniwersytet Stanforda), wprowadzony w artykule SQuAD: 100,000+ Questions for Machine Comprehension of Text. Pytania w tym zbiorze danych pochodzą od osób, które zadają pytania dotyczące artykułów w Wikipedii. Niektóre pytania w SQuAD mają odpowiedzi, ale inne celowo ich nie mają. Dlatego możesz użyć SQuAD do oceny, czy LLM potrafi:

Odpowiadaj na pytania, na które można odpowiedzieć.
Określ pytania, na które nie można odpowiedzieć.

Dopasowanie ścisłe w połączeniu z F₁ to najczęstsze dane do oceny LLM w porównaniu z SQuAD.

kwadratowa funkcja straty zawiasu

#Dane

Kwadrat funkcji straty zawiasowej. Kwadratowa funkcja straty z zawiasem surowiej karze wartości odstające niż zwykła funkcja straty z zawiasem.

strata kwadratowa,

#fundamentals

#Dane

Synonim terminu utrata _L2.

SuperGLUE

#Dane

Zbiór danych do oceny ogólnej zdolności LLM do rozumienia i generowania tekstu. Zespół składa się z tych zbiorów danych:

Pytania logiczne (BoolQ)
CommitmentBank (CB)
Choice of Plausible Alternatives (COPA)
Multi-sentence Reading Comprehension (MultiRC)
Reading Comprehension with Commonsense Reasoning Dataset (ReCoRD)
Rozpoznawanie implikacji tekstowych (RTE)
Słowa w kontekście (WiC)
Winograd Schema Challenge (WSC)

Więcej informacji znajdziesz w artykule SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems.

T

strata testowa

#fundamentals

#Dane

Wartość reprezentująca stratę modelu w odniesieniu do zbioru testowego. Podczas tworzenia modelu zwykle starasz się zminimalizować utratę w teście. Dzieje się tak, ponieważ niski błąd testowy jest silniejszym sygnałem jakości niż niski błąd trenowania lub niski błąd weryfikacji.

Duża różnica między stratą na zbiorze testowym a stratą na zbiorze treningowym lub walidacyjnym może sugerować, że musisz zwiększyć współczynnik regularyzacji.

dokładność top-k,

#Dane

Odsetek przypadków, w których „etykieta docelowa” pojawia się na pierwszych k pozycjach wygenerowanych list. Listy mogą zawierać spersonalizowane rekomendacje lub listę produktów uporządkowanych według funkcji softmax.

Dokładność top-k jest też nazywana dokładnością przy k.

Kliknij ikonę, aby zobaczyć przykład.

Rozważmy system uczenia maszynowego, który używa funkcji softmax do określania prawdopodobieństwa wystąpienia drzewa na podstawie zdjęcia liści. W tabeli poniżej znajdziesz listy wyjściowe wygenerowane na podstawie 5 obrazów drzew wejściowych. Każdy wiersz zawiera etykietę docelową i 5 najbardziej prawdopodobnych drzew. Na przykład, gdy etykieta docelowa to klon, model uczenia maszynowego zidentyfikował wiąz jako najbardziej prawdopodobne drzewo, dąb jako drugie najbardziej prawdopodobne drzewo itd.

Etykieta celu	1	2	3	4	5
klon	wiąz,	dąb	maple	buk	topola
dereń	dąb	dogwood	topola	Hickory	klon
dąb	oak	lipa	szarańcza	olcha	Linden
Linden	klon	paw-paw	dąb	lipa	topola
dąb	szarańcza	Linden	oak	klon	paw-paw

Etykieta docelowa pojawia się na pierwszej pozycji tylko raz, więc dokładność top-1 wynosi:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

Etykieta docelowa pojawia się na jednej z 3 pierwszych pozycji 4 razy, więc dokładność w przypadku 3 pierwszych pozycji wynosi:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

toksyczne

#Dane

stopień, w jakim treści są obraźliwe, zawierają groźby lub są w inny sposób nieodpowiednie; Wiele modeli uczenia maszynowego może identyfikować, mierzyć i klasyfikować toksyczność. Większość tych modeli identyfikuje toksyczność na podstawie wielu parametrów, takich jak poziom obraźliwego języka i poziom języka zagrażającego.

strata podczas trenowania,

#fundamentals

#Dane

Wskaźnik reprezentujący stratę modelu podczas konkretnej iteracji trenowania. Załóżmy na przykład, że funkcja straty to błąd średniokwadratowy. Załóżmy, że strata treningowa (średni błąd kwadratowy) w 10 iteracji wynosi 2,2, a w 100 iteracji – 1,9.

Krzywa straty przedstawia stratę podczas trenowania w zależności od liczby iteracji. Krzywa straty zawiera następujące wskazówki dotyczące trenowania:

Spadek oznacza, że model się poprawia.
Wznosząca się linia oznacza, że model się pogarsza.
Płaska krzywa oznacza, że model osiągnął zbieżność.

Na przykład poniższa nieco wyidealizowana krzywa strat pokazuje:

Strome nachylenie w dół w początkowych iteracjach, co oznacza szybką poprawę modelu.
Stopniowo spłaszczająca się (ale nadal opadająca) krzywa aż do końca trenowania, co oznacza dalsze ulepszanie modelu w nieco wolniejszym tempie niż w początkowych iteracjach.
Płaski spadek pod koniec szkolenia, co sugeruje zbieżność.

Wykres straty trenowania w zależności od liczby iteracji. Ta krzywa strat zaczyna się od stromego spadku. Nachylenie stopniowo się spłaszcza, aż stanie się równe zero.

Chociaż strata podczas trenowania jest ważna, zobacz też uogólnianie.

Odpowiadanie na pytania z zakresu ciekawostek

#Dane

zbiory danych do oceny zdolności modelu LLM do odpowiadania na pytania dotyczące ciekawostek; Każdy zbiór danych zawiera pary pytań i odpowiedzi przygotowane przez miłośników quizów. Różne zbiory danych są oparte na różnych źródłach, w tym:

Wyszukiwanie w internecie (TriviaQA)
Wikipedia (TriviaQA_wiki)

Więcej informacji znajdziesz w artykule TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension (TriviaQA: duży zbiór danych do weryfikacji umiejętności czytania ze zrozumieniem, nadzorowany zdalnie).

wynik prawdziwie negatywny (TN)

#fundamentals

#Dane

Przykład, w którym model prawidłowo przewiduje klasę negatywną. Na przykład model wnioskuje, że dany e-mail nie jest spamem, i rzeczywiście nie jest spamem.

wynik prawdziwie pozytywny (TP),

#fundamentals

#Dane

Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Na przykład model wnioskuje, że dany e-mail to spam, i rzeczywiście tak jest.

współczynnik wyników prawdziwie pozytywnych (TPR)

#fundamentals

#Dane

Synonim słowa wycofanie. Czyli:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik wyników prawdziwie pozytywnych jest osią Y na krzywej ROC.

Typologically Diverse Question Answering (TyDi QA)

#Dane

Duży zbiór danych do oceny umiejętności modelu LLM w zakresie odpowiadania na pytania. Zbiór danych zawiera pary pytań i odpowiedzi w wielu językach.

Więcej informacji znajdziesz w artykule TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages (w języku angielskim).

V

strata weryfikacji,

#fundamentals

#Dane

Metryka reprezentująca stratę modelu w zbiorze weryfikacyjnym podczas konkretnej iteracji trenowania.

Zobacz też krzywą generalizacji.

ważność zmiennych,

#df

#Dane

Zestaw wyników, który wskazuje względne znaczenie każdej cechy dla modelu.

Weźmy na przykład drzewo decyzyjne, które szacuje ceny domów. Załóżmy, że to drzewo decyzyjne korzysta z 3 cech: rozmiaru, wieku i stylu. Jeśli zestaw ważności zmiennych dla 3 cech wynosi {rozmiar=5,8, wiek=2,5, styl=4,7}, to rozmiar jest ważniejszy dla drzewa decyzyjnego niż wiek czy styl.

Istnieją różne rodzaje danych o znaczeniu zmiennych, które mogą dostarczać ekspertom ds. uczenia maszynowego informacji o różnych aspektach modeli.

W

Funkcja straty Wassensteina

#Dane

Jedna z funkcji straty powszechnie stosowanych w generatywnych sieciach przeciwstawnych, oparta na odległości między rozkładami wygenerowanych i rzeczywistych danych.

WiC

#Dane

Skrót od Słowa w kontekście.

WikiLingua (wiki_lingua)

#Dane

Zbiór danych do oceny umiejętności modelu LLM w zakresie podsumowywania krótkich artykułów. WikiHow to encyklopedia artykułów wyjaśniających, jak wykonać różne zadania. Jest to źródło artykułów i podsumowań napisanych przez ludzi. Każdy wpis w zbiorze danych składa się z tych elementów:

Artykuł, który powstaje przez dodanie każdego kroku z wersji prozy (akapit) listy numerowanej, z wyjątkiem zdania otwierającego każdego kroku.
Podsumowanie artykułu składające się z pierwszego zdania każdego kroku na liście numerowanej.

Więcej informacji znajdziesz w artykule WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization (WikiLingua: nowy zbiór danych testowych do wielojęzycznego streszczania abstrakcyjnego).

Winograd Schema Challenge (WSC)

#Dane

Format (lub zbiór danych zgodny z tym formatem) do oceny zdolności LLM do określania frazy rzeczownikowej, do której odnosi się zaimek.

Każdy wpis w Winograd Schema Challenge składa się z tych elementów:

Krótki fragment zawierający zaimki docelowe
zaimek docelowy,
Kandydackie grupy nominalne, a następnie prawidłowa odpowiedź (wartość logiczna). Jeśli zaimek odnosi się do tego kandydata, odpowiedź to „Prawda”. Jeśli zaimek docelowy nie odnosi się do tego kandydata, odpowiedź to „False”.

Na przykład:

Fragment: Mark opowiedział Pete’owi wiele kłamstw o sobie, które Pete umieścił w swojej książce. Powinien był mówić więcej prawdy.
Zaimek docelowy: on
Kandydackie frazy rzeczownikowe:
- Mark: True, ponieważ zaimek docelowy odnosi się do Marka
- Pete: Fałsz, ponieważ zaimki docelowe nie odnoszą się do Petera.

Wyzwanie Winograd Schema Challenge jest częścią zespołu SuperGLUE.

Words in Context (WiC)

#Dane

Zbiór danych do oceny, jak dobrze LLM wykorzystuje kontekst do zrozumienia słów, które mają wiele znaczeń. Każdy wpis w zbiorze danych zawiera:

2 zdania, z których każde zawiera słowo docelowe.
słowo docelowe,
Prawidłowa odpowiedź (wartość logiczna), gdzie:
- „Prawda” oznacza, że słowo docelowe ma takie samo znaczenie w obu zdaniach.
- Fałsz oznacza, że słowo docelowe ma w obu zdaniach inne znaczenie.

Na przykład:

Dwa zdania:
- Na dnie rzeki jest dużo śmieci.
- Gdy śpię, mam obok łóżka szklankę wody.
Słowo docelowe: łóżko
Prawidłowa odpowiedź: fałsz, ponieważ słowo docelowe ma w tych dwóch zdaniach inne znaczenie.

Więcej informacji znajdziesz w artykule WiC: the Word-in-Context Dataset for Evaluating Context-Sensitive Meaning Representations.

Words in Context to komponent zespołu SuperGLUE.

WSC

#Dane

Skrót od Winograd Schema Challenge.

X

XL-Sum (xlsum)

#Dane

Zbiór danych do oceny umiejętności modelu LLM w zakresie podsumowywania tekstu. XL-Sum zawiera wpisy w wielu językach. Każdy wpis w zbiorze danych zawiera:

Artykuł pochodzący z British Broadcasting Company (BBC).
Podsumowanie artykułu napisane przez jego autora. Pamiętaj, że to podsumowanie może zawierać słowa lub wyrażenia, które nie występują w artykule.

Więcej informacji znajdziesz w artykule XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages (XL-Sum: podsumowywanie abstrakcyjne na dużą skalę w 44 językach).

Glosariusz terminów związanych z uczenie maszynowe: dane Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

A

dokładność

Kliknij ikonę, aby dowiedzieć się więcej o dokładności i zbiorach danych z niezrównoważonymi klasami.

obszar pod krzywą precyzji i czułości,

obszar pod krzywą charakterystyki operacyjnej odbiornika

AUC (obszar pod krzywą ROC)

Kliknij ikonę, aby dowiedzieć się więcej o zależności między krzywymi AUC i ROC.

Kliknij ikonę, aby wyświetlić bardziej formalną definicję AUC.

średnia precyzja przy k

Kliknij ikonę, aby zobaczyć przykład.

B

bazowa

Pytania logiczne (BoolQ)

BoolQ

C

CB

Wynik F1 dla n-gramów znakowych (ChrF)

Wybór wiarygodnych alternatyw (COPA)

CommitmentBank (CB)

COPA

koszt

obiektywność kontrfaktyczna,

entropia krzyżowa

dystrybuanta

D

parytet demograficzny

E

odległość przeniesienia ziemi (EMD)

odległość edycji,

empiryczna dystrybuanta (eCDF lub EDF)

entropia

równość szans,

wyrównane szanse

oceny

ocena

dopasowanie dokładne

Podsumowywanie ekstremalne (xsum)

P

F1

Aby zobaczyć przykłady, kliknij ikonę.

wskaźnik obiektywności,

wynik fałszywie negatywny (FN),

współczynnik wyników fałszywie negatywnych,

wynik fałszywie pozytywny (FP),

współczynnik wyników fałszywie pozytywnych (FPR),

znaczenie cech,

model podstawowy

odsetek sukcesów

G

zanieczyszczenie Giniego,

Kliknij ikonę, aby poznać szczegóły matematyczne dotyczące zanieczyszczenia Giniego.

H

funkcja straty hinge

I

brak spójnych wskaźników obiektywności,

sprawiedliwość indywidualna,

przyrost informacji

zgodność ocen

L

Utrata sygnału L1

Aby zobaczyć formalny zapis matematyczny, kliknij ikonę.

Funkcja straty L2

Aby zobaczyć formalny zapis matematyczny, kliknij ikonę.

Oceny LLM

strata

funkcja straty,

M

rozkład macierzy,

MBPP

Średni błąd bezwzględny (MAE)

Aby zobaczyć formalny zapis matematyczny, kliknij ikonę.

średnia precyzja przy k (mAP@k),

Kliknij ikonę, aby zobaczyć przykład.

Błąd średniokwadratowy (MSE)

Aby zobaczyć formalny zapis matematyczny, kliknij ikonę.

Kliknij ikonę, aby wyświetlić więcej informacji o wartościach odstających.

wskaźnik

Interfejs Metrics API (tf.metrics)

funkcja straty minimax

Glosariusz terminów związanych z uczenie maszynowe: dane

F₁

Utrata sygnału L₁

Funkcja straty L₂