Ta strona zawiera terminy z glosariusza danych. Aby wyświetlić wszystkie terminy z glosariusza, kliknij tutaj.
A
dokładność
Liczba prawidłowych prognoz klasyfikacji podzielona przez łączną liczbę prognoz. Czyli:
Na przykład model, który dokonał 40 prawidłowych i 10 nieprawidłowych prognoz, ma dokładność:
Klasyfikacja binarna podaje konkretne nazwy różnych kategorii prawidłowych prognoz i nieprawidłowych prognoz. Wzór na dokładność w przypadku klasyfikacji binarnej jest więc taki:
gdzie:
- TP to liczba wyników prawdziwie pozytywnych (poprawnych prognoz).
- TN to liczba wyników prawdziwie negatywnych (prawidłowych prognoz).
- FP to liczba wyników fałszywie pozytywnych (nieprawidłowych prognoz).
- FN to liczba wyników fałszywie negatywnych (nieprawidłowych prognoz).
Porównaj dokładność z precyzją i czułością.
Więcej informacji znajdziesz w sekcji Klasyfikacja: dokładność, czułość, precyzja i powiązane dane w kursie Machine Learning Crash Course.
obszar pod krzywą precyzji i czułości,
Zobacz PR AUC (obszar pod krzywą PR).
obszar pod krzywą charakterystyki operacyjnej odbiornika
Zobacz AUC (obszar pod krzywą ROC).
AUC (obszar pod krzywą ROC)
Liczba z zakresu od 0,0 do 1,0 reprezentująca zdolność modelu klasyfikacji binarnej do rozdzielania klas pozytywnych od klas negatywnych. Im bliżej wartości 1,0 jest AUC, tym lepiej model rozróżnia klasy.
Na przykład poniższa ilustracja przedstawia model klasyfikacji, który doskonale rozdziela klasy pozytywne (zielone owale) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie doskonały model ma wartość AUC równą 1,0:
Z kolei poniższa ilustracja przedstawia wyniki modelu klasyfikacji, który generował losowe wyniki. Ten model ma wartość AUC 0,5:
Tak, poprzedni model ma wartość AUC 0,5, a nie 0,0.
Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład poniższy model w pewnym stopniu rozdziela wartości pozytywne od negatywnych, dlatego ma wartość AUC między 0,5 a 1,0:
AUC ignoruje każdą wartość ustawioną dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi kwalifikacji.
Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.
średnia precyzja przy k
Miara podsumowująca skuteczność modelu w przypadku pojedynczego prompta, który generuje wyniki w postaci listy, np. listy rekomendacji książek. Średnia precyzja przy k to średnia wartości precyzji przy k dla każdego trafnego wyniku. Wzór na średnią precyzję przy k to:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
gdzie:
- \(n\) to liczba odpowiednich elementów na liście.
Porównaj z przypominaniem w momencie k.
B
bazowa
Model używany jako punkt odniesienia do porównywania skuteczności innego modelu (zwykle bardziej złożonego). Na przykład model regresji logistycznej może być dobrym modelem bazowym dla modelu głębokiego.
W przypadku konkretnego problemu wartość bazowa pomaga deweloperom modeli określić minimalną oczekiwaną skuteczność, jaką musi osiągnąć nowy model, aby był przydatny.
C
koszt
Synonim słowa strata.
obiektywność kontrfaktyczna,
Miara sprawiedliwości, która sprawdza, czy model klasyfikacji daje ten sam wynik w przypadku 2 osób, z których jedna jest identyczna z drugą, z wyjątkiem co najmniej jednego atrybutu chronionego. Ocena modelu klasyfikacji pod kątem obiektywności kontrfaktycznej to jedna z metod wykrywania potencjalnych źródeł uprzedzeń w modelu.
Więcej informacji znajdziesz w tych artykułach:
- Sprawiedliwość: sprawiedliwość kontrfaktyczna w szybkim szkoleniu z uczenia maszynowego.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
entropia krzyżowa
Uogólnienie funkcji straty logarytmicznej na problemy z klasyfikacją wieloklasową. Entropia krzyżowa określa różnicę między dwoma rozkładami prawdopodobieństwa. Zobacz też perplexity.
dystrybuanta
Funkcja, która określa częstotliwość próbek mniejszą lub równą wartości docelowej. Rozważmy na przykład rozkład normalny wartości ciągłych. Dystrybuanta informuje, że około 50% próbek powinno być mniejszych lub równych średniej, a około 84% próbek powinno być mniejszych lub równych odchyleniu standardowemu powyżej średniej.
D
parytet demograficzny
Metryka sprawiedliwości, która jest spełniona, jeśli wyniki klasyfikacji modelu nie zależą od danego atrybutu wrażliwego.
Jeśli na przykład zarówno Liliputanie, jak i Brobdingnagianie ubiegają się o przyjęcie na Uniwersytet Glubbdubdrib, równość demograficzna jest osiągana, gdy odsetek przyjętych Liliputanów jest taki sam jak odsetek przyjętych Brobdingnagian, niezależnie od tego, czy jedna grupa jest średnio bardziej wykwalifikowana od drugiej.
Kontrastuje to z wyrównanymi szansami i równością szans, które dopuszczają, aby wyniki klasyfikacji w agregacji zależały od atrybutów wrażliwych, ale nie dopuszczają, aby wyniki klasyfikacji dla określonych etykiet prawdziwych danych zależały od atrybutów wrażliwych. Więcej informacji znajdziesz w artykule „Walka z dyskryminacją za pomocą inteligentniejszych systemów uczących się”, w którym znajdziesz wizualizację przedstawiającą kompromisy przy optymalizacji pod kątem równości demograficznej.
Więcej informacji znajdziesz w sekcji Sprawiedliwość: równość demograficzna w szybkim szkoleniu z uczenia maszynowego.
E
odległość przeniesienia ziemi (EMD),
Miara względnego podobieństwa dwóch rozkładów. Im mniejsza odległość między rozkładami, tym są one bardziej podobne.
odległość edycji,
Miara podobieństwa dwóch ciągów tekstowych. W uczeniu maszynowym odległość edycji jest przydatna z tych powodów:
- Odległość edycji jest łatwa do obliczenia.
- Odległość edycji może porównywać dwa ciągi, o których wiadomo, że są do siebie podobne.
- Odległość edycji może określać stopień podobieństwa różnych ciągów znaków do danego ciągu.
Istnieje kilka definicji odległości edycji, z których każda wykorzystuje inne operacje na ciągach znaków. Przykład znajdziesz w artykule Odległość Levenshteina.
empiryczna dystrybuanta (eCDF lub EDF)
Dystrybuanta na podstawie pomiarów empirycznych z rzeczywistego zbioru danych. Wartość funkcji w dowolnym punkcie osi X to ułamek obserwacji w zbiorze danych, które są mniejsze lub równe określonej wartości.
entropia
W teorii informacji jest to opis tego, jak nieprzewidywalny jest rozkład prawdopodobieństwa. Entropia jest też definiowana jako ilość informacji zawartych w każdym przykładzie. Rozkład ma najwyższą możliwą entropię, gdy wszystkie wartości zmiennej losowej są jednakowo prawdopodobne.
Entropia zbioru z 2 możliwymi wartościami „0” i „1” (np. etykietami w problemie klasyfikacji binarnej) ma następujący wzór:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
gdzie:
- H to entropia.
- p to ułamek przykładów „1”.
- q to ułamek przykładów „0”. Pamiętaj, że q = (1 – p).
- log to zwykle log2. W tym przypadku jednostką entropii jest bit.
Załóżmy na przykład, że:
- 100 przykładów zawiera wartość „1”
- 300 przykładów zawiera wartość „0”
Wartość entropii wynosi więc:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bita na przykład
Zbiór, który jest doskonale zrównoważony (np.200 zer i 200 jedynek), ma entropię 1,0 bita na przykład. W miarę jak zbiór staje się bardziej niezrównoważony, jego entropia zbliża się do 0,0.
W drzewach decyzyjnych entropia pomaga formułować przyrost informacji, aby rozdzielacz mógł wybierać warunki podczas tworzenia drzewa decyzyjnego klasyfikacji.
Porównaj entropię z:
- zanieczyszczenie Giniego
- funkcja straty entropii krzyżowej,
Entropia jest często nazywana entropią Shannona.
Więcej informacji znajdziesz w sekcji Exact splitter for binary classification with numerical features (Dokładny rozdzielacz do klasyfikacji binarnej z cechami numerycznymi) w kursie Decision Forests.
równość szans,
Wskaźnik sprawiedliwości, który pozwala ocenić, czy model prognozuje pożądany wynik równie dobrze dla wszystkich wartości wrażliwego atrybutu. Inaczej mówiąc, jeśli pożądanym wynikiem modelu jest klasa pozytywna, celem jest uzyskanie takiej samej liczby prawdziwie pozytywnych wyników dla wszystkich grup.
Równość szans jest związana z wyrównaniem szans, co wymaga, aby zarówno współczynniki wyników prawdziwie pozytywnych, jak i współczynniki wyników fałszywie pozytywnych były takie same dla wszystkich grup.
Załóżmy, że Uniwersytet Glubbdubdrib przyjmuje do wymagającego programu matematycznego zarówno Liliputów, jak i Brobdingnagów. Szkoły średnie w Lillipucie oferują rozbudowany program nauczania matematyki, a większość uczniów kwalifikuje się do programu uniwersyteckiego. W szkołach średnich Brobdingnagian nie ma zajęć z matematyki, w związku z czym znacznie mniej uczniów ma odpowiednie kwalifikacje. Równość szans jest zachowana w przypadku preferowanej etykiety „przyjęty” w odniesieniu do narodowości (Liliput lub Brobdingnag), jeśli kwalifikujący się uczniowie mają takie samo prawdopodobieństwo przyjęcia niezależnie od tego, czy są Liliputami, czy Brobdingnagami.
Załóżmy na przykład, że na Uniwersytet Glubbdubdrib zgłasza się 100 Liliputów i 100 Brobdingnagów, a decyzje o przyjęciu są podejmowane w ten sposób:
Tabela 1. Kandydaci z Lilliput (90% z nich spełnia wymagania)
Zakwalifikowany | Niezakwalifikowany | |
---|---|---|
Przyjęto | 45 | 3 |
Odrzucono | 45 | 7 |
Łącznie | 90 | 10 |
Odsetek przyjętych uczniów spełniających kryteria: 45/90 = 50% Odsetek odrzuconych uczniów niespełniających kryteriów: 7/10 = 70% Łączny odsetek przyjętych uczniów z Lilliputu: (45+3)/100 = 48% |
Tabela 2. Kandydaci z Brobdingnagu (10% – kwalifikujący się):
Zakwalifikowany | Niezakwalifikowany | |
---|---|---|
Przyjęto | 5 | 9 |
Odrzucono | 5 | 81 |
Łącznie | 10 | 90 |
Odsetek przyjętych uczniów spełniających kryteria: 5/10 = 50% Odsetek odrzuconych uczniów niespełniających kryteriów: 81/90 = 90% Łączny odsetek przyjętych uczniów z Brobdingnagu: (5+9)/100 = 14% |
Powyższe przykłady spełniają warunek równości szans w przypadku przyjęcia wykwalifikowanych uczniów, ponieważ wykwalifikowani Liliputanie i Brobdingnagianie mają 50% szans na przyjęcie.
Chociaż równość szans jest spełniona, te 2 kryteria obiektywności nie są spełnione:
- parytet demograficzny: Liliputanie i Brobdingnagianie są przyjmowani na uniwersytet w różnym tempie; 48% uczniów z Liliputu jest przyjmowanych, ale tylko 14% uczniów z Brobdingnagu.
- Równe szanse: chociaż kwalifikujący się uczniowie z Lilliputu i Brobdingnagu mają takie same szanse na przyjęcie, dodatkowe ograniczenie, że niekwalifikujący się uczniowie z Lilliputu i Brobdingnagu mają takie same szanse na odrzucenie, nie jest spełnione. W przypadku osób niekwalifikujących się do kategorii Liliputów odsetek odrzuceń wynosi 70%, a w przypadku osób niekwalifikujących się do kategorii Brobdingnagów – 90%.
Więcej informacji znajdziesz w sekcji Sprawiedliwość: równość szans w Szybkim szkoleniu z uczenia maszynowego.
wyrównane szanse
Wskaźnik sprawiedliwości, który pozwala ocenić, czy model prognozuje wyniki równie dobrze dla wszystkich wartości wrażliwego atrybutu w odniesieniu do klasy pozytywnej i klasy negatywnej, a nie tylko jednej z nich. Innymi słowy, zarówno współczynnik wyników prawdziwie dodatnich, jak i współczynnik wyników fałszywie ujemnych powinny być takie same w przypadku wszystkich grup.
Wyrównane szanse są powiązane z równością szans, która koncentruje się tylko na odsetku błędów w przypadku jednej klasy (pozytywnej lub negatywnej).
Załóżmy na przykład, że Uniwersytet Glubbdubdrib przyjmuje do wymagającego programu matematycznego zarówno Liliputów, jak i Brobdingnagów. Szkoły średnie w Lilliput oferują bogaty program nauczania matematyki, a większość uczniów kwalifikuje się do programu uniwersyteckiego. W szkołach średnich w Brobdingnagu nie ma zajęć z matematyki, więc znacznie mniej uczniów ma odpowiednie kwalifikacje. Warunek wyrównanych szans jest spełniony, jeśli niezależnie od tego, czy kandydat jest Liliputem, czy Brobdingnagiem, jeśli ma odpowiednie kwalifikacje, ma takie samo prawdopodobieństwo przyjęcia do programu, a jeśli nie ma odpowiednich kwalifikacji, ma takie samo prawdopodobieństwo odrzucenia.
Załóżmy, że na Uniwersytet Glubbdubdrib zgłasza się 100 Liliputów i 100 Brobdingnagów, a decyzje o przyjęciu są podejmowane w ten sposób:
Tabela 3. Kandydaci z Lilliput (90% z nich spełnia wymagania)
Zakwalifikowany | Niezakwalifikowany | |
---|---|---|
Przyjęto | 45 | 2 |
Odrzucono | 45 | 8 |
Łącznie | 90 | 10 |
Odsetek przyjętych uczniów spełniających kryteria: 45/90 = 50% Odsetek odrzuconych uczniów niespełniających kryteriów: 8/10 = 80% Łączny odsetek przyjętych uczniów z Lilliputu: (45+2)/100 = 47% |
Tabela 4. Kandydaci z Brobdingnagu (10% – kwalifikujący się):
Zakwalifikowany | Niezakwalifikowany | |
---|---|---|
Przyjęto | 5 | 18 |
Odrzucono | 5 | 72 |
Łącznie | 10 | 90 |
Odsetek przyjętych uczniów spełniających kryteria: 5/10 = 50% Odsetek odrzuconych uczniów niespełniających kryteriów: 72/90 = 80% Łączny odsetek przyjętych uczniów z Brobdingnagu: (5+18)/100 = 23% |
Warunek wyrównanych szans jest spełniony, ponieważ kwalifikujący się studenci z Lilliputu i Brobdingnagu mają 50% szans na przyjęcie, a niekwalifikujący się studenci z Lilliputu i Brobdingnagu mają 80% szans na odrzucenie.
Wyrównane szanse są formalnie zdefiniowane w artykule „Equality of Opportunity in Supervised Learning” w ten sposób: „predyktor Ŷ spełnia warunek wyrównanych szans w odniesieniu do atrybutu chronionego A i wyniku Y, jeśli Ŷ i A są niezależne pod warunkiem Y”.
oceny,
Używany głównie jako skrót od ocen modeli LLM. Ogólnie rzecz biorąc, oceny to skrót od dowolnej formy oceny.
ocena
Proces pomiaru jakości modelu lub porównywania różnych modeli ze sobą.
Aby ocenić nadzorowany model uczenia maszynowego, zwykle porównujesz go ze zbiorem walidacyjnym i zbiorem testowym. Ocena dużego modelu językowego zwykle obejmuje szersze oceny jakości i bezpieczeństwa.
P
F1
Wskaźnik klasyfikacji binarnej, który opiera się na precyzji i czułości. Oto wzór:
wskaźnik obiektywności,
Matematyczna definicja „obiektywności”, którą można zmierzyć. Do najczęściej używanych wskaźników sprawiedliwości należą:
Wiele wskaźników obiektywności wzajemnie się wyklucza. Więcej informacji znajdziesz w sekcji Brak spójnych wskaźników obiektywności.
wynik fałszywie negatywny (FN),
Przykład, w którym model błędnie przewiduje klasę negatywną. Na przykład model przewiduje, że dana wiadomość e-mail nie jest spamem (klasa negatywna), ale w rzeczywistości jest spamem.
współczynnik wyników fałszywie negatywnych,
Odsetek rzeczywistych przykładów pozytywnych, dla których model błędnie przewidział klasę negatywną. Współczynnik fałszywie negatywnych wyników oblicza się według tego wzoru:
Więcej informacji znajdziesz w sekcji Progi i macierz pomyłek w szybkim szkoleniu z uczenia maszynowego.
wynik fałszywie pozytywny (FP),
Przykład, w którym model błędnie przewiduje klasę pozytywną. Na przykład model przewiduje, że dana wiadomość e-mail to spam (klasa pozytywna), ale w rzeczywistości nie jest to spam.
Więcej informacji znajdziesz w sekcji Progi i macierz pomyłek w szybkim szkoleniu z uczenia maszynowego.
współczynnik wyników fałszywie pozytywnych (FPR),
Odsetek rzeczywistych przykładów negatywnych, dla których model błędnie przewidział klasę pozytywną. Współczynnik fałszywie dodatnich wyników oblicza się według tego wzoru:
Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.
Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.
znaczenie cech,
Synonim terminu znaczenie zmiennych.
model podstawowy
Bardzo duży wytrenowany model, który został wytrenowany na ogromnym i zróżnicowanym zbiorze treningowym. Model podstawowy może wykonywać obie te czynności:
- dobrze reagować na szeroki zakres żądań,
- Służyć jako model podstawowy do dodatkowego dostrajania lub innego dostosowywania.
Innymi słowy, model podstawowy ma już duże możliwości w ogólnym sensie, ale można go dodatkowo dostosować, aby był jeszcze bardziej przydatny w konkretnym zadaniu.
odsetek sukcesów
Wskaźnik oceny wygenerowanego tekstu modelu ML. Ułamek sukcesów to liczba „udanych” wygenerowanych wyników tekstowych podzielona przez łączną liczbę wygenerowanych wyników tekstowych. Jeśli na przykład duży model językowy wygenerował 10 bloków kodu, z których 5 zostało wykonanych prawidłowo, odsetek sukcesów wyniesie 50%.
Chociaż odsetek sukcesów jest ogólnie przydatny w statystyce, w uczeniu maszynowym ten wskaźnik jest przydatny głównie do pomiaru zadań weryfikowalnych, takich jak generowanie kodu lub rozwiązywanie problemów matematycznych.
G
zanieczyszczenie Giniego,
Dane podobne do entropii. Rozdzielacze używają wartości pochodzących z nieczystości Giniego lub entropii do tworzenia warunków klasyfikacji drzew decyzyjnych. Przyrost informacji jest obliczany na podstawie entropii. Nie ma powszechnie akceptowanego odpowiednika terminu dla danych pochodnych z nieczystości Giniego, ale te nienazwane dane są równie ważne jak przyrost informacji.
Zanieczyszczenie Giniego jest też nazywane wskaźnikiem Giniego lub po prostu gini.
H
funkcja straty zawiasu,
Rodzina funkcji strat do klasyfikacji, która ma na celu znalezienie granicy decyzyjnej jak najdalej od każdego przykładu treningowego, co maksymalizuje margines między przykładami a granicą. KSVM używają funkcji straty zawiasowej (lub powiązanej funkcji, np. kwadratowej funkcji straty zawiasowej). W przypadku klasyfikacji binarnej funkcja straty zawiasowej jest zdefiniowana w ten sposób:
gdzie y to prawdziwa etykieta, czyli -1 lub +1, a y' to surowe dane wyjściowe modelu klasyfikacji:
W związku z tym wykres funkcji straty zawiasowej w zależności od (y * y') wygląda tak:
I
brak spójnych wskaźników obiektywności,
Koncepcja, że niektóre pojęcia obiektywności są wzajemnie niekompatybilne i nie można ich spełnić jednocześnie. Dlatego nie ma jednego uniwersalnego wskaźnika, który można by zastosować do wszystkich problemów związanych z uczeniem maszynowym.
Może to zniechęcać, ale brak spójnych wskaźników obiektywności nie oznacza, że działania na rzecz obiektywności są bezcelowe. Zamiast tego sugeruje, że obiektywność musi być definiowana w kontekście danego problemu ML, aby zapobiegać szkodom związanym z jego przypadkami użycia.
Więcej informacji o braku spójnych wskaźników obiektywności znajdziesz w artykule „(Nie)możliwość obiektywności”.
sprawiedliwość indywidualna,
Miara sprawiedliwości, która sprawdza, czy podobne osoby są klasyfikowane w podobny sposób. Na przykład Akademia Brobdingnagian może chcieć spełnić kryterium sprawiedliwości indywidualnej, zapewniając, że dwóch uczniów z identycznymi ocenami i wynikami testów standaryzowanych ma takie samo prawdopodobieństwo przyjęcia.
Pamiętaj, że sprawiedliwość indywidualna zależy całkowicie od tego, jak zdefiniujesz „podobieństwo” (w tym przypadku oceny i wyniki testów). Jeśli wskaźnik podobieństwa nie uwzględnia ważnych informacji (np. poziomu trudności programu nauczania), możesz wprowadzić nowe problemy związane ze sprawiedliwością.
Więcej informacji o sprawiedliwości indywidualnej znajdziesz w artykule „Fairness Through Awareness”.
przyrost informacji
W lasach decyzyjnych różnica między entropią węzła a ważoną (według liczby przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.
Rozważmy na przykład te wartości entropii:
- entropia węzła nadrzędnego = 0,6
- entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2.
- entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1
40% przykładów znajduje się w jednym węźle podrzędnym, a 60% – w drugim. Dlatego:
- ważona suma entropii węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Zatem przyrost informacji wynosi:
- przyrost informacji = entropia węzła nadrzędnego – ważona suma entropii węzłów podrzędnych
- przyrost informacji = 0,6 – 0,14 = 0,46
Większość rozdzielaczy dąży do tworzenia warunków, które maksymalizują przyrost informacji.
zgodność ocen
Miara częstotliwości, z jaką weryfikatorzy zgadzają się ze sobą podczas wykonywania zadania. Jeśli oceniający nie zgadzają się ze sobą, może być konieczne ulepszenie instrukcji zadania. Czasami nazywana też zgodnością między oceniającymi lub wiarygodnością między oceniającymi. Zobacz też współczynnik kappa Cohena, który jest jednym z najpopularniejszych wskaźników zgodności ocen.
Więcej informacji znajdziesz w sekcji Dane kategorialne: typowe problemy w kursie Machine Learning Crash Course.
L
Utrata sygnału L1
Funkcja straty, która oblicza wartość bezwzględną różnicy między rzeczywistymi wartościami etykiet a wartościami przewidywanymi przez model. Na przykład poniżej przedstawiamy obliczenia utraty L1 dla partii 5 przykładów:
Rzeczywista wartość przykładu | Wartość prognozowana przez model | Wartość bezwzględna różnicy |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = utrata L1 |
Funkcja straty L1 jest mniej wrażliwa na wartości odstające niż funkcja straty L2.
Średni błąd bezwzględny to średnia strata L1 na przykład.
Więcej informacji znajdziesz w sekcji Regresja liniowa: funkcja straty w kursie Machine Learning Crash Course.
Funkcja straty L2
Funkcja straty, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiet a wartościami przewidywanymi przez model. Oto przykład obliczania straty L2 dla partii pięciu przykładów:
Rzeczywista wartość przykładu | Wartość prognozowana przez model | Kwadrat delty |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = L2 przegrana |
Ze względu na podnoszenie do kwadratu funkcja straty L2 wzmacnia wpływ wartości odstających. Oznacza to, że funkcja straty L2 reaguje silniej na nieprawidłowe prognozy niż funkcja straty L1. Na przykład funkcja straty L1 dla poprzedniej partii wyniesie 8, a nie 16. Zwróć uwagę, że 1 wartość odstająca odpowiada 9 z 16 wartości.
Modele regresji zwykle używają funkcji utraty L2.
Błąd średniokwadratowy to średnia strata L2 na przykład. Strata kwadratowa to inna nazwa straty L2.
Więcej informacji znajdziesz w sekcji Regresja logistyczna: funkcja straty i regularyzacja w kursie Machine Learning Crash Course.
Oceny LLM
Zestaw danych i punktów odniesienia do oceny wydajności dużych modeli językowych (LLM). Ogólnie rzecz biorąc, oceny LLM:
- pomagać badaczom w określaniu obszarów, w których modele LLM wymagają ulepszeń;
- Przydają się do porównywania różnych LLM i określania, który z nich najlepiej nadaje się do konkretnego zadania.
- pomagać w zapewnieniu bezpieczeństwa i etycznego charakteru modeli LLM;
Więcej informacji znajdziesz w szybkim szkoleniu z uczenia maszynowego w sekcji Duże modele językowe (LLM).
przegrana
Podczas trenowania modelu nadzorowanego mierzy się, jak bardzo prognoza modelu odbiega od jego etykiety.
Funkcja straty oblicza stratę.
Więcej informacji znajdziesz w sekcji Regresja liniowa: funkcja straty w kursie Machine Learning Crash Course.
funkcja straty,
Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę na partii przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które generują dobre prognozy, niż w przypadku modeli, które generują złe prognozy.
Celem trenowania jest zwykle minimalizowanie straty zwracanej przez funkcję straty.
Istnieje wiele różnych rodzajów funkcji straty. Wybierz odpowiednią funkcję straty dla rodzaju tworzonego modelu. Na przykład:
- Funkcja straty L2 (lub średnia kwadratowa błędów) to funkcja straty dla regresji liniowej.
- Log Loss to funkcja straty dla regresji logistycznej.
M
Średni błąd bezwzględny (MAE)
Średnia utrata na przykład, gdy używana jest utrata 1. Średni błąd bezwzględny obliczany jest w ten sposób:
- Obliczanie straty L1 dla partii.
- Podziel wartość funkcji straty L1 przez liczbę przykładów w partii.
Rozważmy na przykład obliczenie funkcji straty L1 na podstawie poniższej partii 5 przykładów:
Rzeczywista wartość przykładu | Wartość prognozowana przez model | Strata (różnica między wartością rzeczywistą a przewidywaną) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = utrata L1 |
W tym przypadku wartość funkcji straty L1 wynosi 8, a liczba przykładów to 5. Średni błąd bezwzględny wynosi więc:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Porównaj średni błąd bezwzględny z błędem średniokwadratowym i średnią kwadratową błędów.
średnia precyzja przy k (mAP@k),
Średnia statystyczna wszystkich wyników średniej precyzji przy k w zbiorze danych do weryfikacji. Średnia precyzja przy k jest używana do oceny jakości rekomendacji generowanych przez system rekomendacji.
Chociaż wyrażenie „średnia arytmetyczna” brzmi redundantnie, nazwa wskaźnika jest odpowiednia. W końcu ten wskaźnik oblicza średnią z wielu wartości średniej precyzji przy k.
Błąd średniokwadratowy (MSE)
Średnia utrata na przykład, gdy używana jest utrata 2. Oblicz błąd średniokwadratowy w ten sposób:
- Oblicz stratę L2 dla partii.
- Podziel utratę L2 przez liczbę przykładów w partii.
Rozważmy na przykład utratę w przypadku tej partii 5 przykładów:
Rzeczywista wartość | Prognoza modelu | Strata | Strata kwadratowa |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = L2 przegrana |
Dlatego błąd średniokwadratowy wynosi:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
Błąd średniokwadratowy to popularny optymalizator trenowania, szczególnie w przypadku regresji liniowej.
Porównaj błąd średniokwadratowy ze średnim błędem bezwzględnym i średnią kwadratową błędów.
TensorFlow Playground używa średniego błędu kwadratowego do obliczania wartości funkcji straty.
wskaźnik
statystyka, na której Ci zależy;
Cel to wskaźnik, który system uczący się próbuje zoptymalizować.
Interfejs Metrics API (tf.metrics)
Interfejs TensorFlow API do oceny modeli. Na przykład tf.metrics.accuracy
określa, jak często prognozy modelu są zgodne z etykietami.
funkcja straty minimax
Funkcja straty dla generatywnych sieci przeciwstawnych na podstawie entropii krzyżowej między rozkładem wygenerowanych danych a rzeczywistych danych.
W pierwszym artykule opisującym generatywne sieci przeciwstawne użyto funkcji straty minimax.
Więcej informacji znajdziesz w sekcji Funkcje straty w kursie Generative Adversarial Networks.
pojemność modelu,
Złożoność problemów, których model może się nauczyć. Im bardziej złożone problemy model może rozwiązywać, tym większa jest jego pojemność. Pojemność modelu zwykle rośnie wraz z liczbą jego parametrów. Formalną definicję pojemności modelu klasyfikacji znajdziesz w sekcji Wymiar VC.
N
klasa wyników negatywnych,
W klasyfikacji binarnej jedna klasa jest określana jako pozytywna, a druga jako negatywna. Klasa pozytywna to rzecz lub zdarzenie, które model testuje, a klasa negatywna to inna możliwość. Na przykład:
- Klasa negatywna w teście medycznym może oznaczać „brak guza”.
- Klasa negatywna w modelu klasyfikacji e-maili może być oznaczona jako „nie spam”.
W przeciwieństwie do klasy wyników pozytywnych.
O
cel
Wskaźnik, który algorytm próbuje zoptymalizować.
funkcja celu
Formuła matematyczna lub dane, które model ma optymalizować. Na przykład funkcja celu w przypadku regresji liniowej to zwykle średnia kwadratowa strata. Dlatego podczas trenowania modelu regresji liniowej celem jest zminimalizowanie straty średniokwadratowej.
W niektórych przypadkach celem jest maksymalizacja funkcji celu. Jeśli np. funkcja celu to dokładność, celem jest jej maksymalizacja.
Zobacz też utratę.
P
pass at k (pass@k)
Metryka określająca jakość kodu (np. w języku Python) generowanego przez duży model językowy. W szczególności wartość k informuje o prawdopodobieństwie, że co najmniej 1 z k wygenerowanych bloków kodu przejdzie wszystkie testy jednostkowe.
Duże modele językowe często mają trudności z generowaniem dobrego kodu w przypadku złożonych problemów programistycznych. Inżynierowie oprogramowania radzą sobie z tym problemem, prosząc duży model językowy o wygenerowanie wielu (k) rozwiązań tego samego problemu. Następnie inżynierowie oprogramowania testują każde rozwiązanie za pomocą testów jednostkowych. Obliczenie wyniku testu na poziomie k zależy od wyników testów jednostkowych:
- Jeśli co najmniej jedno z tych rozwiązań przejdzie test jednostkowy, LLM przejdzie to wyzwanie związane z generowaniem kodu.
- Jeśli żadne z rozwiązań nie przejdzie testu jednostkowego, LLM nie zaliczy tego zadania związanego z generowaniem kodu.
Formuła dla przepustki na poziomie k wygląda tak:
\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]
Ogólnie wyższe wartości k dają wyższe wyniki testu Pass@k, ale wymagają większych zasobów dużego modelu językowego i testów jednostkowych.
występ
Termin o wielu znaczeniach:
- Standardowe znaczenie w inżynierii oprogramowania. Chodzi o to, jak szybko (lub wydajnie) działa to oprogramowanie.
- Znaczenie w uczeniu maszynowym. Skuteczność odpowiada na pytanie: jak dokładny jest ten model? Czyli jak dobre są prognozy modelu?
permutacyjna ważność zmiennych
Rodzaj znaczenia zmiennej, który ocenia wzrost błędu prognozy modelu po przestawieniu wartości cechy. Permutacyjna ważność zmiennych to niezależny od modelu wskaźnik.
perplexity
Miara tego, jak dobrze model wykonuje swoje zadanie. Załóżmy na przykład, że Twoim zadaniem jest odczytanie kilku pierwszych liter słowa, które użytkownik wpisuje na klawiaturze telefonu, i zaproponowanie listy możliwych słów do dokończenia. Złożoność P w tym przypadku to w przybliżeniu liczba propozycji, które musisz podać, aby na liście znalazło się słowo, które użytkownik próbuje wpisać.
Złożoność jest powiązana z entropią krzyżową w ten sposób:
klasa wyników pozytywnych,
Klasa, dla której przeprowadzasz test.
Na przykład klasą pozytywną w modelu do wykrywania raka może być „guz”. Klasą pozytywną w modelu klasyfikacji e-maili może być „spam”.
Porównaj z klasą wyników negatywnych.
PR AUC (obszar pod krzywą PR)
Obszar pod interpolowaną krzywą precyzji i czułości, uzyskany przez wykreślenie punktów (czułość, precyzja) dla różnych wartości progu klasyfikacji.
precyzja
Miara dla modeli klasyfikacji, która odpowiada na to pytanie:
Gdy model przewidział klasę pozytywną, jaki odsetek prognoz był prawidłowy?
Oto wzór:
gdzie:
- Prawdziwie pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
- Wynik fałszywie pozytywny oznacza, że model błędnie przewidział klasę pozytywną.
Załóżmy na przykład, że model wygenerował 200 prognoz pozytywnych. Z tych 200 pozytywnych prognoz:
- 150 z nich to wyniki prawdziwie pozytywne.
- 50 z nich to wyniki fałszywie pozytywne.
W tym przypadku:
Porównaj z dokładnością i czułością.
Więcej informacji znajdziesz w sekcji Klasyfikacja: dokładność, czułość, precyzja i powiązane dane w kursie Machine Learning Crash Course.
precyzja przy k (precision@k)
Rodzaj danych do oceny uporządkowanej listy elementów. Precyzja przy k określa ułamek pierwszych k elementów na liście, które są „trafne”. Czyli:
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
Wartość parametru k musi być mniejsza lub równa długości zwróconej listy. Pamiętaj, że długość zwróconej listy nie jest uwzględniana w obliczeniach.
Trafność jest często subiektywna. Nawet ludzie oceniający jakość często nie zgadzają się co do tego, które elementy są trafne.
Porównaj z:
krzywej precyzji i czułości
Krzywa precyzji w porównaniu z czułością przy różnych progach klasyfikacji.
błąd prognozy,
Wartość wskazująca, jak bardzo średnia prognoz różni się od średniej etykiet w zbiorze danych.
Nie należy go mylić z wyrazem obciążającym w modelach uczenia maszynowego ani z uprzedzeniami w kontekście etyki i uczciwości.
równość prognoz
Wskaźnik obiektywności, który sprawdza, czy w przypadku danego modelu klasyfikacji wartości precyzji są równoważne w przypadku rozpatrywanych podgrup.
Na przykład model, który przewiduje przyjęcie do college'u, spełniałby warunek równości predykcyjnej w przypadku narodowości, gdyby jego wskaźnik precyzji był taki sam w przypadku Liliputów i Brobdingnagów.
Równość cen prognozowanych jest czasami nazywana równością cen prognozowanych.
Więcej informacji o równości predykcyjnej znajdziesz w sekcji 3.2.1 artykułu „Wyjaśnienie definicji sprawiedliwości”.
prognozowana równość cen
Inna nazwa równości predykcyjnej.
funkcja gęstości prawdopodobieństwa
Funkcja, która określa częstotliwość występowania próbek danych o dokładnie określonej wartości. Gdy wartości zbioru danych są ciągłymi liczbami zmiennoprzecinkowymi, dokładne dopasowania występują rzadko. Jednak całkowanie funkcji gęstości prawdopodobieństwa od wartości x
do wartości y
daje oczekiwaną częstotliwość próbek danych między x
a y
.
Rozważmy na przykład rozkład normalny o średniej 200 i odchyleniu standardowym 30. Aby określić oczekiwaną częstotliwość próbek danych mieszczących się w zakresie od 211,4 do 218,7, możesz scałkować funkcję gęstości prawdopodobieństwa rozkładu normalnego w zakresie od 211,4 do 218,7.
R
wycofanie
Miara dla modeli klasyfikacji, która odpowiada na to pytanie:
Gdy dane podstawowe należały do klasy pozytywnej, jaki odsetek prognoz został przez model prawidłowo zaklasyfikowany jako klasa pozytywna?
Oto wzór:
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
gdzie:
- Prawdziwie pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
- Fałszywie negatywny wynik oznacza, że model błędnie przewidział klasę negatywną.
Załóżmy na przykład, że model dokonał 200 prognoz na podstawie przykładów, w których prawdziwa klasa to klasa pozytywna. Z tych 200 prognoz:
- 180 z nich to wyniki prawdziwie pozytywne.
- 20 z nich to wyniki fałszywie negatywne.
W tym przypadku:
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane dane.
czułość przy k (recall@k)
Miara oceny systemów, które generują uporządkowaną listę elementów. Wartość k w przypadku miary Recall określa odsetek trafnych elementów w pierwszych k elementach na liście w stosunku do łącznej liczby zwróconych trafnych elementów.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
Kontrast z precyzją przy k.
Krzywa charakterystyki operacyjnej odbiornika (ROC)
Wykres przedstawiający odsetek prawdziwie pozytywnych wyników w porównaniu z odsetkiem fałszywie pozytywnych wyników dla różnych progów klasyfikacji w klasyfikacji binarnej.
Kształt krzywej ROC wskazuje na zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od negatywnych. Załóżmy na przykład, że binarny model klasyfikacji doskonale oddziela wszystkie klasy negatywne od wszystkich klas pozytywnych:
Krzywa ROC poprzedniego modelu wygląda tak:
Z kolei na poniższej ilustracji przedstawiono surowe wartości regresji logistycznej w przypadku bardzo słabego modelu, który w ogóle nie potrafi odróżnić klas negatywnych od pozytywnych:
Krzywa ROC tego modelu wygląda tak:
Tymczasem w rzeczywistości większość modeli klasyfikacji binarnej w pewnym stopniu rozdziela klasy pozytywne i negatywne, ale zwykle nie robi tego idealnie. Typowa krzywa ROC znajduje się więc gdzieś pomiędzy tymi dwoma skrajnościami:
Punkt na krzywej ROC najbliższy punktowi (0,0, 1,0) teoretycznie określa idealny próg klasyfikacji. Na wybór idealnego progu klasyfikacji wpływa jednak kilka innych problemów z rzeczywistego świata. Na przykład fałszywe negatywy mogą powodować znacznie więcej problemów niż fałszywe pozytywy.
Wskaźnik liczbowy o nazwie AUC podsumowuje krzywą ROC w postaci pojedynczej wartości zmiennoprzecinkowej.
Średnia kwadratowa błędów (RMSE)
Pierwiastek kwadratowy z błędu średniokwadratowego.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Rodzina wskaźników, które oceniają modele automatycznego podsumowywania i tłumaczenia maszynowego. Wskaźniki ROUGE określają stopień, w jakim tekst referencyjny pokrywa się z wygenerowanym tekstem modelu ML. Każdy element rodziny ROUGE mierzy nakładanie się w inny sposób. Wyższe wyniki ROUGE wskazują na większe podobieństwo między tekstem referencyjnym a wygenerowanym niż niższe wyniki ROUGE.
Każdy element rodziny ROUGE generuje zwykle te dane:
- Precyzja
- Czułość
- F1
Szczegółowe informacje i przykłady znajdziesz w tych artykułach:
ROUGE-L
Wskaźnik z rodziny ROUGE, który koncentruje się na długości najdłuższego wspólnego podciągu w tekście referencyjnym i tekście wygenerowanym. Wartości przywołania i precyzji dla ROUGE-L są obliczane według tych wzorów:
Następnie możesz użyć wskaźnika F1, aby połączyć czułość ROUGE-L i precyzję ROUGE-L w jeden wskaźnik:
ROUGE-L ignoruje znaki nowego wiersza w tekście referencyjnym i wygenerowanym, więc najdłuższy wspólny podciąg może obejmować wiele zdań. Jeśli tekst referencyjny i wygenerowany składają się z wielu zdań, lepszym wskaźnikiem jest zwykle odmiana ROUGE-L o nazwie ROUGE-Lsum. Wskaźnik ROUGE-Lsum określa najdłuższy wspólny podciąg dla każdego zdania w fragmencie, a następnie oblicza średnią tych najdłuższych wspólnych podciągów.
ROUGE-N
Zestaw wskaźników z rodziny ROUGE, który porównuje wspólne n-gramy o określonym rozmiarze w tekście referencyjnym i tekście wygenerowanym. Na przykład:
- ROUGE-1 mierzy liczbę wspólnych tokenów w tekście referencyjnym i wygenerowanym.
- ROUGE-2 mierzy liczbę wspólnych bigramów (2-gramów) w tekście referencyjnym i wygenerowanym.
- ROUGE-3 mierzy liczbę wspólnych trigramów (3-gramów) w tekście referencyjnym i wygenerowanym.
Aby obliczyć wartość ROUGE-N dla dowolnego elementu rodziny ROUGE-N, możesz użyć tych wzorów:
Następnie możesz użyć wskaźnika F1, aby połączyć czułość i precyzję ROUGE-N w jeden wskaźnik:
ROUGE-S
Łagodna forma ROUGE-N, która umożliwia dopasowywanie skip-gramów. Oznacza to, że ROUGE-N zlicza tylko n-gramy, które są dokładnie dopasowane, ale ROUGE-S zlicza też n-gramy oddzielone co najmniej jednym słowem. Na przykład:
- tekst referencyjny: Białe chmury
- wygenerowany tekst: Białe, kłębiące się chmury
Podczas obliczania ROUGE-N 2-gram White clouds nie pasuje do White billowing clouds. Jednak podczas obliczania ROUGE-S fraza White clouds pasuje do frazy White billowing clouds.
R-kwadrat
Rodzaj danych regresji wskazujący, w jakim stopniu zmienność etykiety wynika z pojedynczej cechy lub zestawu cech. Wartość R-kwadrat mieści się w zakresie od 0 do 1 i można ją interpretować w ten sposób:
- Wartość R-kwadrat równa 0 oznacza, że żadna część zmienności etykiety nie jest spowodowana zestawem cech.
- Wartość R-kwadrat równa 1 oznacza, że wszystkie zmiany etykiety są spowodowane zestawem funkcji.
- Wartość R-kwadrat w zakresie od 0 do 1 określa, w jakim stopniu wariancję etykiety można przewidzieć na podstawie konkretnej cechy lub zestawu cech. Na przykład wartość R-kwadrat równa 0,10 oznacza, że 10% wariancji etykiety wynika z zestawu cech, a wartość R-kwadrat równa 0,20 oznacza, że 20% wariancji etykiety wynika z zestawu cech itd.
Wartość R kwadrat to kwadrat współczynnika korelacji Pearsona między wartościami prognozowanymi przez model a danymi podstawowymi.
S
ocena
Część systemu rekomendacji, która podaje wartość lub ranking każdego elementu wygenerowanego w fazie generowania kandydatów.
miara podobieństwa,
W algorytmach klastrowania jest to miara używana do określania, jak podobne są do siebie 2 przykłady.
rozproszenie
Liczba elementów ustawionych na zero (lub null) w wektorze lub macierzy podzielona przez łączną liczbę wpisów w tym wektorze lub macierzy. Załóżmy na przykład, że masz macierz ze 100 elementami, w której 98 komórek zawiera zero. Obliczenie rzadkości wygląda następująco:
Rzadkość cech odnosi się do rzadkości wektora cech, a rzadkość modelu – do rzadkości wag modelu.
kwadratowa funkcja straty zawiasu
Kwadrat straty hinge. Kwadratowa funkcja straty z zawiasem surowiej karze wartości odstające niż zwykła funkcja straty z zawiasem.
strata kwadratowa,
Synonim utratyL2.
T
strata testowa
Wartość reprezentująca stratę modelu w odniesieniu do zbioru testowego. Podczas tworzenia modelu zwykle starasz się zminimalizować utratę testową. Dzieje się tak, ponieważ niski błąd testowy jest silniejszym sygnałem jakości niż niski błąd trenowania lub niski błąd walidacji.
Duża różnica między stratą na zbiorze testowym a stratą na zbiorze treningowym lub walidacyjnym może czasami sugerować, że należy zwiększyć współczynnik regularyzacji.
dokładność top-k,
Odsetek przypadków, w których „etykieta docelowa” pojawia się na pierwszych k pozycjach wygenerowanych list. Listy mogą zawierać spersonalizowane rekomendacje lub listę produktów uporządkowanych według funkcji softmax.
Dokładność top-k jest też nazywana dokładnością przy k.
toksyczne
stopień, w jakim treści są obraźliwe, zawierają groźby lub są w inny sposób nieodpowiednie; Wiele modeli uczenia maszynowego potrafi identyfikować i mierzyć toksyczność. Większość tych modeli określa poziom toksyczności na podstawie wielu parametrów, takich jak poziom wulgaryzmów i poziom języka groźby.
strata podczas trenowania,
Wskaźnik reprezentujący stratę modelu podczas konkretnej iteracji trenowania. Załóżmy na przykład, że funkcja straty to średnia kwadratowa błędów. Załóżmy, że strata treningowa (średni błąd kwadratowy) w 10 iteracji wynosi 2,2, a w 100 iteracji – 1,9.
Krzywa straty przedstawia stratę podczas trenowania w zależności od liczby iteracji. Krzywa straty zawiera te wskazówki dotyczące trenowania:
- Spadek oznacza, że model się poprawia.
- Wznosząca się linia oznacza, że model się pogarsza.
- Płaska krzywa oznacza, że model osiągnął zbieżność.
Na przykład poniższa nieco wyidealizowana krzywa strat pokazuje:
- Strome nachylenie w dół w początkowych iteracjach, co oznacza szybką poprawę modelu.
- Stopniowo spłaszczająca się (ale nadal opadająca) krzywa aż do końca trenowania, co oznacza dalsze ulepszanie modelu w nieco wolniejszym tempie niż w początkowych iteracjach.
- Płaski spadek pod koniec trenowania, co sugeruje zbieżność.
Utrata podczas trenowania jest ważna, ale zobacz też uogólnianie.
wynik prawdziwie negatywny (TN),
Przykład, w którym model prawidłowo przewiduje klasę negatywną. Na przykład model wnioskuje, że dany e-mail nie jest spamem, i rzeczywiście nie jest spamem.
wynik prawdziwie pozytywny (TP),
Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Na przykład model wnioskuje, że dany e-mail to spam, i rzeczywiście tak jest.
współczynnik wyników prawdziwie pozytywnych (TPR)
Synonim słowa wycofanie. Czyli:
Współczynnik wyników prawdziwie pozytywnych jest osią Y na krzywej ROC.
V
strata weryfikacji,
Dane reprezentujące stratę modelu w zbiorze weryfikacyjnym podczas określonej iteracji trenowania.
Zobacz też krzywą generalizacji.
ważność zmiennych,
Zestaw wyników, który wskazuje względne znaczenie każdej cechy dla modelu.
Weźmy na przykład drzewo decyzyjne, które szacuje ceny domów. Załóżmy, że to drzewo decyzyjne korzysta z 3 cech: rozmiaru, wieku i stylu. Jeśli zestaw ważności zmiennych dla 3 cech wynosi {rozmiar=5,8, wiek=2,5, styl=4,7}, to rozmiar jest ważniejszy dla drzewa decyzyjnego niż wiek czy styl.
Istnieją różne rodzaje danych o znaczeniu zmiennych, które mogą dostarczać ekspertom ds. uczenia maszynowego informacji o różnych aspektach modeli.
W
Funkcja straty Wassensteina
Jedna z funkcji straty powszechnie stosowanych w generatywnych sieciach przeciwstawnych, oparta na odległości między rozkładem wygenerowanych danych a rozkładem danych rzeczywistych.