Ta strona zawiera hasła z glosariusza danych. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.
A
dokładność
Liczba poprawnych klasyfikacji prognoz podzielona przez łączną liczbę prognoz. Czyli:
Na przykład model, który trafnie przewidział 40 wartości i 10 wartości błędnie, miałby dokładność:
Klasyfikacja binarna umożliwia nadawanie konkretnych nazw różnym kategoriom prawidłowych prognoz i nieprawidłowych prognoz. Wzór dokładności w przypadku klasyfikacji binarnej:
gdzie:
- TP to liczba wyników prawdziwie pozytywnych (poprawnych prognoz).
- TN to liczba wyników prawdziwie negatywnych (poprawne prognozy).
- FP to liczba wyników fałszywie dodatnich (nieprawidłowych prognoz).
- FN to liczba wyników fałszywie negatywnych (nieprawidłowe prognozy).
Porównaj dokładność z precyzjością i czułością.
Kliknij ikonę, aby uzyskać informacje o dokładności i zbiorach danych z niezrównoważonymi klasami.
Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane z nimi dane z Kursu intensywnego z systemów uczących się.
obszar pod krzywą PR
Zobacz PR AUC (obszar pod krzywą PR).
obszar pod krzywą ROC
Zobacz AUC (obszar pod krzywą ROC).
AUC (obszar pod krzywą ROC)
Liczba z zakresu od 0,0 do 1,0, która reprezentuje zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Im bliższa 1,0 jest wartość AUC, tym większa jest zdolność modelu do oddzielania klas od siebie.
Na przykład ilustracja poniżej przedstawia model klasyfikatora, który doskonale oddziela klasy pozytywne (zielone owalne pola) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie idealny model ma AUC 1,0:
Ilustracja poniżej przedstawia wyniki modelu klasyfikatora, który generował losowe wyniki. Ten model ma AUC 0,5:
Tak, poprzedni model ma AUC 0,5, a nie 0,0.
Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład model poniżej w pewnym stopniu oddziela wyniki pozytywne od negatywnych, dlatego AUC wynosi od 0,5 do 1,0:
AUC ignoruje dowolną wartość ustawioną dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi kwalifikacji.
Kliknij ikonę, aby dowiedzieć się więcej o zależności między krzywą AUC a krzywą ROC.
Kliknij ikonę, aby uzyskać bardziej formalną definicję AUC.
Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.
średnia precyzja w k
Dane podsumowujące skuteczność modelu w przypadku pojedynczego promptu, które generują wyniki w postaci rankingu, np. numerowane listy rekomendacji książek. Średnia precyzja k to średnia precyzji dla każdego odpowiedniego wyniku. Wzór na średnią precyzję w przypadku k:
average precision at k=1nn∑i=1precision at k for each relevant item
gdzie:
- n to liczba odpowiednich elementów na liście.
Porównaj z przypomnieniem na poziomie k.
Kliknij ikonę, aby zobaczyć przykład
B
bazowa
Model używany jako punkt odniesienia do porównywania skuteczności innego modelu (zwykle bardziej złożonego). Na przykład model regresji logistycznej może stanowić dobrą podstawę dla głębokiego modelu.
W przypadku konkretnego problemu punkt odniesienia pomaga deweloperom modeli określić minimalną oczekiwaną skuteczność, jaką nowy model musi osiągnąć, aby był przydatny.
C
koszt
Synonim straty.
obiektywność kontrfaktyczna
Wskaźnik sprawiedliwości, który sprawdza, czy klasyfikator daje ten sam wynik dla jednej osoby co dla innej osoby, która jest identyczna z pierwszą, z wyjątkiem co najmniej jednego atrybutu wrażliwego. Ocena klasyfikatora pod kątem obiektywności warunkowej to jeden ze sposobów na wykrywanie potencjalnych źródeł stronniczości w modelu.
Więcej informacji znajdziesz w jednym z tych artykułów:
- Uczciwość: uczciwość kontrafacktyczna w szybkim szkoleniu z systemów uczących się.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
entropia krzyżowa
Uogólnienie straty logarytmicznej na problemy z klasyfikacją wieloklasową. Entropia krzyżowa pozwala określić różnicę między dwoma rozkładami prawdopodobieństwa. Zobacz też perplexity.
dystrybuanta (CDF);
Funkcja definiująca częstotliwość próbek mniejszą lub równą wartości docelowej. Rozważmy na przykład rozkład normalny wartości ciągłych. Z wykresu CDF wynika, że około 50% próbek powinno być mniejsze lub równe średniej, a około 84% próbek powinno być mniejsze lub równe jednej odchyleniu standardowemu powyżej średniej.
D
parytet demograficzny
Miara obiektywności, która jest spełniona, jeśli wyniki klasyfikacji modelu nie zależą od danego atrybutu wrażliwego.
Jeśli np. zarówno Lilliputianie, jak i Brobdingnagijczycy aplikują do Uniwersytetu w Glubbdubdrib, równość demograficzna jest osiągnięta, gdy odsetek przyjętych Lilliputian jest taki sam jak odsetek przyjętych Brobdingnagijczyków, niezależnie od tego, czy jedna grupa jest średnio lepiej wykwalifikowana od drugiej.
W odróżnieniu od równych szans i równości szans, które umożliwiają, aby wyniki klasyfikacji w ujęciu zbiorczym zależały od atrybutów wrażliwych, ale nie zezwalają, aby wyniki klasyfikacji dla określonych etykiet rzeczywistego stanu zależały od atrybutów wrażliwych. Aby zobaczyć wizualizację przedstawiającą kompromisy, jakie należy dokonać podczas optymalizacji pod kątem parytetu demograficznego, przeczytaj artykuł „Walka z dyskryminacją dzięki inteligentniejszym systemom uczącym się”.
Więcej informacji znajdziesz w sekcji Uczciwość: równość demograficzna w szybkim szkoleniu z uczenia maszynowego.
E
odległość w przypadku maszyn do robót ziemnych (EMD);
Pomiar względnego podobieństwa 2 rozkładów. Im mniejsza odległość przemieszczania, tym bardziej podobne są rozkłady.
edytuj odległość
Pomiar podobieństwa 2 ciągów tekstowych. W systemach uczących się odległość edytowania jest przydatna z tych powodów:
- Odległość edytowania jest łatwa do obliczenia.
- Odległość edycji umożliwia porównanie 2 ciągów, które są do siebie podobne.
- Odległość edytowania może określać, na ile różne ciągi znaków są podobne do danego ciągu znaków.
Istnieje kilka definicji odległości edycji, z których każda wykorzystuje inne operacje na ciągach znaków. Przykładem jest odległość Levenshteina.
empiryczna dystrybuanta (eCDF lub EDF)
dystrybuanta kumulatywna oparta na pomiarach empirycznych pochodzących z rzeczywistego zbioru danych. Wartość funkcji w dowolnym punkcie na osi x to ułamek obserwacji w zbiorze danych, które są mniejsze lub równe określonej wartości.
entropia
W teorii informacji jest to opis tego, jak nieprzewidywalna jest rozkład prawdopodobieństwa. Entropia może być też zdefiniowana jako ilość informacji zawartych w każdym przykładzie. Rozkład ma najwyższą możliwą entropię, gdy wszystkie wartości zmiennej losowej są równie prawdopodobne.
Entropia zbioru o dwóch możliwych wartościach „0” i „1” (np. etykiety w problemie dwudzielnej klasyfikacji) ma postać:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
gdzie:
- H to entropia.
- p to ułamek przykładów „1”.
- q to ułamek przykładów o wartości „0”. Zwróć uwagę, że q = (1 - p)
- log to zwykle log2. W tym przypadku jednostką entropii jest bit.
Załóżmy na przykład, że:
- 100 przypadków zawiera wartość „1”.
- 300 przykładów zawiera wartość „0”
Dlatego wartość entropii wynosi:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 b na przykład
Zbiór, który jest idealnie zrównoważony (np.200 wartości „0” i 200 wartości „1”), będzie miał entropię 1,0 bita na przykład. W miarę jak zbiór staje się bardziej niezrównoważony, jego entropia zbliża się do 0,0.
W drzewach decyzyjnych entropia pomaga formułować wzrost informacji, aby ułatwić spółczynnikowi wybór warunków podczas tworzenia drzewa decyzyjnego klasyfikacji.
Porównaj entropię z:
- wskaźnik gini
- Funkcja utraty entropii krzyżowej
Entropia jest często nazywana entropią Shannona.
Więcej informacji znajdziesz w sekcji Rozdzielacz dokładny w przypadku klasyfikacji binarnej z cechami liczbowymi w Kursie lasów decyzyjnych.
równość szans
Dane o sprawiedliwości, które pozwalają ocenić, czy model prognozuje pożądany wynik równie dobrze w przypadku wszystkich wartości wrażliwego atrybutu. Inaczej mówiąc, jeśli pożądanym wynikiem działania modelu jest klasa pozytywna, celem jest uzyskanie prawdziwej wartości pozytywnej w przypadku wszystkich grup.
Równe szanse są powiązane z równymi szansami, które wymagają, aby zarówno współczynniki wyników prawdziwie pozytywnych, jak i wyników fałszywie dodatnich były takie same we wszystkich grupach.
Załóżmy, że Uniwersytet Glubbdubdrib przyjmuje zarówno Liliputan, jak i Brobdingnagijczyków do rygorystycznego programu matematycznego. Szkoły średnie w Lilliput oferują solidny program nauczania matematyki, a znaczna większość uczniów kwalifikuje się do studiów uniwersyteckich. Szkoły średnie w Brobdingnag nie oferują w ogóle zajęć z matematyki, w wyniku czego znacznie mniej ich uczniów ma odpowiednie kwalifikacje. Równe szanse są zapewnione w przypadku preferowanej etykiety „przyjęcie” w związku z przynależnością narodową (Lilliputianin lub Brobdingnagijczyk), jeśli kwalifikujący się uczniowie mają równe szanse na przyjęcie niezależnie od tego, czy są Lilliputianami czy Brobdingnagijczykami.
Załóżmy na przykład, że na Uniwersytet Glubbdubdrib aplikuje 100 mieszkańców Lilliputu i 100 mieszkańców Brobdingnag. Decyzje dotyczące przyjęcia na studia są podejmowane w następujący sposób:
Tabela 1. Lilliputian applicants (90% are qualified)
Zakwalifikowany | Niezakwalifikowany | |
---|---|---|
Przyjęty | 45 | 3 |
Odrzucono | 45 | 7 |
Łącznie | 90 | 10 |
Odsetek przyjętych kwalifikujących się uczniów: 45/90 = 50% Odsetek odrzuconych niekwalifikujących się uczniów: 7/10 = 70% Całkowity odsetek przyjętych uczniów z Lilliput: (45+3)/100 = 48% |
Tabela 2. Kandydaci z Brodbingnii (10% kwalifikuje się):
Zakwalifikowany | Niezakwalifikowany | |
---|---|---|
Przyjęty | 5 | 9 |
Odrzucono | 5 | 81 |
Łącznie | 10 | 90 |
Odsetek przyjętych studentów spełniających wymagania: 5/10 = 50% Odsetek odrzuconych studentów, którzy nie spełniali wymagań: 81/90 = 90% Całkowity odsetek przyjętych studentów z Brobdingnagi: (5+9)/100 = 14% |
Powyższe przykłady spełniają wymóg równości szans w przyjmowaniu kwalifikujących się uczniów, ponieważ zarówno kwalifikujący się Lilliputanie, jak i Brobdingnagijczycy mają 50% szans na przyjęcie.
Warunek równości szans jest spełniony, ale nie spełniają się 2 kryteria obiektywności:
- parytet demograficzny: Lilliputanie i Brobdingnagowie są przyjmowani na studia w różnym stopniu; 48% Lilliputanów zostaje przyjętych, ale tylko 14% Brobdingnagów.
- Równe szanse: choć kwalifikujący się studenci z Lilliput i Brobdingnag mają takie same szanse na przyjęcie, nie jest spełniony dodatkowy warunek, że kwalifikujący się studenci z Lilliput i Brobdingnag mają takie same szanse na odrzucenie. Niekwalifikujący się Liliputanie mają wskaźnik odrzuceń na poziomie 70%, a niekwalifikujący się Brobdingnanie – 90%.
Więcej informacji znajdziesz w sekcji Uczciwość: równe szanse w Szybkim szkoleniu z uczenia maszynowego.
wyrównane szanse
Dane o sprawiedliwości, które pozwalają ocenić, czy model prognozuje wyniki równie dobrze dla wszystkich wartości wrażliwego atrybutu w przypadku klasy pozytywnej i klasy negatywnej, a nie tylko jednej z nich. Inaczej mówiąc, zarówno współczynnik wyników prawdziwie pozytywnych, jak i współczynnik wyników fałszywie negatywnych powinny być takie same we wszystkich grupach.
Równe szanse są powiązane z równością szans, która skupia się tylko na współczynnikach błędów w pojedynczej klasie (dodatnich lub ujemnych).
Załóżmy na przykład, że Uniwersytet Glubbdubdrib przyjmuje do rygorystycznego programu matematycznego zarówno Liliputan, jak i Brobdingnagijczyków. Szkoły średnie na Lilliputii oferują solidny program nauczania matematyki, a znaczna większość uczniów kwalifikuje się do studiów uniwersyteckich. Szkoły średnie w Brobdingnadze w ogóle nie oferują zajęć z matematyki, w wyniku czego znacznie mniej uczniów spełnia wymagania. Warunek równości szans jest spełniony, jeśli bez względu na to, czy kandydat jest liliputem czy olbrzymem, jeśli spełnia wymagania, ma równe szanse na przyjęcie do programu, a jeśli ich nie spełnia, ma równe szanse na odrzucenie.
Załóżmy, że na studia na Uniwersytecie w Glubbdubdrib aplikuje 100 mieszkańców Lilliputu i 100 mieszkańców Brobdingnag. Decyzje dotyczące przyjęcia na studia są podejmowane w ten sposób:
Tabela 3. Lilliputian applicants (90% are qualified)
Zakwalifikowany | Niezakwalifikowany | |
---|---|---|
Przyjęty | 45 | 2 |
Odrzucono | 45 | 8 |
Łącznie | 90 | 10 |
Odsetek przyjętych kwalifikujących się uczniów: 45/90 = 50% Odsetek odrzuconych niekwalifikujących się uczniów: 8/10 = 80% Całkowity odsetek przyjętych uczniów z Lilliput: (45+2)/100 = 47% |
Tabela 4. Kandydaci z Brodbingnii (10% kwalifikuje się):
Zakwalifikowany | Niezakwalifikowany | |
---|---|---|
Przyjęty | 5 | 18 |
Odrzucono | 5 | 72 |
Łącznie | 10 | 90 |
Odsetek przyjętych studentów spełniających wymagania: 5/10 = 50% Odsetek odrzuconych studentów, którzy nie spełniali wymagań: 72/90 = 80% Całkowity odsetek przyjętych studentów z Brobdingnagi: (5 + 18)/100 = 23% |
Warunek równych szans jest spełniony, ponieważ zarówno kwalifikujący się studenci z Lilliputu, jak i z Brobdingnag mają 50% szans na przyjęcie, a niekwalifikujący się studenci z Lilliputu i z Brobdingnag mają 80% szans na odrzucenie.
Równe szanse są formalnie zdefiniowane w artykule „Równe szanse w nauce nadzorowanej” w ten sposób: „Predictor Ŷ spełnia warunek równych szans w odniesieniu do chronionego atrybutu A i wyniku Y, jeśli Ŷ i A są niezależne, warunkowo na Y”.
evals
Jest to głównie skrót od oceny LLM. Ogólnie rzecz biorąc, evals to skrót od dowolnej formy oceny.
ocena
Proces pomiaru jakości modelu lub porównywania różnych modeli.
Aby ocenić nadzorowany model uczenia maszynowego, zwykle porównujemy go z zestawami walidacyjnym i testowym. Ocena modelu LLMzazwyczaj obejmuje szerszą ocenę jakości i bezpieczeństwa.
F
F1
Dane „podstawowe” klasyfikacji binarnej, które zależą zarówno od precyzyjności, jak i od czułości. Oto formuła:
Kliknij ikonę, aby wyświetlić przykłady.
wskaźnik obiektywności
matematyczna definicja „obiektywności”, która jest możliwa do zmierzenia; Do najczęściej używanych wskaźników sprawiedliwości należą:
Wiele wskaźników obiektywności wyklucza się wzajemnie. Więcej informacji znajdziesz w artykule Brak spójności wskaźników obiektywności.
fałszywie negatywny (FN),
Przykład, w którym model błędnie przewiduje klasę negatywną. Na przykład model przewiduje, że dana wiadomość e-mail nie jest spamem (klasa negatywna), ale w rzeczywistości jest to spam.
współczynnik wyników fałszywie negatywnych
Odsetek rzeczywistych przykładów pozytywnych, dla których model błędnie przewidział klasę negatywną. Odsetek fałszywie negatywnych wyników jest obliczany według tego wzoru:
Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.
wynik fałszywie pozytywny (FP).
Przykład, w którym model błędnie prognozuje klasę pozytywną. Na przykład model przewiduje, że dana wiadomość e-mail jest spamem (klasa pozytywna), ale w rzeczywistości nie jest to spam.
Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.
współczynnik wyników fałszywie pozytywnych (FPR);
Odsetek rzeczywistych przykładów negatywnych, dla których model błędnie przewidział klasę pozytywną. Odsetek wyników fałszywie dodatnich oblicza się za pomocą tego wzoru:
Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.
Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.
znaczenie cech;
Synonim wartości zmiennej.
ułamek sukcesów
Dane służące do oceny wygenerowanego tekstu przez model ML. Ułamek sukcesów to liczba „udanych” wygenerowanych tekstów wyjściowych podzielona przez łączną liczbę wygenerowanych tekstów wyjściowych. Jeśli na przykład duży model językowy wygenerował 10 bloków kodu, z których 5 było udanych, odsetek sukcesów wyniesie 50%.
Chociaż odsetek sukcesów jest przydatny w różnych statystykach, w ML ten wskaźnik jest przydatny głównie do pomiaru weryfikowalnych zadań, takich jak generowanie kodu czy rozwiązywanie problemów matematycznych.
G
wskaźnik gini,
Dane podobne do entropii. Separatory używają wartości pochodzących z nieczystości Gini lub entropii, aby tworzyć warunki służące do klasyfikacji w drzewach decyzyjnych. Zyskane informacje pochodzą z entropii. Nie ma powszechnie akceptowanego odpowiednika dla danych pochodzących z wskaźnika gini; jednak te nienazwane dane są równie ważne jak zysk informacji.
Zanieczyszczenie Giniego nazywane jest też wskaźnikiem Giniego lub po prostu Ginim.
Kliknij ikonę, aby uzyskać szczegółowe informacje matematyczne dotyczące wskaźnika gini.
H
utrata zawiasu,
Rodzina funkcji straty do klasyfikacji, która ma na celu znalezienie granicy decyzyjnej jak najbardziej oddalonej od każdego przykładu treningowego, maksymalizując w ten sposób margines między przykładami a granicą. KSVM używają funkcji hinge loss (lub powiązanej z nią funkcji, np. kwadratowej funkcji hinge loss). W przypadku klasyfikacji binarnej funkcja straty sprężynowej jest zdefiniowana w ten sposób:
gdzie y to właściwa etykieta (-1 lub +1), a y' to nieprzetworzone dane wyjściowe modelu klasyfikatora:
W związku z tym wykres straty stycznej w zależności od (y * y') wygląda tak:
I
niezgodność wskaźników obiektywności
Pogląd, że niektóre pojęcia obiektywności są niekompatybilne i nie mogą być spełnione jednocześnie. W rezultacie nie ma jednego uniwersalnego wskaźnika obiektywności, który można by zastosować do wszystkich problemów z uczeniem maszynowym.
Chociaż może to zniechęcać, brak spójności wskaźników obiektywności nie oznacza, że wysiłki na rzecz obiektywności są bezowocne. Zamiast tego sugeruje, że obiektywność trzeba definiować w kontekście określonego problemu związanego z ML, aby zapobiegać szkodom związanym z danymi zastosowaniami.
Aby dowiedzieć się więcej o niezgodności wskaźników obiektywności, przeczytaj artykuł „On the (im)possibility of fairness” (O możliwości i niemożliwości obiektywności)”.
obiektywność w stosunku do poszczególnych osób,
Dane dotyczące sprawiedliwości, które sprawdzają, czy podobne osoby są klasyfikowane w podobny sposób. Na przykład Brobdingnagian Academy może chcieć zapewnić sprawiedliwość indywidualną, dbając o to, aby dwoje uczniów z identycznymi ocenami i wynikami testów standaryzowanych mieli równe szanse na przyjęcie.
Pamiętaj, że indywidualna sprawiedliwość zależy wyłącznie od tego, jak zdefiniujesz „podobność” (w tym przypadku oceny i wyniki testów). Jeśli wskaźnik podobieństwa pomija ważne informacje (np. rygorystyczne programy nauczania), możesz narazić się na ryzyko wprowadzenia nowych problemów z sprawiedliwością.
Aby uzyskać bardziej szczegółowe informacje o sprawiedliwości indywidualnej, zapoznaj się z artykułem „Fairness Through Awarenes”.
zysk informacji
W lasach decyzyjnych jest to różnica między entropią węzła a ważoną (pod względem liczby przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.
Weźmy na przykład te wartości entropii:
- entropia węzła nadrzędnego = 0,6
- entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
- entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1
Oznacza to, że 40% przykładów znajduje się w jednym węźle podrzędnym, a 60% – w drugim. Dlatego:
- ważona suma entropii węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Informacje, które można uzyskać, to:
- przyrost informacji = entropia węzła nadrzędnego – ważona suma entropii węzłów podrzędnych
- przyrost informacji = 0,6 - 0,14 = 0,46
Większość rozdzielaczy stara się tworzyć warunki, które maksymalizują zysk informacji.
umowa między recenzentami
Miara, która określa, jak często weryfikatorzy zgadzają się ze sobą podczas wykonywania zadania. Jeśli oceniający się nie zgadzają, może być konieczne poprawienie instrukcji zadania. Czasem jest też nazywany porozumieniem między selekcjonerami lub wiarygodnością między oceniającymi. Zobacz też wskaźnik kappa Cohena, który jest jednym z najpopularniejszych wskaźników zgodności między oceniającymi.
Więcej informacji znajdziesz w sekcji Dane kategoryczne: typowe problemy z Kursu intensywnego na temat uczenia maszynowego.
L
Straty L1
Funkcja strat, która oblicza bezwzględną wartość różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie utraty L1 w partii składającej się z 5 przykładów:
Rzeczywista wartość przykładu | Wartość prognozowana przez model | Wartość bezwzględna delty |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L1 |
Strata L1 jest mniej wrażliwa na wartości wyizolowane niż strata L2.
Średni bezwzględny błąd to średnia utrata informacji L1 na przykład.
Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.
Więcej informacji znajdziesz w sekcji Regresja liniowa: funkcja utraty w Kursie intensywnym z systemów uczących się.
Strata L2
Funkcja strat, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiety a wartościami przewidywanymi przez model. Oto na przykład obliczenie strat L2 dla partii składającej się z 5 przykładów:
Rzeczywista wartość przykładu | Wartość prognozowana przez model | Kwadrat delty |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = L2 |
Z powodu kwadratowania strata L2 wzmacnia wpływ wartości odstających. Oznacza to, że strata L2 reaguje silniej na złe prognozy niż strata L1. Na przykład strata L1 w poprzednim zbiorze wynosi 8, a nie 16. Zwróć uwagę, że 9 z 16 wyników to wartości odstające.
Modele regresji zwykle używają funkcji utraty L2 jako funkcji utraty.
Wartość błędu średniokwadratowego to średnia strata funkcji L2 na przykład. Strata kwadratowa to inna nazwa straty L2.
Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.
Więcej informacji znajdziesz w sekcji Logistyczna regresja: utrata i regularyzacja z Kursu intensywnego na temat uczenia maszynowego.
Oceny LLM (evals)
Zestaw danych i punktów odniesienia do oceny skuteczności dużych modeli językowych (LLM). Ogólnie rzecz biorąc, oceny LLM:
- Pomagać badaczom w określaniu obszarów, w których modele LLM wymagają poprawy.
- przydają się do porównywania różnych modeli LLM i określania, który z nich najlepiej nadaje się do danego zadania;
- pomagać w zapewnieniu bezpieczeństwa i zgody z zasadami etycznymi w przypadku modeli LLM.
Aby dowiedzieć się więcej, zapoznaj się z sekcją Duże modele językowe (LLM) w szybkim szkoleniu z uczenia maszynowego.
przegrana
Podczas treningu modelu nadzorowanego mierzy się, jak daleko prognoza modelu odbiega od etykiety.
Funkcja utraty oblicza utratę.
Więcej informacji znajdziesz w sekcji Regresja liniowa: funkcja utraty w Kursie intensywnym z systemów uczących się.
funkcja utraty
Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę na partii przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które dobrze przewidują, niż w przypadku modeli, które źle przewidują.
Celem trenowania jest zwykle minimalizowanie straty zwracanej przez funkcję straty.
Istnieje wiele różnych rodzajów funkcji strat. Wybierz odpowiednią funkcję utraty dla rodzaju modelu, który budujesz. Na przykład:
- L2 (lub średnia kwadratowa błędu) jest funkcją utraty w przypadku regresji liniowej.
- Log Loss to funkcja utraty dla regresji logistycznej.
M
Średni błąd bezwzględny (MAE)
Średnia utrata na przykładzie, gdy używana jest strategia L1. Oblicz średni błąd bezwzględny w ten sposób:
- Oblicz stratę L1 dla partii.
- Podziel stratę L1 przez liczbę przykładów w partii.
Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.
Weźmy na przykład obliczenie utraty L1 na podstawie tej grupy 5 przykładów:
Rzeczywista wartość przykładu | Wartość prognozowana przez model | Strata (różnica między wartością rzeczywistą a przewidywaną) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L1 |
Współczynnik utraty informacji L1 wynosi 8, a liczba przykładów – 5. Średni błąd bezwzględny wynosi więc:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Średni bezwzględny błąd kontrastu z błędem średniokwadratowym i średnią kwadratową błędów.
średnia średnia precyzja w k (mAP@k)
Statystyczna średnia wszystkich wyników średniej precyzji na k w przypadku zbioru danych do weryfikacji. Średnia średnia precyzja w k służy m.in. do oceny jakości rekomendacji generowanych przez system rekomendacji.
Chociaż wyrażenie „średnia średnia” brzmi niepotrzebnie, nazwa tego wskaźnika jest odpowiednia. Wskaźnik ten oblicza średnią średnią dokładność w przypadku wartości k.
Kliknij ikonę, aby zobaczyć przykład.
Średnia kwadratowa błędu (MSE)
Średnia utrata na przykładzie, gdy używana jest utrata L2. Oblicz błąd średniokwadratowy w ten sposób:
- Oblicz straty L2 dla partii.
- Podziel stratę L2 przez liczbę przykładów w partii.
Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.
Rozważmy na przykład straty w przypadku tej serii 5 przypadków:
Rzeczywista wartość | Prognoza modelu | Strata | Strata kwadratowa |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = L2 |
Dlatego błąd średniokwadratowy wynosi:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
Błąd średniokwadratowy to popularny optymalizator, zwłaszcza w przypadku regresji liniowej.
Porównaj błąd średniokwadratowy z średnim bezwzględnym błędem i średnią kwadratową błędów.
TensorFlow Playground używa średniej kwadratowej błędów do obliczania wartości utraty.
Kliknij ikonę, aby zobaczyć więcej szczegółów dotyczących wartości odstających.
wskaźnik
Statystyka, która Cię interesuje.
Cel to dane, które system uczących się próbuje zoptymalizować.
Metrics API (tf.metrics)
Interfejs API TensorFlow do oceny modeli. Na przykład tf.metrics.accuracy
określa, jak często prognozy modelu zgadzają się z etykietami.
minimalna strata
Funkcja utraty dla generatywnej sieci antagonistycznej, oparta na krzyżowej entropii między dystrybucją wygenerowanych danych a rzeczywistymi danymi.
Strata minimax jest używana w pierwszym artykule do opisania generatywnych sieci antagonistycznych.
Więcej informacji znajdziesz w sekcji Funkcje utraty w szkoleniu Generative Adversarial Networks.
pojemność modelu
Złożoność problemów, których model może się uczyć. Im bardziej złożone problemy może rozwiązywać model, tym większa jest jego zdolność uczenia się. Zdolność modelu do generowania trafnych prognoz zwykle rośnie wraz z liczbą parametrów modelu. Nieformalną definicję pojemności klasyfikatora znajdziesz w sekcji Wymiary VC.
N
klasa wyników negatywnych
W przypadku klasyfikacji binarnej jedna klasa jest określana jako dodatnia, a druga jako ujemna. Klasa pozytywna to rzecz lub zdarzenie, które model testuje, a klasa negatywna to inna możliwość. Na przykład:
- Klasa negatywna w teście medycznym może być oznaczona jako „nie nowotwór”.
- Klasa negatywna w klasyfikatorze e-maili może być oznaczona jako „nie spam”.
Porównaj z klasą wyników pozytywnych.
O
cel
Dane, które algorytm próbuje zoptymalizować.
funkcja celu
Formuła matematyczna lub dane, które model ma optymalizować. Na przykład funkcja celu w regresji liniowej to zwykle średnia kwadratowa utrata. Dlatego podczas trenowania modelu regresji liniowej celem jest zminimalizowanie średniej straty kwadratowej.
W niektórych przypadkach celem jest maksymalizowanie funkcji celu. Jeśli np. funkcją celu jest dokładność, celem jest maksymalizacja dokładności.
Zobacz też utrata.
P
pass at k (pass@k)
Dane określające jakość kodu (np. Pythona), który generuje duży model językowy. W szczególności pass at k określa prawdopodobieństwo, że co najmniej jeden wygenerowany blok kodu z k wygenerowanych bloków kodu przejdzie wszystkie testy jednostkowe.
Duże modele językowe często mają problemy z generowaniem dobrego kodu w przypadku skomplikowanych problemów programistycznych. Inżynierowie oprogramowania radzą sobie z tym problemem, prosząc duży model językowy o wygenerowanie wielu (k) rozwiązań tego samego problemu. Następnie inżynierowie oprogramowania testują każde z rozwiązań za pomocą testów jednostkowych. Obliczenie wartości k zależy od wyniku testów jednostkowych:
- Jeśli co najmniej jedno z tych rozwiązań przejdzie test jednostkowy, LLM przejmie to wyzwanie dotyczące generowania kodu.
- Jeśli żadne z rozwiązań nie przejdzie testu jednostkowego, LLM nie przejdzie tego wyzwania dotyczącego generowania kodu.
Formuła dla pass at k:
pass at k=total number of passestotal number of challenges
Ogólnie im wyższe wartości parametru k, tym lepsze wyniki testów z parametrem k, ale wyższe wartości k wymagają większych zasobów do testowania modeli językowych i testowania jednostkowego.
Kliknij ikonę, aby zobaczyć przykład.
występ
Termin o wielu znaczeniach:
- Standardowe znaczenie w inżynierii oprogramowania. Chodzi o to, jak szybko (lub wydajnie) działa to oprogramowanie.
- znaczenie w uczeniu maszynowym. W tym przypadku skuteczność odpowiada na pytanie: „Jak dokładny jest ten model?”. Czyli jak trafne są prognozy modelu?
permutacyjna ważność zmiennych
Typ znaczenia zmiennej, który ocenia wzrost błędu prognozy modelu po permutacji wartości cechy. Permutacyjna ważność zmiennej jest miarą niezależną od modelu.
perplexity
Miara, która określa, jak dobrze model wykonuje swoje zadanie. Załóżmy na przykład, że Twoim zadaniem jest odczytanie kilku pierwszych liter słowa, które użytkownik wpisują na klawiaturze telefonu, oraz podanie listy możliwych słów do dokończenia. W przypadku tego zadania liczba prób, które musisz zaproponować, aby lista zawierała rzeczywiste słowo, które użytkownik próbuje wpisać, to około P.
Złożoność jest powiązana z entropią krzyżową w ten sposób:
klasa wyników pozytywnych
Zajęcia, których dotyczy test.
Na przykład klasa pozytywna w modelu dotyczącym raka może być „guz”. Klasa pozytywna w klasyfikatorze e-maili może być „spam”.
Porównaj z klasą wyników negatywnych.
Kliknij ikonę, aby dodać dodatkowe notatki.
PR AUC (obszar pod krzywą PR)
Obszar pod interpolowaną krzywą precyzji i czułości uzyskany przez naniesienie punktów (czułość, precyzja) dla różnych wartości progu klasyfikacji.
precyzja
Dane dotyczące modeli klasyfikacji, które odpowiadają na to pytanie:
Kiedy model przewidział klasę pozytywną, jaki był odsetek poprawnych prognoz?
Oto formuła:
gdzie:
- Prawdziwy pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
- Wynik fałszywie pozytywny oznacza, że model pomylić klasę pozytywną.
Załóżmy na przykład, że model wygenerował 200 pozytywnych prognoz. Spośród tych 200 pozytywnych prognoz:
- 150 z nich to wyniki prawdziwie pozytywne.
- 50 z nich to wyniki fałszywie pozytywne.
W tym przypadku:
W przeciwieństwie do dokładności i czułości.
Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane z nimi dane z Kursu intensywnego z systemów uczących się.
dokładność k (precision@k)
Dane służące do oceny uszeregowanej (posortowanej) listy elementów. Dokładność na poziomie k określa ułamek pierwszych k elementów na liście, które są „odpowiednie”. Czyli:
precision at k=relevant items in first k items of the listk
Wartość k musi być mniejsza lub równa długości zwracanej listy. Pamiętaj, że długość zwróconej listy nie jest uwzględniana w obliczeniach.
Odpowiednie treści są często subiektywną kwestią. Nawet eksperci oceniacze często nie zgadzają się co do tego, które treści są odpowiednie.
Porównaj z:
Kliknij ikonę, aby zobaczyć przykład.
krzywej precyzji i czułości
Krzywa precyzyjności w porównaniu z czułością przy różnych progach klasyfikacji.
błędy prognozowania
Wartość wskazująca, jak daleko od siebie jest średnia prognoz i średnia etykiet w zbiorze danych.
Nie należy mylić tego pojęcia z terminem „bias” w modelach uczenia maszynowego ani z uprzedzeniami w zakresie etyki i sprawiedliwości.
parytet prognozowany
Dane dotyczące sprawiedliwości, które sprawdzają, czy w przypadku danego klasyfikatora współczynniki precyzyjności są równoważne w przypadku rozpatrywanych podgrup.
Na przykład model, który przewiduje przyjęcie na studia, spełnia warunek równości prognoz dla narodowości, jeśli jego współczynnik dokładności jest taki sam w przypadku Lilliputów i Brobdingnagijczyków.
Równość prognozowana jest czasami nazywana równością stawek prognozowanych.
Więcej informacji o równości w ramach prognozowania znajdziesz w sekcji „Definicje uczciwości” (sekcja 3.2.1).
parytet stawek prognozowanych
Inna nazwa prognostycznych parzystwości.
funkcja gęstości prawdopodobieństwa
Funkcja, która identyfikuje częstotliwość występowania próbek danych o dokładnie określonej wartości. Gdy wartości w danym zbiorze danych są ciągłymi liczbami zmiennoprzecinkowymi, dopasowania ścisłe występują rzadko. Jednak zintegrowanie funkcji gęstości prawdopodobieństwa od wartości x
do wartości y
daje oczekiwaną częstotliwość próbek danych z zakresu x
–y
.
Rozważmy na przykład rozkład normalny o średniej 200 i odchyleniu standardowym 30. Aby określić oczekiwaną częstotliwość próbek danych w zakresie od 211,4 do 218,7, możesz zintegrować funkcję gęstości prawdopodobieństwa dla rozkładu normalnego w zakresie od 211,4 do 218,7.
R
wycofanie
Dane dotyczące modeli klasyfikacji, które odpowiadają na to pytanie:
Gdy dane podstawowe to klasa pozytywna, jaki odsetek prognoz model poprawnie zidentyfikował jako klasę pozytywną?
Oto formuła:
Recall=true positivestrue positives+false negatives
gdzie:
- Prawdziwy pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
- Fałszywie negatywny oznacza, że model pomyłkowo przewidział klasę negatywną.
Załóżmy na przykład, że model wygenerował 200 prognoz na przykładach, dla których ground truth to klasa pozytywna. Spośród tych 200 prognoz:
- 180 z nich to wyniki prawdziwie pozytywne.
- 20 z nich to wyniki fałszywie negatywne.
W tym przypadku:
Recall=180180+20=0.9
Kliknij ikonę, aby wyświetlić notatki dotyczące zbiorów danych z niezrównoważonymi klasami.
Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane dane.
skuteczność przy k (recall@k)
Dane służące do oceny systemów, które zwracają uporządkowaną listę elementów. Odsetek k wskazuje ułamek odpowiednich elementów w pierwszych k elementach na liście spośród łącznej liczby zwróconych odpowiednich elementów.
recall at k=relevant items in first k items of the listtotal number of relevant items in the list
Porównaj z dokładnością w k.
Kliknij ikonę, aby zobaczyć przykład.
Krzywa ROC (charakterystyka operacyjna odbiornika)
Wykres przedstawiający wskaźnik prawdziwie pozytywnych wyników w porównaniu z wskaźnikiem fałszywie pozytywnych wyników dla różnych progów klasyfikacji w przypadku klasyfikacji binarnej.
Kształt krzywej ROC wskazuje na zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Załóżmy na przykład, że binarny model klasyfikacji doskonale oddziela wszystkie klasy negatywne od wszystkich klas pozytywnych:
Krzywa ROC dla poprzedniego modelu wygląda tak:
Natomiast na ilustracji poniżej pokazano nieobrobione wartości regresji logistycznej w przypadku kiepskiego modelu, który w ogóle nie potrafi odróżnić klas negatywnych od klas pozytywnych:
Krzywa ROC dla tego modelu wygląda tak:
W prawdziwym życiu większość modeli klasyfikacji binarnej w pewnym stopniu oddziela klasy pozytywne i negatywne, ale zwykle nie robi tego w doskonały sposób. Krzywa ROC zwykle znajduje się gdzieś pomiędzy tymi dwoma skrajnościami:
Punkt na krzywej ROC najbliższy punktowi (0,0,1,0) teoretycznie wskazuje idealny próg klasyfikacji. Wybór optymalnego progu klasyfikacji zależy jednak od kilku innych rzeczywistych problemów. Może na przykład okazać się, że fałszywie wyniki negatywne są znacznie bardziej uciążliwe niż fałszywie pozytywne.
Dane liczbowe o nazwie AUC podsumowują krzywą ROC do jednej wartości zmiennoprzecinkowej.
Średnia kwadratowa błędów (RMSE)
Pierwiastek kwadratowy z błędu średniokwadratowego.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Rodzina wskaźników, które oceniają automatyczne streszczenia i modele tłumaczenia maszynowego. Dane ROUGE określają, w jakim stopniu tekst referencyjny pokrywa się z tekstem wygenerowanym przez model ML. Każdy z elementów rodziny ROUGE różni się od siebie sposobem nakładanie się pomiarów. Wyższe wyniki ROUGE wskazują na większe podobieństwo tekstu referencyjnego do wygenerowanego niż niższe wyniki ROUGE.
Każdy element z rodziny ROUGE zwykle generuje te dane:
- Precyzja
- Czułość
- F1
Szczegółowe informacje i przykłady znajdziesz w tych artykułach:
ROUGE-L
Jest to element rodziny ROUGE, który skupia się na długości najdłuższego wspólnego podciągu w tekście referencyjnym i tekście wygenerowanym. Te formuły obliczają czułość i precyzję w przypadku ROUGE-L:
Następnie możesz użyć F1, aby zsumować czułość ROUGE-L i dokładność ROUGE-L w jednym wskaźniku:
Kliknij ikonę, aby zobaczyć przykładowe obliczenie ROUGE-L.
ROUGE-L ignoruje wszystkie znaki nowej linii w tekście referencyjnym i wygenerowanym, więc najdłuższa wspólna podciągłość może obejmować kilka zdań. Gdy tekst referencyjny i wygenerowany tekst zawierają kilka zdań, lepszym wskaźnikiem jest zazwyczaj wariant ROUGE-L o nazwie ROUGE-Lsum. ROUGE-Lsum określa najdłuższy wspólny podciąg w każdej frazie w fragmentach tekstu, a następnie oblicza średnią z tych najdłuższych wspólnych podciągów.
Kliknij ikonę, aby zobaczyć przykładowe obliczenie sumy ROUGE-L.
ROUGE-N
Zestaw wskaźników z rodziny ROUGE, który porównuje wspólne N-gramy o określonym rozmiarze w tekście referencyjnym i tekście wygenerowanym. Na przykład:
- ROUGE-1 mierzy liczbę wspólnych tokenów w tekście referencyjnym i wygenerowanym.
- ROUGE-2 mierzy liczbę wspólnych bigramów (2-gramów) w tekście referencyjnym i wygenerowanym.
- ROUGE-3 mierzy liczbę wspólnych trójgramów (3-gramów) w tekście referencyjnym i wygenerowanym tekście.
Aby obliczyć ROUGE-N i ROUGE-N dla dowolnego elementu z rodziny ROUGE-N, użyj tych wzorów:
Następnie możesz użyć F1, aby zsumować czułość ROUGE-N i precyzję ROUGE-N w jednym wskaźniku:
Kliknij ikonę, aby zobaczyć przykład.
ROUGE-S
To łagodna forma ROUGE-N, która umożliwia dopasowanie skip-gram. Oznacza to, że ROUGE-N zlicza tylko n-gramy, które dokładnie pasują, ale ROUGE-S zlicza też n-gramy rozdzielone co najmniej 1 słowem. Na przykład:
- Tekst referencyjny: Białe chmury
- Wygenerowany tekst: Białe chmury z rozwianymi brzegami
Podczas obliczania ROUGE-N 2-gram White clouds nie pasuje do White billowing clouds. Jednak podczas obliczania ROUGE-S White clouds pasuje do White billowing clouds.
R-kwadrat
Regresja wskazująca, jak duża jest zmienność oznacznia spowodowana przez pojedynczą cechę lub zestaw cech. R-squared to wartość z zakresu od 0 do 1, którą możesz interpretować w następujący sposób:
- Wartość R-kwadrat równa 0 oznacza, że żadna z wariacji etykiety nie jest spowodowana zbiorem cech.
- Wartość R2 równa 1 oznacza, że wszystkie zmiany etykiety są spowodowane przez zestaw funkcji.
- Wartość R-kwadrat na poziomie od 0 do 1 wskazuje, w jakim stopniu zmienność etykiety można przewidzieć na podstawie konkretnej cechy lub zbioru cech. Na przykład wartość R-kwadrat 0,10 oznacza, że 10% wariancji etykiety jest spowodowane zbiorem cech, wartość R-kwadrat 0,20 oznacza, że 20% jest spowodowane zbiorem cech itd.
R-kwadrat to kwadrat współczynnika korelacji Pearsona między wartościami prognozowanymi przez model a danymi podstawowymi (ground truth).
S
ocena
Część systemu rekomendacji, która przypisuje wartość lub ranking do każdego elementu wygenerowanego w fazie generowania kandydatów.
miara podobieństwa
W algorytmach zagnieżdżania jest to miara służąca do określania, jak podobne (jak podobne) są 2 dowolne przykłady.
rozproszenie
Liczba elementów w wektorze lub macierzy ustawionych na 0 (lub null) podzielona przez łączną liczbę elementów w tym wektorze lub macierzy. Weź pod uwagę np. macierz 100-elementową, w której 98 komórek zawiera 0. Obliczanie rzadkości przebiega w ten sposób:
Spójność cech odnosi się do spójności wektora cech; spójność modelu odnosi się do spójności wag modelu.
utrata kwadratowa zawiasu
Kwadrat straty na zawiasach. Strata na skrajnych wartościach kwadratowych jest bardziej dotkliwa dla wartości odstających od reszty niż zwykła strata na skrajnych wartościach.
strata kwadratowa
Synonim straty na L2.
T
test strat
Dane przedstawiające utratę modelu na zbiorze testowym. Podczas tworzenia modelu zwykle staramy się zminimalizować straty testowe. Dzieje się tak, ponieważ niski wskaźnik utraty w trakcie testu jest silniejszym sygnałem jakości niż niski wskaźnik utraty w trakcie treningu czy niski wskaźnik utraty w trakcie walidacji.
Duża różnica między stratą na etapie testowania a stratą na etapie trenowania lub walidacji może oznaczać, że należy zwiększyć stopień regularyzacji.
dokładność top-k
Odsetek wystąpień „oznacznika docelowego” na pierwszych kpozycjach wygenerowanych list. Mogą to być spersonalizowane rekomendacje lub lista elementów uporządkowana według softmaxa.
Dokładność top-k jest też nazywana dokładnością w k-tym przypadku.
Kliknij ikonę, aby zobaczyć przykład.
toksyczne
stopień, w jakim treści są obraźliwe, zawierają groźby lub są nękające; Wiele modeli systemów uczących się może wykrywać i mierzyć toksyczność. Większość z nich identyfikuje toksyczność na podstawie wielu parametrów, takich jak poziom obraźliwego języka i poziom języka groźnego.
strata podczas treningu
Dane przedstawiające stratę modelu podczas konkretnej iteracji treningu. Załóżmy na przykład, że funkcja utraty to średnia kwadratowa błędu. Strata podczas trenowania (średni kwadratowy błąd) w 10.itracji wynosi 2,2, a w 100.itracji – 1,9.
Krzywa strat przedstawia straty podczas trenowania w zależności od liczby iteracji. Krzywa strat zawiera te wskazówki dotyczące trenowania:
- Spadek wskazuje, że model się poprawia.
- Wzrost oznacza, że model staje się gorszy.
- Płaski spadek oznacza, że model osiągnął konwergencję.
Na przykład z tego nieco uproszczonego zakrzywienia strat:
- ostry spadek podczas początkowych iteracji, który oznacza szybkie ulepszanie modelu;
- stopniowo spłaszczający się (ale nadal skierowany w dół) spadek aż do końca trenowania, co oznacza dalsze polepszanie modelu w trochę wolniejszym tempie niż podczas początkowych iteracji;
- Płaski spadek pod koniec trenowania, który sugeruje konwergencję.
Strata na etapie treningu jest ważna, ale warto też zapoznać się z generalizacją.
prawdziwie negatywny (PN).
Przykład, w którym model prawidłowo prognozuje klasę negatywną. Na przykład model wnioskuje, że dana wiadomość e-mail nie jest spamem, i faktycznie tak jest.
prawdziwie pozytywny (TP)
Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Na przykład model wnioskuje, że dana wiadomość e-mail jest spamem, i faktycznie jest to spam.
współczynnik wyników prawdziwie pozytywnych (TPR);
Synonim przypomnienia. Czyli:
Współczynnik wyników prawdziwie pozytywnych to oś Y na krzywej ROC.
V
utrata walidacji
Dane przedstawiające stratę modelu na zbiorze walidacyjnym w określonej iteracji trenowania.
Zobacz też krzywą generalizacji.
wagi zmiennych
Zestaw wyników, który wskazuje względne znaczenie poszczególnych cech dla modelu.
Rozważ na przykład drzewo decyzyjne, które szacuje ceny domów. Załóżmy, że ten schemat decyzyjny używa 3 cech: rozmiar, wiek i styl. Jeśli zestaw zmiennych ważności dla tych 3 cech został obliczony jako {rozmiar=5,8, wiek=2,5, styl=4,7}, to rozmiar jest ważniejszy dla drzewa decyzji niż wiek lub styl.
Istnieją różne wskaźniki znaczenia zmiennych, które mogą informować ekspertów ds. ML o różnych aspektach modeli.
W
Strata Wassersteina
Jedna z funkcji utraty powszechnie stosowanych w generatywnej sieci antagonistycznej, oparta na odległości Earth Mover między dystrybucją wygenerowanych danych a rzeczywistymi danymi.