Glosariusz terminów związanych z uczenie maszynowe: dane

Ta strona zawiera hasła z glosariusza danych. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

#fundamentals
#Dane

Liczba poprawnych klasyfikacji prognoz podzielona przez łączną liczbę prognoz. Czyli:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

Na przykład model, który trafnie przewidział 40 wartości i 10 wartości błędnie, miałby dokładność:

Accuracy=4040 + 10=80%

Klasyfikacja binarna umożliwia nadawanie konkretnych nazw różnym kategoriom prawidłowych prognoznieprawidłowych prognoz. Wzór dokładności w przypadku klasyfikacji binarnej:

Accuracy=TP+TNTP+TN+FP+FN

gdzie:

Porównaj dokładność z precyzjościączułością.

Chociaż dokładność jest wartościowym wskaźnikiem w niektórych sytuacjach, w innych może wprowadzać w błąd. Należy pamiętać, że do oceny modeli klasyfikacji, które przetwarzają zbiory danych z niezrównoważonym rozkładem klas, zwykle nie nadaje się dokładności.

Załóżmy na przykład, że w danym mieście subtropikalnym śnieg pada tylko 25 dni w wieku. Ponieważ dni bez śniegu (klasa negatywna) znacznie przeważają dni ze śniegiem (klasa pozytywna), zbiór danych o śniegu dla tego miasta jest niezrównoważony pod względem klas. Wyobraź sobie model klasyfikacji binarnej, który ma przewidywać, czy danego dnia będzie padać śnieg, czy nie. Zamiast tego codziennie przewiduje „brak śniegu”. Ten model jest bardzo dokładny, ale nie ma zdolności przewidywania. W tabeli poniżej podano podsumowanie wyników 100 lat prognoz:

Kategoria Liczba
PP 0
PN 36499
FP 0
FN 25

Dokładność tego modelu jest więc następująca:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Chociaż dokładność na poziomie 99,93% wydaje się bardzo imponująca, model w ogóle nie ma zdolności przewidywania.

Precyzjaczułość są zwykle bardziej przydatnymi wskaźnikami niż dokładność do oceny modeli wytrenowanych na zbiorach danych z niezrównoważonym rozkładem klas.


Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane z nimi dane z Kursu intensywnego z systemów uczących się.

obszar pod krzywą PR

#Dane

Zobacz PR AUC (obszar pod krzywą PR).

obszar pod krzywą ROC

#Dane

Zobacz AUC (obszar pod krzywą ROC).

AUC (obszar pod krzywą ROC)

#fundamentals
#Dane

Liczba z zakresu od 0,0 do 1,0, która reprezentuje zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Im bliższa 1,0 jest wartość AUC, tym większa jest zdolność modelu do oddzielania klas od siebie.

Na przykład ilustracja poniżej przedstawia model klasyfikatora, który doskonale oddziela klasy pozytywne (zielone owalne pola) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie idealny model ma AUC 1,0:

Po jednej stronie osi liczbowej znajduje się 8 przykładów dodatnich, a po drugiej – 9 przykładów ujemnych.

Ilustracja poniżej przedstawia wyniki modelu klasyfikatora, który generował losowe wyniki. Ten model ma AUC 0,5:

Linia liczbowa z 6 pozytywnymi i 6 ujemnymi przykładami.
          Kolejność przykładów to: pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny.

Tak, poprzedni model ma AUC 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład model poniżej w pewnym stopniu oddziela wyniki pozytywne od negatywnych, dlatego AUC wynosi od 0,5 do 1,0:

Linia liczbowa z 6 pozytywnymi i 6 ujemnymi przykładami.
          Kolejność przykładów to: negatywny, negatywny, negatywny, negatywny, pozytywny, negatywny, pozytywny, pozytywny, negatywny, pozytywny, pozytywny.

AUC ignoruje dowolną wartość ustawioną dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi kwalifikacji.

AUC to obszar pod krzywą ROC. Na przykład krzywa ROC modelu, który doskonale oddziela wyniki pozytywne od negatywnych, wygląda tak:

Wykres kartezjański. Na osi X jest współczynnik wyników fałszywie pozytywnych, a na osi Y współczynnik wyników prawdziwie pozytywnych. Wykres zaczyna się w punkcie (0,0), a potem idzie w górę do punktu (0,1), a potem w prawo do punktu (1,1).

AUC to obszar szarego regionu na ilustracji powyżej. W tym nietypowym przypadku pole jest po prostu długością szarego obszaru (1,0) pomnożoną przez szerokość szarego obszaru (1,0). W związku z tym iloczyn 1,0 i 1,0 daje AUC dokładnie równy 1,0, czyli najwyższy możliwy wynik AUC.

Natomiast krzywa ROC dla klasyfikatora, który nie może w ogóle oddzielić klas, wygląda tak. Powierzchnia tego szarego obszaru wynosi 0,5.

Wykres kartezjański. Na osi X jest współczynnik wyników fałszywie dodatnich, a na osi Y – współczynnik wyników prawdziwie pozytywnych. Wykres zaczyna się w przypadku (0,0) i biegnie ukośnie do punktu (1,1).

Bardziej typowa krzywa ROC wygląda mniej więcej tak:

Wykres kartezjański. Na osi X jest współczynnik wyników fałszywie dodatnich, a na osi Y – współczynnik wyników prawdziwie pozytywnych. Wykres zaczyna się w przypadku (0,0) i przebiega nieregularną łukiem do punktu (1,0).

Obliczanie pola pod tą krzywą ręcznie byłoby bardzo uciążliwe, dlatego program zwykle oblicza większość wartości AUC.


AUC to prawdopodobieństwo, że klasyfikator będzie bardziej pewny, że losowo wybrany przykład pozytywny jest rzeczywiście pozytywny, niż że losowo wybrany przykład negatywny jest pozytywny.


Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

średnia precyzja w k

#language
#Dane

Dane podsumowujące skuteczność modelu w przypadku pojedynczego promptu, które generują wyniki w postaci rankingu, np. numerowane listy rekomendacji książek. Średnia precyzja k to średnia precyzji dla każdego odpowiedniego wyniku. Wzór na średnią precyzję w przypadku k:

average precision at k=1nni=1precision at k for each relevant item

gdzie:

  • n to liczba odpowiednich elementów na liście.

Porównaj z przypomnieniem na poziomie k.

Załóżmy, że duży model językowy otrzymał to zapytanie:

List the 6 funniest movies of all time in order.

Duży model językowy zwraca tę listę:

  1. Ogólne
  2. Mean Girls
  3. Platoon
  4. druhny,
  5. Obywatel Kane
  6. To jest Spinal Tap
Cztery filmy na liście zwróconych wyników są bardzo zabawne (czyli trafne), ale 2 filmy to dramaty (nietrafne). Wyniki są podane w tabeli poniżej:
Pozycja Film Trafne? Dokładność w przypadku k
1 Ogólne Tak 1,0
2 Mean Girls Tak 1,0
3 Platoon Nie nie ma związku z zapytaniem
4 druhny, Tak 0,75
5 Obywatel Kane Nie nie ma związku z zapytaniem
6 To jest Spinal Tap Tak 0,67

Liczba trafnych wyników to 4. Dlatego średnią dokładność na poziomie 6 możesz obliczyć w ten sposób:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67) average precision at 6=~0.85

B

bazowa

#Dane

Model używany jako punkt odniesienia do porównywania skuteczności innego modelu (zwykle bardziej złożonego). Na przykład model regresji logistycznej może stanowić dobrą podstawę dla głębokiego modelu.

W przypadku konkretnego problemu punkt odniesienia pomaga deweloperom modeli określić minimalną oczekiwaną skuteczność, jaką nowy model musi osiągnąć, aby był przydatny.

C

koszt

#Dane

Synonim straty.

obiektywność kontrfaktyczna

#fairness
#Dane

Wskaźnik sprawiedliwości, który sprawdza, czy klasyfikator daje ten sam wynik dla jednej osoby co dla innej osoby, która jest identyczna z pierwszą, z wyjątkiem co najmniej jednego atrybutu wrażliwego. Ocena klasyfikatora pod kątem obiektywności warunkowej to jeden ze sposobów na wykrywanie potencjalnych źródeł stronniczości w modelu.

Więcej informacji znajdziesz w jednym z tych artykułów:

entropia krzyżowa

#Dane

Uogólnienie straty logarytmicznej na problemy z klasyfikacją wieloklasową. Entropia krzyżowa pozwala określić różnicę między dwoma rozkładami prawdopodobieństwa. Zobacz też perplexity.

dystrybuanta (CDF);

#Dane

Funkcja definiująca częstotliwość próbek mniejszą lub równą wartości docelowej. Rozważmy na przykład rozkład normalny wartości ciągłych. Z wykresu CDF wynika, że około 50% próbek powinno być mniejsze lub równe średniej, a około 84% próbek powinno być mniejsze lub równe jednej odchyleniu standardowemu powyżej średniej.

D

parytet demograficzny

#fairness
#Dane

Miara obiektywności, która jest spełniona, jeśli wyniki klasyfikacji modelu nie zależą od danego atrybutu wrażliwego.

Jeśli np. zarówno Lilliputianie, jak i Brobdingnagijczycy aplikują do Uniwersytetu w Glubbdubdrib, równość demograficzna jest osiągnięta, gdy odsetek przyjętych Lilliputian jest taki sam jak odsetek przyjętych Brobdingnagijczyków, niezależnie od tego, czy jedna grupa jest średnio lepiej wykwalifikowana od drugiej.

W odróżnieniu od równych szansrówności szans, które umożliwiają, aby wyniki klasyfikacji w ujęciu zbiorczym zależały od atrybutów wrażliwych, ale nie zezwalają, aby wyniki klasyfikacji dla określonych etykiet rzeczywistego stanu zależały od atrybutów wrażliwych. Aby zobaczyć wizualizację przedstawiającą kompromisy, jakie należy dokonać podczas optymalizacji pod kątem parytetu demograficznego, przeczytaj artykuł „Walka z dyskryminacją dzięki inteligentniejszym systemom uczącym się”.

Więcej informacji znajdziesz w sekcji Uczciwość: równość demograficzna w szybkim szkoleniu z uczenia maszynowego.

E

odległość w przypadku maszyn do robót ziemnych (EMD);

#Dane

Pomiar względnego podobieństwa 2 rozkładów. Im mniejsza odległość przemieszczania, tym bardziej podobne są rozkłady.

edytuj odległość

#language
#Dane

Pomiar podobieństwa 2 ciągów tekstowych. W systemach uczących się odległość edytowania jest przydatna z tych powodów:

  • Odległość edytowania jest łatwa do obliczenia.
  • Odległość edycji umożliwia porównanie 2 ciągów, które są do siebie podobne.
  • Odległość edytowania może określać, na ile różne ciągi znaków są podobne do danego ciągu znaków.

Istnieje kilka definicji odległości edycji, z których każda wykorzystuje inne operacje na ciągach znaków. Przykładem jest odległość Levenshteina.

empiryczna dystrybuanta (eCDF lub EDF)

#Dane

dystrybuanta kumulatywna oparta na pomiarach empirycznych pochodzących z rzeczywistego zbioru danych. Wartość funkcji w dowolnym punkcie na osi x to ułamek obserwacji w zbiorze danych, które są mniejsze lub równe określonej wartości.

entropia

#df
#Dane

W teorii informacji jest to opis tego, jak nieprzewidywalna jest rozkład prawdopodobieństwa. Entropia może być też zdefiniowana jako ilość informacji zawartych w każdym przykładzie. Rozkład ma najwyższą możliwą entropię, gdy wszystkie wartości zmiennej losowej są równie prawdopodobne.

Entropia zbioru o dwóch możliwych wartościach „0” i „1” (np. etykiety w problemie dwudzielnej klasyfikacji) ma postać:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

gdzie:

  • H to entropia.
  • p to ułamek przykładów „1”.
  • q to ułamek przykładów o wartości „0”. Zwróć uwagę, że q = (1 - p)
  • log to zwykle log2. W tym przypadku jednostką entropii jest bit.

Załóżmy na przykład, że:

  • 100 przypadków zawiera wartość „1”.
  • 300 przykładów zawiera wartość „0”

Dlatego wartość entropii wynosi:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 b na przykład

Zbiór, który jest idealnie zrównoważony (np.200 wartości „0” i 200 wartości „1”), będzie miał entropię 1,0 bita na przykład. W miarę jak zbiór staje się bardziej niezrównoważony, jego entropia zbliża się do 0,0.

W drzewach decyzyjnych entropia pomaga formułować wzrost informacji, aby ułatwić spółczynnikowi wybór warunków podczas tworzenia drzewa decyzyjnego klasyfikacji.

Porównaj entropię z:

Entropia jest często nazywana entropią Shannona.

Więcej informacji znajdziesz w sekcji Rozdzielacz dokładny w przypadku klasyfikacji binarnej z cechami liczbowymi w Kursie lasów decyzyjnych.

równość szans

#fairness
#Dane

Dane o sprawiedliwości, które pozwalają ocenić, czy model prognozuje pożądany wynik równie dobrze w przypadku wszystkich wartości wrażliwego atrybutu. Inaczej mówiąc, jeśli pożądanym wynikiem działania modelu jest klasa pozytywna, celem jest uzyskanie prawdziwej wartości pozytywnej w przypadku wszystkich grup.

Równe szanse są powiązane z równymi szansami, które wymagają, aby zarówno współczynniki wyników prawdziwie pozytywnych, jak i wyników fałszywie dodatnich były takie same we wszystkich grupach.

Załóżmy, że Uniwersytet Glubbdubdrib przyjmuje zarówno Liliputan, jak i Brobdingnagijczyków do rygorystycznego programu matematycznego. Szkoły średnie w Lilliput oferują solidny program nauczania matematyki, a znaczna większość uczniów kwalifikuje się do studiów uniwersyteckich. Szkoły średnie w Brobdingnag nie oferują w ogóle zajęć z matematyki, w wyniku czego znacznie mniej ich uczniów ma odpowiednie kwalifikacje. Równe szanse są zapewnione w przypadku preferowanej etykiety „przyjęcie” w związku z przynależnością narodową (Lilliputianin lub Brobdingnagijczyk), jeśli kwalifikujący się uczniowie mają równe szanse na przyjęcie niezależnie od tego, czy są Lilliputianami czy Brobdingnagijczykami.

Załóżmy na przykład, że na Uniwersytet Glubbdubdrib aplikuje 100 mieszkańców Lilliputu i 100 mieszkańców Brobdingnag. Decyzje dotyczące przyjęcia na studia są podejmowane w następujący sposób:

Tabela 1. Lilliputian applicants (90% are qualified)

  Zakwalifikowany Niezakwalifikowany
Przyjęty 45 3
Odrzucono 45 7
Łącznie 90 10
Odsetek przyjętych kwalifikujących się uczniów: 45/90 = 50%
Odsetek odrzuconych niekwalifikujących się uczniów: 7/10 = 70%
Całkowity odsetek przyjętych uczniów z Lilliput: (45+3)/100 = 48%

 

Tabela 2. Kandydaci z Brodbingnii (10% kwalifikuje się):

  Zakwalifikowany Niezakwalifikowany
Przyjęty 5 9
Odrzucono 5 81
Łącznie 10 90
Odsetek przyjętych studentów spełniających wymagania: 5/10 = 50%
Odsetek odrzuconych studentów, którzy nie spełniali wymagań: 81/90 = 90%
Całkowity odsetek przyjętych studentów z Brobdingnagi: (5+9)/100 = 14%

Powyższe przykłady spełniają wymóg równości szans w przyjmowaniu kwalifikujących się uczniów, ponieważ zarówno kwalifikujący się Lilliputanie, jak i Brobdingnagijczycy mają 50% szans na przyjęcie.

Warunek równości szans jest spełniony, ale nie spełniają się 2 kryteria obiektywności:

  • parytet demograficzny: Lilliputanie i Brobdingnagowie są przyjmowani na studia w różnym stopniu; 48% Lilliputanów zostaje przyjętych, ale tylko 14% Brobdingnagów.
  • Równe szanse: choć kwalifikujący się studenci z Lilliput i Brobdingnag mają takie same szanse na przyjęcie, nie jest spełniony dodatkowy warunek, że kwalifikujący się studenci z Lilliput i Brobdingnag mają takie same szanse na odrzucenie. Niekwalifikujący się Liliputanie mają wskaźnik odrzuceń na poziomie 70%, a niekwalifikujący się Brobdingnanie – 90%.

Więcej informacji znajdziesz w sekcji Uczciwość: równe szanse w Szybkim szkoleniu z uczenia maszynowego.

wyrównane szanse

#fairness
#Dane

Dane o sprawiedliwości, które pozwalają ocenić, czy model prognozuje wyniki równie dobrze dla wszystkich wartości wrażliwego atrybutu w przypadku klasy pozytywnejklasy negatywnej, a nie tylko jednej z nich. Inaczej mówiąc, zarówno współczynnik wyników prawdziwie pozytywnych, jak i współczynnik wyników fałszywie negatywnych powinny być takie same we wszystkich grupach.

Równe szanse są powiązane z równością szans, która skupia się tylko na współczynnikach błędów w pojedynczej klasie (dodatnich lub ujemnych).

Załóżmy na przykład, że Uniwersytet Glubbdubdrib przyjmuje do rygorystycznego programu matematycznego zarówno Liliputan, jak i Brobdingnagijczyków. Szkoły średnie na Lilliputii oferują solidny program nauczania matematyki, a znaczna większość uczniów kwalifikuje się do studiów uniwersyteckich. Szkoły średnie w Brobdingnadze w ogóle nie oferują zajęć z matematyki, w wyniku czego znacznie mniej uczniów spełnia wymagania. Warunek równości szans jest spełniony, jeśli bez względu na to, czy kandydat jest liliputem czy olbrzymem, jeśli spełnia wymagania, ma równe szanse na przyjęcie do programu, a jeśli ich nie spełnia, ma równe szanse na odrzucenie.

Załóżmy, że na studia na Uniwersytecie w Glubbdubdrib aplikuje 100 mieszkańców Lilliputu i 100 mieszkańców Brobdingnag. Decyzje dotyczące przyjęcia na studia są podejmowane w ten sposób:

Tabela 3. Lilliputian applicants (90% are qualified)

  Zakwalifikowany Niezakwalifikowany
Przyjęty 45 2
Odrzucono 45 8
Łącznie 90 10
Odsetek przyjętych kwalifikujących się uczniów: 45/90 = 50%
Odsetek odrzuconych niekwalifikujących się uczniów: 8/10 = 80%
Całkowity odsetek przyjętych uczniów z Lilliput: (45+2)/100 = 47%

 

Tabela 4. Kandydaci z Brodbingnii (10% kwalifikuje się):

  Zakwalifikowany Niezakwalifikowany
Przyjęty 5 18
Odrzucono 5 72
Łącznie 10 90
Odsetek przyjętych studentów spełniających wymagania: 5/10 = 50%
Odsetek odrzuconych studentów, którzy nie spełniali wymagań: 72/90 = 80%
Całkowity odsetek przyjętych studentów z Brobdingnagi: (5 + 18)/100 = 23%

Warunek równych szans jest spełniony, ponieważ zarówno kwalifikujący się studenci z Lilliputu, jak i z Brobdingnag mają 50% szans na przyjęcie, a niekwalifikujący się studenci z Lilliputu i z Brobdingnag mają 80% szans na odrzucenie.

Równe szanse są formalnie zdefiniowane w artykule „Równe szanse w nauce nadzorowanej” w ten sposób: „Predictor Ŷ spełnia warunek równych szans w odniesieniu do chronionego atrybutu A i wyniku Y, jeśli Ŷ i A są niezależne, warunkowo na Y”.

evals

#language
#generativeAI
#Dane

Jest to głównie skrót od oceny LLM. Ogólnie rzecz biorąc, evals to skrót od dowolnej formy oceny.

ocena

#language
#generativeAI
#Dane

Proces pomiaru jakości modelu lub porównywania różnych modeli.

Aby ocenić nadzorowany model uczenia maszynowego, zwykle porównujemy go z zestawami walidacyjnym i testowym. Ocena modelu LLMzazwyczaj obejmuje szerszą ocenę jakości i bezpieczeństwa.

F

F1

#Dane

Dane „podstawowe” klasyfikacji binarnej, które zależą zarówno od precyzyjności, jak i od czułości. Oto formuła:

F1=2 * precision * recallprecision + recall

Załóżmy, że precyzja i czułość mają te wartości:

  • precyzja = 0,6
  • przypomnienie = 0,4

Wartość F1 obliczasz w ten sposób:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

Gdy precyzja i czułość są dość podobne (jak w poprzednim przykładzie),1 jest zbliżone do ich średniej. Gdy precyzja i czułość różnią się znacznie, wartość F1 jest bliższa niższej wartości. Na przykład:

  • precyzja = 0,9
  • recall = 0,1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

wskaźnik obiektywności

#fairness
#Dane

matematyczna definicja „obiektywności”, która jest możliwa do zmierzenia; Do najczęściej używanych wskaźników sprawiedliwości należą:

Wiele wskaźników obiektywności wyklucza się wzajemnie. Więcej informacji znajdziesz w artykule Brak spójności wskaźników obiektywności.

fałszywie negatywny (FN),

#fundamentals
#Dane

Przykład, w którym model błędnie przewiduje klasę negatywną. Na przykład model przewiduje, że dana wiadomość e-mail nie jest spamem (klasa negatywna), ale w rzeczywistości jest to spam.

współczynnik wyników fałszywie negatywnych

#Dane

Odsetek rzeczywistych przykładów pozytywnych, dla których model błędnie przewidział klasę negatywną. Odsetek fałszywie negatywnych wyników jest obliczany według tego wzoru:

false negative rate=false negativesfalse negatives+true positives

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

wynik fałszywie pozytywny (FP).

#fundamentals
#Dane

Przykład, w którym model błędnie prognozuje klasę pozytywną. Na przykład model przewiduje, że dana wiadomość e-mail jest spamem (klasa pozytywna), ale w rzeczywistości nie jest to spam.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

współczynnik wyników fałszywie pozytywnych (FPR);

#fundamentals
#Dane

Odsetek rzeczywistych przykładów negatywnych, dla których model błędnie przewidział klasę pozytywną. Odsetek wyników fałszywie dodatnich oblicza się za pomocą tego wzoru:

false positive rate=false positivesfalse positives+true negatives

Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

znaczenie cech;

#df
#Dane

Synonim wartości zmiennej.

ułamek sukcesów

#generativeAI
#Dane

Dane służące do oceny wygenerowanego tekstu przez model ML. Ułamek sukcesów to liczba „udanych” wygenerowanych tekstów wyjściowych podzielona przez łączną liczbę wygenerowanych tekstów wyjściowych. Jeśli na przykład duży model językowy wygenerował 10 bloków kodu, z których 5 było udanych, odsetek sukcesów wyniesie 50%.

Chociaż odsetek sukcesów jest przydatny w różnych statystykach, w ML ten wskaźnik jest przydatny głównie do pomiaru weryfikowalnych zadań, takich jak generowanie kodu czy rozwiązywanie problemów matematycznych.

G

wskaźnik gini,

#df
#Dane

Dane podobne do entropii. Separatory używają wartości pochodzących z nieczystości Gini lub entropii, aby tworzyć warunki służące do klasyfikacji w drzewach decyzyjnych. Zyskane informacje pochodzą z entropii. Nie ma powszechnie akceptowanego odpowiednika dla danych pochodzących z wskaźnika gini; jednak te nienazwane dane są równie ważne jak zysk informacji.

Zanieczyszczenie Giniego nazywane jest też wskaźnikiem Giniego lub po prostu Ginim.

Zanieczyszczenie Gini to prawdopodobieństwo błędnego zaklasyfikowania nowego elementu danych pochodzącego z tego samego rozkładu. Nieczystość Gini zbioru z dwoma możliwymi wartościami „0” i „1” (np. etykiety w problemie dwoistego podziału) jest obliczana według tej formuły:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

gdzie:

  • I to wskaźnik nieczystości Gini.
  • p to ułamek przykładów „1”.
  • q to ułamek przykładów o wartości „0”. Pamiętaj, że q = 1-p

Weź pod uwagę ten zbiór danych:

  • 100 etykiet (0,25 zbioru danych) zawiera wartość „1”.
  • 300 etykiet (0,75 zbioru danych) zawiera wartość „0”.

W związku z tym nieczystość Gini wynosi:

  • p = 0,25
  • q = 0,75
  • I = 1 - (0,252 + 0,752) = 0,375

W związku z tym losowa etykieta z tego samego zbioru danych ma 37, 5% prawdopodobieństwo nieprawidłowego zaklasyfikowania i 62, 5% prawdopodobieństwo prawidłowego zaklasyfikowania.

Etykieta o idealnie zrównoważonym rozkładzie (np.200 wartości 0 i 200 wartości 1) miałaby współczynnik gini równy 0, 5. Etykieta o wysokim stopniu niezrównoważenia miałaby wartość gini impurity zbliżoną do 0,0.


H

utrata zawiasu,

#Dane

Rodzina funkcji straty do klasyfikacji, która ma na celu znalezienie granicy decyzyjnej jak najbardziej oddalonej od każdego przykładu treningowego, maksymalizując w ten sposób margines między przykładami a granicą. KSVM używają funkcji hinge loss (lub powiązanej z nią funkcji, np. kwadratowej funkcji hinge loss). W przypadku klasyfikacji binarnej funkcja straty sprężynowej jest zdefiniowana w ten sposób:

loss=max(0,1(yy))

gdzie y to właściwa etykieta (-1 lub +1), a y' to nieprzetworzone dane wyjściowe modelu klasyfikatora:

y=b+w1x1+w2x2+wnxn

W związku z tym wykres straty stycznej w zależności od (y * y') wygląda tak:

Wykres kartezjański utworzony z 2 złączonych odcinków linii. Pierwszy odcinek linii zaczyna się w punktach (-3, 4) i kończy w punktach (1, 0). Drugi segment linii zaczyna się w przypadku (1, 0) i ciągnie się w nieskończoność z nachyleniem 0.

I

niezgodność wskaźników obiektywności

#fairness
#Dane

Pogląd, że niektóre pojęcia obiektywności są niekompatybilne i nie mogą być spełnione jednocześnie. W rezultacie nie ma jednego uniwersalnego wskaźnika obiektywności, który można by zastosować do wszystkich problemów z uczeniem maszynowym.

Chociaż może to zniechęcać, brak spójności wskaźników obiektywności nie oznacza, że wysiłki na rzecz obiektywności są bezowocne. Zamiast tego sugeruje, że obiektywność trzeba definiować w kontekście określonego problemu związanego z ML, aby zapobiegać szkodom związanym z danymi zastosowaniami.

Aby dowiedzieć się więcej o niezgodności wskaźników obiektywności, przeczytaj artykuł „On the (im)possibility of fairness” (O możliwości i niemożliwości obiektywności)”.

obiektywność w stosunku do poszczególnych osób,

#fairness
#Dane

Dane dotyczące sprawiedliwości, które sprawdzają, czy podobne osoby są klasyfikowane w podobny sposób. Na przykład Brobdingnagian Academy może chcieć zapewnić sprawiedliwość indywidualną, dbając o to, aby dwoje uczniów z identycznymi ocenami i wynikami testów standaryzowanych mieli równe szanse na przyjęcie.

Pamiętaj, że indywidualna sprawiedliwość zależy wyłącznie od tego, jak zdefiniujesz „podobność” (w tym przypadku oceny i wyniki testów). Jeśli wskaźnik podobieństwa pomija ważne informacje (np. rygorystyczne programy nauczania), możesz narazić się na ryzyko wprowadzenia nowych problemów z sprawiedliwością.

Aby uzyskać bardziej szczegółowe informacje o sprawiedliwości indywidualnej, zapoznaj się z artykułem „Fairness Through Awarenes”.

zysk informacji

#df
#Dane

W lasach decyzyjnych jest to różnica między entropią węzła a ważoną (pod względem liczby przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.

Weźmy na przykład te wartości entropii:

  • entropia węzła nadrzędnego = 0,6
  • entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
  • entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1

Oznacza to, że 40% przykładów znajduje się w jednym węźle podrzędnym, a 60% – w drugim. Dlatego:

  • ważona suma entropii węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Informacje, które można uzyskać, to:

  • przyrost informacji = entropia węzła nadrzędnego – ważona suma entropii węzłów podrzędnych
  • przyrost informacji = 0,6 - 0,14 = 0,46

Większość rozdzielaczy stara się tworzyć warunki, które maksymalizują zysk informacji.

umowa między recenzentami

#Dane

Miara, która określa, jak często weryfikatorzy zgadzają się ze sobą podczas wykonywania zadania. Jeśli oceniający się nie zgadzają, może być konieczne poprawienie instrukcji zadania. Czasem jest też nazywany porozumieniem między selekcjonerami lub wiarygodnością między oceniającymi. Zobacz też wskaźnik kappa Cohena, który jest jednym z najpopularniejszych wskaźników zgodności między oceniającymi.

Więcej informacji znajdziesz w sekcji Dane kategoryczne: typowe problemy z Kursu intensywnego na temat uczenia maszynowego.

L

Straty L1

#fundamentals
#Dane

Funkcja strat, która oblicza bezwzględną wartość różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie utraty L1partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu Wartość prognozowana przez model Wartość bezwzględna delty
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1

Strata L1 jest mniej wrażliwa na wartości wyizolowane niż strata L2.

Średni bezwzględny błąd to średnia utrata informacji L1 na przykład.

L1loss=ni=0|yiˆyi|

gdzie:
  • n to liczba przykładów.
  • y to rzeczywista wartość etykiety.
  • ˆy to wartość prognozowana przez model dla y.

Więcej informacji znajdziesz w sekcji Regresja liniowa: funkcja utraty w Kursie intensywnym z systemów uczących się.

Strata L2

#fundamentals
#Dane

Funkcja strat, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiety a wartościami przewidywanymi przez model. Oto na przykład obliczenie strat L2 dla partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu Wartość prognozowana przez model Kwadrat delty
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2

Z powodu kwadratowania strata L2 wzmacnia wpływ wartości odstających. Oznacza to, że strata L2 reaguje silniej na złe prognozy niż strata L1. Na przykład strata L1 w poprzednim zbiorze wynosi 8, a nie 16. Zwróć uwagę, że 9 z 16 wyników to wartości odstające.

Modele regresji zwykle używają funkcji utraty L2 jako funkcji utraty.

Wartość błędu średniokwadratowego to średnia strata funkcji L2 na przykład. Strata kwadratowa to inna nazwa straty L2.

L2loss=ni=0(yiˆyi)2

gdzie:
  • n to liczba przykładów.
  • y to rzeczywista wartość etykiety.
  • ˆy to wartość prognozowana przez model dla y.

Więcej informacji znajdziesz w sekcji Logistyczna regresja: utrata i regularyzacja z Kursu intensywnego na temat uczenia maszynowego.

Oceny LLM (evals)

#language
#generativeAI
#Dane

Zestaw danych i punktów odniesienia do oceny skuteczności dużych modeli językowych (LLM). Ogólnie rzecz biorąc, oceny LLM:

  • Pomagać badaczom w określaniu obszarów, w których modele LLM wymagają poprawy.
  • przydają się do porównywania różnych modeli LLM i określania, który z nich najlepiej nadaje się do danego zadania;
  • pomagać w zapewnieniu bezpieczeństwa i zgody z zasadami etycznymi w przypadku modeli LLM.

Aby dowiedzieć się więcej, zapoznaj się z sekcją Duże modele językowe (LLM) w szybkim szkoleniu z uczenia maszynowego.

przegrana

#fundamentals
#Dane

Podczas treningu modelu nadzorowanego mierzy się, jak daleko prognoza modelu odbiega od etykiety.

Funkcja utraty oblicza utratę.

Więcej informacji znajdziesz w sekcji Regresja liniowa: funkcja utraty w Kursie intensywnym z systemów uczących się.

funkcja utraty

#fundamentals
#Dane

Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę na partii przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które dobrze przewidują, niż w przypadku modeli, które źle przewidują.

Celem trenowania jest zwykle minimalizowanie straty zwracanej przez funkcję straty.

Istnieje wiele różnych rodzajów funkcji strat. Wybierz odpowiednią funkcję utraty dla rodzaju modelu, który budujesz. Na przykład:

M

Średni błąd bezwzględny (MAE)

#Dane

Średnia utrata na przykładzie, gdy używana jest strategia L1. Oblicz średni błąd bezwzględny w ten sposób:

  1. Oblicz stratę L1 dla partii.
  2. Podziel stratę L1 przez liczbę przykładów w partii.

Mean Absolute Error=1nni=0|yiˆyi|

gdzie:

  • n to liczba przykładów.
  • y to rzeczywista wartość etykiety.
  • ˆy to wartość prognozowana przez model dla y.

Weźmy na przykład obliczenie utraty L1 na podstawie tej grupy 5 przykładów:

Rzeczywista wartość przykładu Wartość prognozowana przez model Strata (różnica między wartością rzeczywistą a przewidywaną)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1

Współczynnik utraty informacji L1 wynosi 8, a liczba przykładów – 5. Średni błąd bezwzględny wynosi więc:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Średni bezwzględny błąd kontrastu z błędem średniokwadratowymśrednią kwadratową błędów.

średnia średnia precyzja w k (mAP@k)

#language
#generativeAI
#Dane

Statystyczna średnia wszystkich wyników średniej precyzji na k w przypadku zbioru danych do weryfikacji. Średnia średnia precyzja w k służy m.in. do oceny jakości rekomendacji generowanych przez system rekomendacji.

Chociaż wyrażenie „średnia średnia” brzmi niepotrzebnie, nazwa tego wskaźnika jest odpowiednia. Wskaźnik ten oblicza średnią średnią dokładność w przypadku wartości k.

Załóżmy, że tworzysz system rekomendacji, który generuje spersonalizowaną listę polecanych powieści dla każdego użytkownika. Na podstawie opinii wybranych użytkowników obliczasz 5 wartości średniej dokładności dla k wyników (po 1 wyniku na użytkownika):

  • 0,73
  • 0,77
  • 0,67
  • 0,82
  • 0,76

Średnia precyzja na poziomie K wynosi więc:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

Średnia kwadratowa błędu (MSE)

#Dane

Średnia utrata na przykładzie, gdy używana jest utrata L2. Oblicz błąd średniokwadratowy w ten sposób:

  1. Oblicz straty L2 dla partii.
  2. Podziel stratę L2 przez liczbę przykładów w partii.
Mean Squared Error=1nni=0(yiˆyi)2 gdzie:
  • n to liczba przykładów.
  • y to rzeczywista wartość etykiety.
  • ˆy to prognoza modelu dla wartości y.

Rozważmy na przykład straty w przypadku tej serii 5 przypadków:

Rzeczywista wartość Prognoza modelu Strata Strata kwadratowa
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2

Dlatego błąd średniokwadratowy wynosi:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Błąd średniokwadratowy to popularny optymalizator, zwłaszcza w przypadku regresji liniowej.

Porównaj błąd średniokwadratowy z średnim bezwzględnym błędemśrednią kwadratową błędów.

TensorFlow Playground używa średniej kwadratowej błędów do obliczania wartości utraty.

Wyjątki mają duży wpływ na błąd średniokwadratowy. Na przykład strata 1 to kwadrat straty 1, ale strata 3 to kwadrat straty 9. W tabeli powyżej przykład z 3 stratami odpowiada za około 56% średniej wartości błędu kwadratowego, podczas gdy każdy z przykładów z 1 stratą odpowiada za tylko 6% średniej wartości błędu kwadratowego.

Wyjątkowe wartości nie wpływają na średni błąd bezwzględny tak mocno jak błąd średniokwadratowy. Na przykład utrata 3 kont stanowi tylko ok. 38% średniej wartości bezwzględnej błędu.

Odcięcie wartości odstających to jeden ze sposobów zapobiegania temu, aby wartości ekstremalne nie pogarszały zdolności modela do przewidywania.


wskaźnik

#TensorFlow
#Dane

Statystyka, która Cię interesuje.

Cel to dane, które system uczących się próbuje zoptymalizować.

Metrics API (tf.metrics)

#Dane

Interfejs API TensorFlow do oceny modeli. Na przykład tf.metrics.accuracyokreśla, jak często prognozy modelu zgadzają się z etykietami.

minimalna strata

#Dane

Funkcja utraty dla generatywnej sieci antagonistycznej, oparta na krzyżowej entropii między dystrybucją wygenerowanych danych a rzeczywistymi danymi.

Strata minimax jest używana w pierwszym artykule do opisania generatywnych sieci antagonistycznych.

Więcej informacji znajdziesz w sekcji Funkcje utraty w szkoleniu Generative Adversarial Networks.

pojemność modelu

#Dane

Złożoność problemów, których model może się uczyć. Im bardziej złożone problemy może rozwiązywać model, tym większa jest jego zdolność uczenia się. Zdolność modelu do generowania trafnych prognoz zwykle rośnie wraz z liczbą parametrów modelu. Nieformalną definicję pojemności klasyfikatora znajdziesz w sekcji Wymiary VC.

N

klasa wyników negatywnych

#fundamentals
#Dane

W przypadku klasyfikacji binarnej jedna klasa jest określana jako dodatnia, a druga jako ujemna. Klasa pozytywna to rzecz lub zdarzenie, które model testuje, a klasa negatywna to inna możliwość. Na przykład:

  • Klasa negatywna w teście medycznym może być oznaczona jako „nie nowotwór”.
  • Klasa negatywna w klasyfikatorze e-maili może być oznaczona jako „nie spam”.

Porównaj z klasą wyników pozytywnych.

O

cel

#Dane

Dane, które algorytm próbuje zoptymalizować.

funkcja celu

#Dane

Formuła matematyczna lub dane, które model ma optymalizować. Na przykład funkcja celu w regresji liniowej to zwykle średnia kwadratowa utrata. Dlatego podczas trenowania modelu regresji liniowej celem jest zminimalizowanie średniej straty kwadratowej.

W niektórych przypadkach celem jest maksymalizowanie funkcji celu. Jeśli np. funkcją celu jest dokładność, celem jest maksymalizacja dokładności.

Zobacz też utrata.

P

pass at k (pass@k)

#Dane

Dane określające jakość kodu (np. Pythona), który generuje duży model językowy. W szczególności pass at k określa prawdopodobieństwo, że co najmniej jeden wygenerowany blok kodu z k wygenerowanych bloków kodu przejdzie wszystkie testy jednostkowe.

Duże modele językowe często mają problemy z generowaniem dobrego kodu w przypadku skomplikowanych problemów programistycznych. Inżynierowie oprogramowania radzą sobie z tym problemem, prosząc duży model językowy o wygenerowanie wielu (k) rozwiązań tego samego problemu. Następnie inżynierowie oprogramowania testują każde z rozwiązań za pomocą testów jednostkowych. Obliczenie wartości k zależy od wyniku testów jednostkowych:

  • Jeśli co najmniej jedno z tych rozwiązań przejdzie test jednostkowy, LLM przejmie to wyzwanie dotyczące generowania kodu.
  • Jeśli żadne z rozwiązań nie przejdzie testu jednostkowego, LLM nie przejdzie tego wyzwania dotyczącego generowania kodu.

Formuła dla pass at k:

pass at k=total number of passestotal number of challenges

Ogólnie im wyższe wartości parametru k, tym lepsze wyniki testów z parametrem k, ale wyższe wartości k wymagają większych zasobów do testowania modeli językowych i testowania jednostkowego.

Załóżmy, że inżynier oprogramowania prosi duży model językowy o wygenerowanie k=10 rozwiązań dla n=50 trudnych problemów z programowania. Oto wyniki:

  • 30 kart
  • 20 błędów

Wynik zaliczający 10 punktów jest więc taki:

pass at 10=3050=0.6

występ

#Dane

Termin o wielu znaczeniach:

  • Standardowe znaczenie w inżynierii oprogramowania. Chodzi o to, jak szybko (lub wydajnie) działa to oprogramowanie.
  • znaczenie w uczeniu maszynowym. W tym przypadku skuteczność odpowiada na pytanie: „Jak dokładny jest ten model?”. Czyli jak trafne są prognozy modelu?

permutacyjna ważność zmiennych

#df
#Dane

Typ znaczenia zmiennej, który ocenia wzrost błędu prognozy modelu po permutacji wartości cechy. Permutacyjna ważność zmiennej jest miarą niezależną od modelu.

perplexity

#Dane

Miara, która określa, jak dobrze model wykonuje swoje zadanie. Załóżmy na przykład, że Twoim zadaniem jest odczytanie kilku pierwszych liter słowa, które użytkownik wpisują na klawiaturze telefonu, oraz podanie listy możliwych słów do dokończenia. W przypadku tego zadania liczba prób, które musisz zaproponować, aby lista zawierała rzeczywiste słowo, które użytkownik próbuje wpisać, to około P.

Złożoność jest powiązana z entropią krzyżową w ten sposób:

P=2cross entropy

klasa wyników pozytywnych

#fundamentals
#Dane

Zajęcia, których dotyczy test.

Na przykład klasa pozytywna w modelu dotyczącym raka może być „guz”. Klasa pozytywna w klasyfikatorze e-maili może być „spam”.

Porównaj z klasą wyników negatywnych.

Termin poziom pozytywny może być mylący, ponieważ „pozytywny” wynik wielu testów jest często niepożądany. Na przykład klasa pozytywna w przypadku wielu testów medycznych odpowiada guzom lub chorobom. Ogólnie rzecz biorąc, lekarz powinien powiedzieć: „Gratulacje! Wyniki testu były negatywne”. Niezależnie od tego klasa pozytywna to zdarzenie, które test próbuje znaleźć.

Testujesz jednocześnie pozytywne i negatywne klasy.


PR AUC (obszar pod krzywą PR)

#Dane

Obszar pod interpolowaną krzywą precyzji i czułości uzyskany przez naniesienie punktów (czułość, precyzja) dla różnych wartości progu klasyfikacji.

precyzja

#Dane

Dane dotyczące modeli klasyfikacji, które odpowiadają na to pytanie:

Kiedy model przewidział klasę pozytywną, jaki był odsetek poprawnych prognoz?

Oto formuła:

Precision=true positivestrue positives+false positives

gdzie:

  • Prawdziwy pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
  • Wynik fałszywie pozytywny oznacza, że model pomylić klasę pozytywną.

Załóżmy na przykład, że model wygenerował 200 pozytywnych prognoz. Spośród tych 200 pozytywnych prognoz:

  • 150 z nich to wyniki prawdziwie pozytywne.
  • 50 z nich to wyniki fałszywie pozytywne.

W tym przypadku:

Precision=150150+50=0.75

W przeciwieństwie do dokładnościczułości.

Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane z nimi dane z Kursu intensywnego z systemów uczących się.

dokładność k (precision@k)

#language
#Dane

Dane służące do oceny uszeregowanej (posortowanej) listy elementów. Dokładność na poziomie k określa ułamek pierwszych k elementów na liście, które są „odpowiednie”. Czyli:

precision at k=relevant items in first k items of the listk

Wartość k musi być mniejsza lub równa długości zwracanej listy. Pamiętaj, że długość zwróconej listy nie jest uwzględniana w obliczeniach.

Odpowiednie treści są często subiektywną kwestią. Nawet eksperci oceniacze często nie zgadzają się co do tego, które treści są odpowiednie.

Porównaj z:

Załóżmy, że duży model językowy otrzymał to zapytanie:

List the 6 funniest movies of all time in order.

Duży model językowy zwraca listę widoczną w 2 pierwszych kolumnach tej tabeli:

Pozycja Film Trafne?
1 Ogólne Tak
2 Mean Girls Tak
3 Platoon Nie
4 druhny, Tak
5 Obywatel Kane Nie
6 To jest Spinal Tap Tak

Dwa z pierwszych trzech filmów są odpowiednie, więc dokładność na poziomie 3 to:

precision at 3=23=0.67

4 z 5 pierwszych filmów są bardzo zabawne, więc precyzja w przypadku 5 jest następująca:

precision at 5=45=0.8

krzywej precyzji i czułości

#Dane

Krzywa precyzyjności w porównaniu z czułością przy różnych progach klasyfikacji.

błędy prognozowania

#Dane

Wartość wskazująca, jak daleko od siebie jest średnia prognoz i średnia etykiet w zbiorze danych.

Nie należy mylić tego pojęcia z terminem „bias” w modelach uczenia maszynowego ani z uprzedzeniami w zakresie etyki i sprawiedliwości.

parytet prognozowany

#fairness
#Dane

Dane dotyczące sprawiedliwości, które sprawdzają, czy w przypadku danego klasyfikatora współczynniki precyzyjności są równoważne w przypadku rozpatrywanych podgrup.

Na przykład model, który przewiduje przyjęcie na studia, spełnia warunek równości prognoz dla narodowości, jeśli jego współczynnik dokładności jest taki sam w przypadku Lilliputów i Brobdingnagijczyków.

Równość prognozowana jest czasami nazywana równością stawek prognozowanych.

Więcej informacji o równości w ramach prognozowania znajdziesz w sekcji „Definicje uczciwości” (sekcja 3.2.1).

parytet stawek prognozowanych

#fairness
#Dane

Inna nazwa prognostycznych parzystwości.

funkcja gęstości prawdopodobieństwa

#Dane

Funkcja, która identyfikuje częstotliwość występowania próbek danych o dokładnie określonej wartości. Gdy wartości w danym zbiorze danych są ciągłymi liczbami zmiennoprzecinkowymi, dopasowania ścisłe występują rzadko. Jednak zintegrowanie funkcji gęstości prawdopodobieństwa od wartości x do wartości y daje oczekiwaną częstotliwość próbek danych z zakresu xy.

Rozważmy na przykład rozkład normalny o średniej 200 i odchyleniu standardowym 30. Aby określić oczekiwaną częstotliwość próbek danych w zakresie od 211,4 do 218,7, możesz zintegrować funkcję gęstości prawdopodobieństwa dla rozkładu normalnego w zakresie od 211,4 do 218,7.

R

wycofanie

#Dane

Dane dotyczące modeli klasyfikacji, które odpowiadają na to pytanie:

Gdy dane podstawowe to klasa pozytywna, jaki odsetek prognoz model poprawnie zidentyfikował jako klasę pozytywną?

Oto formuła:

Recall=true positivestrue positives+false negatives

gdzie:

  • Prawdziwy pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
  • Fałszywie negatywny oznacza, że model pomyłkowo przewidział klasę negatywną.

Załóżmy na przykład, że model wygenerował 200 prognoz na przykładach, dla których ground truth to klasa pozytywna. Spośród tych 200 prognoz:

  • 180 z nich to wyniki prawdziwie pozytywne.
  • 20 z nich to wyniki fałszywie negatywne.

W tym przypadku:

Recall=180180+20=0.9

Współczynnik przyrostu jest szczególnie przydatny do określania zdolności predykcyjnych modeli klasyfikacji, w których klasa pozytywna jest rzadka. Rozważmy na przykład zbiór danych z niezrównowagą klas, w którym klasa pozytywna danej choroby występuje tylko u 10 pacjentów na milion. Załóżmy, że Twój model wykonuje 5 mln prognoz, które dają następujące wyniki:

  • 30 wyników prawdziwie pozytywnych
  • 20 wyników fałszywie negatywnych
  • 4 999 000 wyników prawdziwie negatywnych
  • 950 wyników fałszywie pozytywnych

Wycofanie tego modelu jest więc następujące:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
Dokładność tego modelu:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Wysoka wartość dokładności wygląda imponująco, ale w istocie nie ma znaczenia. W przypadku zbiorów danych o niezrównoważonym rozkładzie klas czułość jest znacznie przydatniejszym wskaźnikiem niż dokładność.


Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane dane.

skuteczność przy k (recall@k)

#language
#Dane

Dane służące do oceny systemów, które zwracają uporządkowaną listę elementów. Odsetek k wskazuje ułamek odpowiednich elementów w pierwszych k elementach na liście spośród łącznej liczby zwróconych odpowiednich elementów.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

Porównaj z dokładnością w k.

Załóżmy, że duży model językowy otrzymuje to zapytanie:

List the 10 funniest movies of all time in order.

Duży model językowy zwraca listę widoczną w pierwszych dwóch kolumnach:

Pozycja Film Trafne?
1 Ogólne Tak
2 Mean Girls Tak
3 Platoon Nie
4 druhny, Tak
5 To jest Spinal Tap Tak
6 Samolot! Tak
7 Dzień świstaka Tak
8 Monty Python i Święty GraalTak
9 Oppenheimer Nie
10 Clueless Tak

Osiem filmów z poprzedniej listy jest bardzo zabawnych, więc są to „odpowiednie pozycje na liście”. Dlatego 8 będzie mianownikiem we wszystkich obliczeniach przywołania w k. A licznik? Tylko 3 z pierwszych 4 elementów są istotne, więc odsetek wynosi:

recall at 4=38=0.375

7 z pierwszych 8 filmów jest bardzo zabawnych, więc przypomnienie 8 to:

recall at 8=78=0.875

Krzywa ROC (charakterystyka operacyjna odbiornika)

#fundamentals
#Dane

Wykres przedstawiający wskaźnik prawdziwie pozytywnych wyników w porównaniu z wskaźnikiem fałszywie pozytywnych wyników dla różnych progów klasyfikacji w przypadku klasyfikacji binarnej.

Kształt krzywej ROC wskazuje na zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Załóżmy na przykład, że binarny model klasyfikacji doskonale oddziela wszystkie klasy negatywne od wszystkich klas pozytywnych:

Linia liczb z 8 pozytywnymi przykładami po prawej stronie i 7 ujemnymi po lewej.

Krzywa ROC dla poprzedniego modelu wygląda tak:

Krzywa ROC Na osi X jest współczynnik wyników fałszywie pozytywnych, a na osi Y współczynnik wyników prawdziwie pozytywnych. Krzywa ma kształt odwróconej litery L. Krzywa zaczyna się w punkcie (0,0) i prosto wznosi się do punktu (0,1). Następnie krzywa przechodzi z (0,0,1,0) do (1,0,1,0).

Natomiast na ilustracji poniżej pokazano nieobrobione wartości regresji logistycznej w przypadku kiepskiego modelu, który w ogóle nie potrafi odróżnić klas negatywnych od klas pozytywnych:

Linia liczbowa z pozytywnymi przykładami i klasami negatywnymi całkowicie pomieszanymi.

Krzywa ROC dla tego modelu wygląda tak:

Krzywa ROC, która jest w istocie linią prostą od punktu (0,0) do punktu (1,1).

W prawdziwym życiu większość modeli klasyfikacji binarnej w pewnym stopniu oddziela klasy pozytywne i negatywne, ale zwykle nie robi tego w doskonały sposób. Krzywa ROC zwykle znajduje się gdzieś pomiędzy tymi dwoma skrajnościami:

Krzywa ROC Na osi X jest współczynnik wyników fałszywie pozytywnych, a na osi Y współczynnik wyników prawdziwie pozytywnych. Krzywa ROC jest przybliżeniem łuku łagodnego przechodzącego przez kierunki kompasu od zachodu do północy.

Punkt na krzywej ROC najbliższy punktowi (0,0,1,0) teoretycznie wskazuje idealny próg klasyfikacji. Wybór optymalnego progu klasyfikacji zależy jednak od kilku innych rzeczywistych problemów. Może na przykład okazać się, że fałszywie wyniki negatywne są znacznie bardziej uciążliwe niż fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC do jednej wartości zmiennoprzecinkowej.

Średnia kwadratowa błędów (RMSE)

#fundamentals
#Dane

Pierwiastek kwadratowy z błędu średniokwadratowego.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Dane

Rodzina wskaźników, które oceniają automatyczne streszczenia i modele tłumaczenia maszynowego. Dane ROUGE określają, w jakim stopniu tekst referencyjny pokrywa się z tekstem wygenerowanym przez model ML. Każdy z elementów rodziny ROUGE różni się od siebie sposobem nakładanie się pomiarów. Wyższe wyniki ROUGE wskazują na większe podobieństwo tekstu referencyjnego do wygenerowanego niż niższe wyniki ROUGE.

Każdy element z rodziny ROUGE zwykle generuje te dane:

  • Precyzja
  • Czułość
  • F1
.

Szczegółowe informacje i przykłady znajdziesz w tych artykułach:

ROUGE-L

#language
#Dane

Jest to element rodziny ROUGE, który skupia się na długości najdłuższego wspólnego podciągu w tekście referencyjnym i tekście wygenerowanym. Te formuły obliczają czułość i precyzję w przypadku ROUGE-L:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

Następnie możesz użyć F1, aby zsumować czułość ROUGE-L i dokładność ROUGE-L w jednym wskaźniku:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
Zapoznaj się z tym tekstem referencyjnym i wygenerowanym tekstem.
Kategoria Kto wyprodukował? Tekst
Tekst referencyjny Tłumacz Chcę poznać wiele różnych rzeczy.
Wygenerowany tekst model ML, Chcę się wiele nauczyć.
Dlatego:
  • Najdłuższa wspólna podciąg znaków ma długość 5 (I want to of things).
  • Liczba słów w tekście referencyjnym wynosi 9.
  • Liczba słów w wygenerowanym tekście to 7.
W związku z tym:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ROUGE-L ignoruje wszystkie znaki nowej linii w tekście referencyjnym i wygenerowanym, więc najdłuższa wspólna podciągłość może obejmować kilka zdań. Gdy tekst referencyjny i wygenerowany tekst zawierają kilka zdań, lepszym wskaźnikiem jest zazwyczaj wariant ROUGE-L o nazwie ROUGE-Lsum. ROUGE-Lsum określa najdłuższy wspólny podciąg w każdej frazie w fragmentach tekstu, a następnie oblicza średnią z tych najdłuższych wspólnych podciągów.

Zapoznaj się z tym tekstem referencyjnym i wygenerowanym tekstem.
Kategoria Kto wyprodukował? Tekst
Tekst referencyjny Tłumacz Powierzchnia Marsa jest sucha. Prawie cała woda znajduje się głęboko pod ziemią.
Wygenerowany tekst model ML, Powierzchnia Marsa jest sucha. Jednak większość wody znajduje się pod ziemią.
Dlatego:
Pierwsze zdanie Drugie zdanie
Najdłuższa wspólna sekwencja2 (Mars dry) 3 (woda jest pod ziemią)
Długość zdania w tekście referencyjnym 6 7
Długość zdania wygenerowanego tekstu 5 8
W związku z tym:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Dane

Zestaw wskaźników z rodziny ROUGE, który porównuje wspólne N-gramy o określonym rozmiarze w tekście referencyjnymtekście wygenerowanym. Na przykład:

  • ROUGE-1 mierzy liczbę wspólnych tokenów w tekście referencyjnym i wygenerowanym.
  • ROUGE-2 mierzy liczbę wspólnych bigramów (2-gramów) w tekście referencyjnym i wygenerowanym.
  • ROUGE-3 mierzy liczbę wspólnych trójgramów (3-gramów) w tekście referencyjnym i wygenerowanym tekście.

Aby obliczyć ROUGE-N i ROUGE-N dla dowolnego elementu z rodziny ROUGE-N, użyj tych wzorów:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

Następnie możesz użyć F1, aby zsumować czułość ROUGE-N i precyzję ROUGE-N w jednym wskaźniku:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
Załóżmy, że decydujesz się użyć ROUGE-2 do pomiaru skuteczności tłumaczenia wygenerowanego przez model ML w porównaniu z tłumaczeniem wykonanym przez człowieka.
Kategoria Kto wyprodukował? Tekst Bigramy
Tekst referencyjny Tłumacz Chcę poznać wiele różnych rzeczy. I want, want to, to understand, understand a, a wide, wide variety, variety of, of things
Wygenerowany tekst model ML, Chcę się wiele nauczyć. I want, want to, to learn, learn plenty, plenty of, of things
Dlatego:
  • Liczba pasujących dwugramów wynosi 3 (I want, want to i of things).
  • Liczba 2-gramów w tekście referencyjnym wynosi 8.
  • Liczba dwugramów w wygenerowanym tekście wynosi 6.
W związku z tym:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Dane

To łagodna forma ROUGE-N, która umożliwia dopasowanie skip-gram. Oznacza to, że ROUGE-N zlicza tylko n-gramy, które dokładnie pasują, ale ROUGE-S zlicza też n-gramy rozdzielone co najmniej 1 słowem. Na przykład:

Podczas obliczania ROUGE-N 2-gram White clouds nie pasuje do White billowing clouds. Jednak podczas obliczania ROUGE-S White clouds pasuje do White billowing clouds.

R-kwadrat

#Dane

Regresja wskazująca, jak duża jest zmienność oznacznia spowodowana przez pojedynczą cechę lub zestaw cech. R-squared to wartość z zakresu od 0 do 1, którą możesz interpretować w następujący sposób:

  • Wartość R-kwadrat równa 0 oznacza, że żadna z wariacji etykiety nie jest spowodowana zbiorem cech.
  • Wartość R2 równa 1 oznacza, że wszystkie zmiany etykiety są spowodowane przez zestaw funkcji.
  • Wartość R-kwadrat na poziomie od 0 do 1 wskazuje, w jakim stopniu zmienność etykiety można przewidzieć na podstawie konkretnej cechy lub zbioru cech. Na przykład wartość R-kwadrat 0,10 oznacza, że 10% wariancji etykiety jest spowodowane zbiorem cech, wartość R-kwadrat 0,20 oznacza, że 20% jest spowodowane zbiorem cech itd.

R-kwadrat to kwadrat współczynnika korelacji Pearsona między wartościami prognozowanymi przez model a danymi podstawowymi (ground truth).

S

ocena

#recsystems
#Dane

Część systemu rekomendacji, która przypisuje wartość lub ranking do każdego elementu wygenerowanego w fazie generowania kandydatów.

miara podobieństwa

#clustering
#Dane

W algorytmach zagnieżdżania jest to miara służąca do określania, jak podobne (jak podobne) są 2 dowolne przykłady.

rozproszenie

#Dane

Liczba elementów w wektorze lub macierzy ustawionych na 0 (lub null) podzielona przez łączną liczbę elementów w tym wektorze lub macierzy. Weź pod uwagę np. macierz 100-elementową, w której 98 komórek zawiera 0. Obliczanie rzadkości przebiega w ten sposób:

sparsity=98100=0.98

Spójność cech odnosi się do spójności wektora cech; spójność modelu odnosi się do spójności wag modelu.

utrata kwadratowa zawiasu

#Dane

Kwadrat straty na zawiasach. Strata na skrajnych wartościach kwadratowych jest bardziej dotkliwa dla wartości odstających od reszty niż zwykła strata na skrajnych wartościach.

strata kwadratowa

#fundamentals
#Dane

Synonim straty na L2.

T

test strat

#fundamentals
#Dane

Dane przedstawiające utratę modelu na zbiorze testowym. Podczas tworzenia modelu zwykle staramy się zminimalizować straty testowe. Dzieje się tak, ponieważ niski wskaźnik utraty w trakcie testu jest silniejszym sygnałem jakości niż niski wskaźnik utraty w trakcie treningu czy niski wskaźnik utraty w trakcie walidacji.

Duża różnica między stratą na etapie testowania a stratą na etapie trenowania lub walidacji może oznaczać, że należy zwiększyć stopień regularyzacji.

dokładność top-k

#language
#Dane

Odsetek wystąpień „oznacznika docelowego” na pierwszych kpozycjach wygenerowanych list. Mogą to być spersonalizowane rekomendacje lub lista elementów uporządkowana według softmaxa.

Dokładność top-k jest też nazywana dokładnością w k-tym przypadku.

Rozważ system uczenia maszynowego, który używa softmaxa do identyfikowania prawdopodobieństw drzew na podstawie zdjęcia ich liści. Poniższa tabela zawiera listy danych wyjściowych wygenerowane na podstawie 5 zdjęć drzewa. Każdy wiersz zawiera etykietę docelową i 5 najbardziej prawdopodobnych drzew. Na przykład, gdy etykietą docelową było maple, model uczenia maszynowego zidentyfikował elm jako najbardziej prawdopodobne drzewo, dąb jako drugie najbardziej prawdopodobne drzewo itd.

Etykieta docelowa 1 2 3 4 5
klon elm dąb maple buk topola
dereń dąb dogwood topola Hickory klon
dąb oak Basswood szarańcza olcha Linden
Linden klon paw-paw dąb Basswood topola
dąb szarańcza Linden oak klon paw-paw

Etykieta docelowa pojawia się na pierwszym miejscu tylko raz, więc dokładność top-1 to:

top-1 accuracy=15=0.2

Etykieta docelowa pojawia się 4 razy na jednej z 3 najlepszych pozycji, więc dokładność w przypadku 3 najlepszych pozycji wynosi:

top-1 accuracy=45=0.8

toksyczne

#language
#Dane

stopień, w jakim treści są obraźliwe, zawierają groźby lub są nękające; Wiele modeli systemów uczących się może wykrywać i mierzyć toksyczność. Większość z nich identyfikuje toksyczność na podstawie wielu parametrów, takich jak poziom obraźliwego języka i poziom języka groźnego.

strata podczas treningu

#fundamentals
#Dane

Dane przedstawiające stratę modelu podczas konkretnej iteracji treningu. Załóżmy na przykład, że funkcja utraty to średnia kwadratowa błędu. Strata podczas trenowania (średni kwadratowy błąd) w 10.itracji wynosi 2,2, a w 100.itracji – 1,9.

Krzywa strat przedstawia straty podczas trenowania w zależności od liczby iteracji. Krzywa strat zawiera te wskazówki dotyczące trenowania:

  • Spadek wskazuje, że model się poprawia.
  • Wzrost oznacza, że model staje się gorszy.
  • Płaski spadek oznacza, że model osiągnął konwergencję.

Na przykład z tego nieco uproszczonego zakrzywienia strat:

  • ostry spadek podczas początkowych iteracji, który oznacza szybkie ulepszanie modelu;
  • stopniowo spłaszczający się (ale nadal skierowany w dół) spadek aż do końca trenowania, co oznacza dalsze polepszanie modelu w trochę wolniejszym tempie niż podczas początkowych iteracji;
  • Płaski spadek pod koniec trenowania, który sugeruje konwergencję.

Wykres straty trenowania w zależności od iteracji. Krzywa strat zaczyna się od stromego spadku. Nachylenie stopniowo się zmniejsza, aż osiągnie wartość zero.

Strata na etapie treningu jest ważna, ale warto też zapoznać się z generalizacją.

prawdziwie negatywny (PN).

#fundamentals
#Dane

Przykład, w którym model prawidłowo prognozuje klasę negatywną. Na przykład model wnioskuje, że dana wiadomość e-mail nie jest spamem, i faktycznie tak jest.

prawdziwie pozytywny (TP)

#fundamentals
#Dane

Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Na przykład model wnioskuje, że dana wiadomość e-mail jest spamem, i faktycznie jest to spam.

współczynnik wyników prawdziwie pozytywnych (TPR);

#fundamentals
#Dane

Synonim przypomnienia. Czyli:

true positive rate=true positivestrue positives+false negatives

Współczynnik wyników prawdziwie pozytywnych to oś Y na krzywej ROC.

V

utrata walidacji

#fundamentals
#Dane

Dane przedstawiające stratę modelu na zbiorze walidacyjnym w określonej iteracji trenowania.

Zobacz też krzywą generalizacji.

wagi zmiennych

#df
#Dane

Zestaw wyników, który wskazuje względne znaczenie poszczególnych cech dla modelu.

Rozważ na przykład drzewo decyzyjne, które szacuje ceny domów. Załóżmy, że ten schemat decyzyjny używa 3 cech: rozmiar, wiek i styl. Jeśli zestaw zmiennych ważności dla tych 3 cech został obliczony jako {rozmiar=5,8, wiek=2,5, styl=4,7}, to rozmiar jest ważniejszy dla drzewa decyzji niż wiek lub styl.

Istnieją różne wskaźniki znaczenia zmiennych, które mogą informować ekspertów ds. ML o różnych aspektach modeli.

W

Strata Wassersteina

#Dane

Jedna z funkcji utraty powszechnie stosowanych w generatywnej sieci antagonistycznej, oparta na odległości Earth Mover między dystrybucją wygenerowanych danych a rzeczywistymi danymi.