Ta strona została przetłumaczona przez Cloud Translation API.

Klasyfikacja: dokładność, czułość, precyzja i powiązane wskaźniki

Prawdziwe i fałszywie pozytywne oraz negatywne wyniki służą do obliczania kilku przydatnych wskaźników do oceny modeli. Które wskaźniki oceny są najbardziej przydatne, zależy od konkretnego modelu i zadania, kosztu różnych błędów klasyfikacji oraz tego, czy zbiór danych jest zrównoważony, czy niezrównoważony.

Wszystkie dane w tej sekcji są obliczane przy użyciu jednego stałego progu i zmieniają się, gdy zmienia się ten próg. Użytkownik często dostosowuje próg, aby zoptymalizować jeden z tych wskaźników.

Dokładność

Dokładność to odsetek wszystkich klasyfikacji, które były prawidłowe, niezależnie od tego, czy były pozytywne, czy negatywne. Jest on matematycznie zdefiniowany jako:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

W przykładzie klasyfikacji spamu dokładność mierzy odsetek wszystkich poprawnie sklasyfikowanych e-maili.

Doskonały model nie miałby żadnych wyników fałszywie pozytywnych ani fałszywie negatywnych, a zatem jego dokładność wynosiłaby 1,0, czyli 100%.

Obejmuje ona wszystkie 4 wyniki z macierzy pomyłek (TP, FP, TN, FN). Przy zrównoważonym zbiorze danych z podobną liczbą przykładów w obu klasach dokładność może służyć jako ogólny wskaźnik jakości modelu. Z tego powodu jest to często domyślna metryka oceny używana w przypadku ogólnych lub nieokreślonych modeli wykonujących ogólne lub nieokreślone zadania.

Jeśli jednak zbiór danych jest niezrównoważony lub jeden rodzaj błędu (FN lub FP) jest bardziej kosztowny niż drugi, co ma miejsce w większości zastosowań praktycznych, lepiej jest zoptymalizować jeden z innych wskaźników.

W przypadku bardzo nierównowagi w zbiorach danych, w których jedna klasa pojawia się bardzo rzadko, np. 1% razy, model, który w 100% przypadków przewiduje wynik negatywny, uzyskałby wynik dokładności 99%, mimo że byłby bezużyteczny.

Współczynnik wyników prawdziwie pozytywnych lub czułość

Współczynnik wyników prawdziwie pozytywnych (TPR), czyli odsetek wszystkich rzeczywistych wyników pozytywnych, które zostały prawidłowo sklasyfikowane jako pozytywne, jest też nazywany czułością.

Współczynnik przyrostu jest definiowany matematycznie jako:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Wyniki fałszywie negatywne to rzeczywiste wyniki pozytywne, które zostały błędnie sklasyfikowane jako negatywne, dlatego pojawiają się w mianowniku. W przykładzie klasyfikacji spamu współczynnik przywołań mierzy odsetek e-maili ze spamem, które zostały prawidłowo sklasyfikowane jako spam. Dlatego inną nazwą przywołania jest prawdopodobieństwo wykrycia: odpowiada ono na pytanie „Jaki odsetek e-maili ze spamem wykrył ten model?”.

Hipotetyczny model doskonały nie miałby żadnych wyników fałszywie negatywnych, a zatem współczynnik odzyskiwania (TPR) wynosiłby 1,0, co oznacza 100% skuteczność wykrywania.

W przypadku niesymetrycznego zbioru danych, w którym liczba rzeczywistych wartości dodatnich jest bardzo niska, czułość jest bardziej przydatnym rodzajem danych niż dokładność, ponieważ mierzy zdolność modelu do prawidłowego rozpoznawania wszystkich przypadków pozytywnych. W przypadku takich zastosowań jak przewidywanie chorób prawidłowe rozpoznawanie pozytywnych przypadków jest kluczowe. Fałszywie negatywny wynik zwykle ma poważniejsze konsekwencje niż fałszywie pozytywny. Przykład porównania wskaźników czułości i trafności znajdziesz w uwagach dotyczących definicji czułości.

Współczynnik wyników fałszywie pozytywnych

Współczynnik wyników fałszywie dodatnich (FPR) to proporcja wszystkich rzeczywistych wartości ujemnych, które zostały nieprawidłowo sklasyfikowane jako dodatnie. Jest to też prawdopodobieństwo fałszywego alarmu. Jest on matematycznie zdefiniowany jako:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Wyniki fałszywie pozytywne to rzeczywiste wyniki negatywne, które zostały błędnie zaklasyfikowane, dlatego pojawiają się w mianowniku. W przykładzie klasyfikacji spamu FPR mierzy ułamek prawidłowych e-maili, które zostały nieprawidłowo sklasyfikowane jako spam,lub współczynnik fałszywych alarmów modelu.

Doskonały model nie miałby żadnych wyników fałszywie pozytywnych, a więc współczynnik FPR wynosiłby 0,0, co oznacza współczynnik fałszywych alarmów 0%.

W niezrównoważonym zbiorze danych, w którym liczba rzeczywistych przykładów negatywnych jest bardzo niska (np. 1–2 przypadki), FPR jest mniej przydatnym wskaźnikiem.

Precyzja

Współczynnik dokładności to odsetek wszystkich pozytywnych klasyfikacji modelu, które są rzeczywiście pozytywne. Jest on matematycznie zdefiniowany jako:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

W przykładzie klasyfikacji spamu dokładność mierzy odsetek e-maili sklasyfikowanych jako spam, które faktycznie były spamem.

Hipotetyczny model doskonały nie miałby wyników fałszywie pozytywnych, a zatem jego precyzja wynosiłaby 1,0.

W niezrównoważonym zbiorze danych, w którym liczba rzeczywistych wyników dodatnich jest bardzo niska (np. 1–2 przypadki), precyzja jest mniej przydatną miarą.

W miarę zmniejszania liczby wyników fałszywie pozytywnych rośnie precyzja, a w miarę zmniejszania liczby wyników fałszywie negatywnych rośnie czułość. Jak jednak widać w poprzedniej sekcji, zwiększenie progu klasyfikacji powoduje zazwyczaj spadek liczby wyników fałszywie pozytywnych i wzrost liczby wyników fałszywie negatywnych, a obniżenie progu ma odwrotne działanie. W efekcie precyzja i czułość często wykazują odwrotną zależność, w której polepszenie jednego z tych parametrów pogarsza drugi.

Wypróbuj to:

Co oznacza w danych wartość NaN?

Wartość NaN (czyli „nie jest liczbą”) pojawia się, gdy dzielimy przez 0. Może się to zdarzyć w przypadku dowolnego z tych rodzajów danych. Gdy zarówno TP, jak i FP mają wartość 0, w liczniku formuły do obliczania dokładności występuje 0, co powoduje, że wynik jest równy NaN. Chociaż w niektórych przypadkach NaN może wskazywać na doskonałą wydajność i można go zastąpić wartością 1, może też pochodzić z modelu, który jest praktycznie bezużyteczny. Model, który nigdy nie przewiduje wartości dodatniej, miałby 0 TP i 0 FP, a więc obliczenie jego dokładności dałoby wartość NaN.

Wybór danych i ustępstwa

Dane, które mają być priorytetowe podczas oceny modelu i wybierania wartości progowej, zależą od kosztów, korzyści i zagrożeń związanych z konkretnym problemem. W przykładzie klasyfikacji spamu często warto skoncentrować się na czułości, aby wychwycić wszystkie spamowe e-maile, lub na dokładności, aby mieć pewność, że e-maile oznaczone jako spam rzeczywiście są spamem, albo na równowadze obu tych czynników, powyżej pewnego minimalnego poziomu dokładności.

Dane	Wskazówki
Dokładność	Używaj jako przybliżonego wskaźnika postępu/konwergencji treningu modelu w przypadku zbilansowanych zbiorów danych. W przypadku skuteczności modelu używaj go tylko w połączeniu z innymi danymi. Nie stosuj do zbiorów danych z niezrównoważonymi danymi. Możesz użyć innego rodzaju danych.
Czułość (współczynnik prawdziwie pozytywnych)	Używaj, gdy fałszywie negatywne wyniki są droższe niż fałszywie pozytywne.
Współczynnik wyników fałszywie pozytywnych	Używaj, gdy fałszywie pozytywne wyniki są droższe niż fałszywie negatywne.
Precyzja	Użyj tej opcji, gdy dokładność pozytywnych prognoz jest bardzo ważna.

(Opcjonalnie, zaawansowane) Wynik F1

Wynik F1 to średnia harmoniczna (rodzaj średniej) precyzji i czułości.

Matematycznie:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Ten wskaźnik zapewnia równowagę między znaczeniem precyzji a czułością i jest preferowany w przypadku niesymetrycznych zbiorów danych. Gdy precyzja i czułość mają idealną wartość 1,0, wynik F1 również będzie idealny – 1,0. Ogólnie rzecz biorąc, gdy precyzja i czułość mają zbliżone wartości, współczynnik F1 będzie zbliżony do ich wartości. Gdy precyzja i czułość są od siebie bardzo odległe, wartość F1 będzie zbliżona do tej, która jest gorsza.

Ćwiczenie: sprawdź swoją wiedzę

Model zwraca 5 TP, 6 TN, 3 FP i 2 FN. Obliczanie przypomnienia.

0,714

Współczynnik przypomnienia oblicza się według wzoru \(\frac{TP}{TP+FN}=\frac{5}{7}\).

0,455

Współczynnik odzyskiwania uwzględnia wszystkie rzeczywiste wyniki pozytywne, a nie wszystkie prawidłowe klasyfikacje. Formuła przypomnienia to \(\frac{TP}{TP+FN}\).

0,625

Współczynnik uwzględnia wszystkie rzeczywiste wyniki pozytywne, a nie wszystkie klasyfikacje pozytywne. Formuła przywołania to \(\frac{TP}{TP+FN}\)

Model z 3 wartościami TP, 4 wartościami TN, 2 wartościami FP i 1 wartością FN. Oblicz dokładność.

0,6

Dokładność jest obliczana jako \(\frac{TP}{TP+FP}=\frac{3}{5}\).

0,75

Dokładność uwzględnia wszystkie klasyfikacje pozytywne, a nie wszystkie rzeczywiste wyniki pozytywne. Formuła dokładności to \(\frac{TP}{TP+FP}\).

0,429

Dokładność uwzględnia wszystkie pozytywne klasyfikacje, a nie wszystkie poprawne klasyfikacje. Formuła dokładności to: \(\frac{TP}{TP+FP}\)

Tworzysz klasyfikator binarny, który sprawdza zdjęcia pułapek na owady, aby sprawdzić, czy znajdują się na nich niebezpieczne gatunki inwazyjne. Jeśli model wykryje dany gatunek, zostanie powiadomiony entomolog (specjalista od owadów). Wczesne wykrycie tego owada jest kluczowe dla zapobiegania inwazji. Fałszywy alarm (fałszywie pozytywny) jest łatwy do zinterpretowania: entomolog widzi, że zdjęcie zostało błędnie sklasyfikowane i odpowiednio je oznacza. Zakładając akceptowalny poziom dokładności, pod kątem którego wskaźnika powinien być zoptymalizowany ten model?

Czułość

W tym scenariuszu fałszywe alarmy (FP) są tanie, a fałszywe wyniki negatywne są bardzo kosztowne, więc warto zmaksymalizować przyrost lub prawdopodobieństwo wykrycia.

Współczynnik wyników fałszywie pozytywnych (FPR)

W tym scenariuszu fałszywe alarmy (FP) są tanie. Próba zminimalizowania ich ryzyka pominięcia rzeczywistych wyników pozytywnych nie ma sensu.

Precyzja

W tym przypadku fałszywe alarmy nie są szczególnie szkodliwe, więc nie ma sensu dążenie do poprawy trafności klasyfikacji pozytywnych.

Wstecz

Próg i tabela pomyłek (12 min)

Dalej

ROC i AUC (10 min)

Klasyfikacja: dokładność, czułość, precyzja i powiązane wskaźniki Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Dokładność

Współczynnik wyników prawdziwie pozytywnych lub czułość

Współczynnik wyników fałszywie pozytywnych

Precyzja

Co oznacza w danych wartość NaN?

Wybór danych i ustępstwa

(Opcjonalnie, zaawansowane) Wynik F1

Ćwiczenie: sprawdź swoją wiedzę

Klasyfikacja: dokładność, czułość, precyzja i powiązane wskaźniki