Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Klasyfikacja: dokładność, czułość, precyzja i powiązane wskaźniki

Wyniki prawdziwie pozytywne, fałszywie pozytywne i fałszywie negatywne służą do obliczania kilku przydatnych wskaźników oceny modeli. Które wskaźniki oceny są najbardziej istotne, zależy od konkretnego modelu i konkretnego zadania, kosztu różnych błędnych klasyfikacji oraz tego, czy zbiór danych jest zrównoważony czy niezrównoważony.

Wszystkie dane w tej sekcji są obliczane na podstawie jednego stałego progu i zmieniają się, gdy ten próg ulega zmianie. Bardzo często użytkownik dostosowuje próg, aby zoptymalizować jedną z tych wartości.

Dokładność

Dokładność to odsetek wszystkich poprawnych klasyfikacji, zarówno pozytywnych, jak i negatywnych. Jest on matematycznie zdefiniowany jako:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

W przykładzie klasyfikacji spamu dokładność mierzy odsetek wszystkich prawidłowo sklasyfikowanych e-maili.

Idealny model miałby 0 wyników fałszywie pozytywnych i 0 wyników fałszywie negatywnych, a więc dokładność na poziomie 1, 0 czyli 100%.

Ponieważ uwzględnia wszystkie 4 wyniki z macierzy pomyłek (TP, FP, TN, FN), w przypadku zrównoważonego zbioru danych z podobną liczbą przykładów w obu klasach dokładność może służyć jako ogólna miara jakości modelu. Dlatego jest to często domyślna miara oceny używana w przypadku ogólnych lub nieokreślonych modeli wykonujących ogólne lub nieokreślone zadania.

Jeśli jednak zbiór danych jest niezrównoważony lub jeden rodzaj błędu (FN lub FP) jest bardziej kosztowny niż drugi, co ma miejsce w większości rzeczywistych zastosowań, lepiej jest zoptymalizować jedną z pozostałych wartości.

W przypadku bardzo niezrównoważonych zbiorów danych, w których jedna klasa występuje bardzo rzadko, np. w 1% przypadków, model, który w 100% przypadków przewiduje wartość negatywną, uzyskałby dokładność na poziomie 99%, mimo że jest bezużyteczny.

Czułość lub współczynnik wyników prawdziwie pozytywnych

Współczynnik wyników prawdziwie pozytywnych (TPR), czyli odsetek wszystkich rzeczywistych wyników pozytywnych, które zostały prawidłowo sklasyfikowane jako pozytywne, jest też znany jako czułość.

Wartość przypomnienia jest matematycznie zdefiniowana w ten sposób:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Wyniki fałszywie negatywne to rzeczywiste wyniki pozytywne, które zostały błędnie zaklasyfikowane jako negatywne, dlatego pojawiają się w mianowniku. W przykładzie klasyfikacji spamu miara recall określa odsetek e-maili ze spamem, które zostały prawidłowo sklasyfikowane jako spam. Dlatego inną nazwą precyzji jest prawdopodobieństwo wykrycia: odpowiada ona na pytanie „Jaka część e-maili ze spamem jest wykrywana przez ten model?”.

Hipoteza idealnego modelu zakłada, że nie ma on wyników fałszywie negatywnych, a więc ma wartość przypomnienia (TPR) równą 1,0, czyli wykrywa 100% przypadków.

W przypadku niezrównoważonego zbioru danych, w którym liczba rzeczywistych wyników pozytywnych jest bardzo mała, miara precyzji jest bardziej miarodajna niż dokładność, ponieważ mierzy zdolność modelu do prawidłowego identyfikowania wszystkich przypadków pozytywnych. W przypadku zastosowań takich jak przewidywanie chorób prawidłowe rozpoznawanie przypadków pozytywnych ma kluczowe znaczenie. Fałszywie negatywny wynik ma zwykle poważniejsze konsekwencje niż fałszywie pozytywny. Konkretny przykład porównania czułości i dokładności znajdziesz w uwagach w definicji czułości.

Współczynnik wyników fałszywie pozytywnych

Współczynnik wyników fałszywie dodatnich (FPR) to odsetek wszystkich rzeczywistych wyników negatywnych, które zostały nieprawidłowo sklasyfikowane jako pozytywne. Jest on też znany jako prawdopodobieństwo fałszywego alarmu. Jest on matematycznie zdefiniowany jako:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Wyniki fałszywie pozytywne to rzeczywiste wyniki negatywne, które zostały błędnie sklasyfikowane, dlatego pojawiają się w mianowniku. W przykładzie klasyfikacji spamu wskaźnik FPR mierzy odsetek prawidłowych e-maili, które zostały nieprawidłowo sklasyfikowane jako spam,czyli odsetek fałszywych alarmów modelu.

Idealny model nie generowałby wyników fałszywie pozytywnych, a więc jego współczynnik FPR wynosiłby 0,0, co oznacza 0% fałszywych alarmów.

W przypadku niezrównoważonego zbioru danych wskaźnik FPR jest zwykle bardziej informatywny niż dokładność. Jeśli jednak liczba rzeczywistych negatywnych wyników jest bardzo mała, FPR może nie być idealnym wyborem ze względu na swoją zmienność. Jeśli np. w zbiorze danych są tylko 4 rzeczywiste wartości negatywne, jedno błędne zaklasyfikowanie spowoduje, że wskaźnik FPR wyniesie 25%, a drugie błędne zaklasyfikowanie spowoduje wzrost tego wskaźnika do 50%. W takich przypadkach precyzja (opisana dalej) może być bardziej stabilnym wskaźnikiem do oceny wpływu fałszywie pozytywnych wyników.

Precyzja

Precyzja to odsetek wszystkich klasyfikacji pozytywnych dokonanych przez model, które są faktycznie pozytywne. Definicja matematyczna:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

W przykładzie klasyfikacji spamu precyzja mierzy odsetek e-maili sklasyfikowanych jako spam, które rzeczywiście były spamem.

Idealny model hipotetyczny nie generowałby wyników fałszywie pozytywnych, a jego precyzja wynosiłaby 1,0.

W przypadku niezrównoważonego zbioru danych, w którym liczba rzeczywistych wyników pozytywnych jest bardzo mała (np. 1–2 przykłady), precyzja jest mniej istotna i mniej przydatna jako wskaźnik.

Precyzja rośnie wraz ze spadkiem liczby wyników fałszywie pozytywnych, a czułość rośnie wraz ze spadkiem liczby wyników fałszywie negatywnych. Jak widać w poprzedniej sekcji, zwiększenie progu klasyfikacji zwykle zmniejsza liczbę wyników fałszywie pozytywnych i zwiększa liczbę wyników fałszywie negatywnych, a zmniejszenie progu ma odwrotne skutki. W efekcie precyzja i czułość często wykazują odwrotną zależność, co oznacza, że poprawa jednej z nich pogarsza drugą.

Wypróbuj:

Co oznacza NaN w danych?

Wartość NaN, czyli „not a number” (nie liczba), pojawia się podczas dzielenia przez 0, co może się zdarzyć w przypadku dowolnych z tych danych. Jeśli np. wartości TP i FP wynoszą 0, w mianowniku wzoru na precyzję znajduje się 0, co daje NaN. W niektórych przypadkach wartość NaN może oznaczać doskonałą skuteczność i może zostać zastąpiona wynikiem 1,0, ale może też pochodzić z modelu, który jest praktycznie bezużyteczny. Model, który nigdy nie przewiduje wartości dodatnich, będzie miał np. 0 wartości TP i 0 wartości FP, więc obliczenie jego precyzji da wartość NaN.

Wybór danych i kompromisy

Metryki, które wybierzesz jako priorytetowe podczas oceny modelu i wybierania wartości progowej, zależą od kosztów, korzyści i ryzyka związanego z konkretnym problemem. W przykładzie klasyfikacji spamu często warto priorytetowo traktować odtwarzanie, czyli wyłapywanie wszystkich e-maili ze spamem, lub precyzję, czyli upewnianie się, że e-maile oznaczone jako spam rzeczywiście nim są, albo zachować równowagę między tymi dwoma podejściami powyżej minimalnego poziomu dokładności.

Dane	Wskazówki
Dokładność	Używaj jako przybliżonego wskaźnika postępu/zbieżności trenowania modelu w przypadku zrównoważonych zbiorów danych. W przypadku skuteczności modelu używaj tylko w połączeniu z innymi danymi. Unikaj w przypadku niezrównoważonych zbiorów danych. Rozważ użycie innych danych.
Czułość (współczynnik wyników prawdziwie pozytywnych)	Używaj tej opcji, gdy fałszywie negatywne wyniki są bardziej kosztowne niż fałszywie pozytywne.
Współczynnik wyników fałszywie pozytywnych	Używaj tej opcji, gdy fałszywie pozytywne wyniki są droższe niż fałszywie negatywne.
Precyzja	Użyj tej opcji, gdy bardzo ważne jest, aby prognozy pozytywne były dokładne.

(Opcjonalnie, zaawansowane) Wynik F1

Wynik F1 to średnia harmoniczna (rodzaj średniej) precyzji i czułości.

Matematycznie można to zapisać w ten sposób:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Ten wskaźnik równoważy znaczenie precyzji i czułości i jest lepszy od dokładności w przypadku zbiorów danych z nierównomiernym rozkładem klas. Gdy precyzja i czułość mają doskonałe wyniki 1,0, wynik F1 również będzie doskonały i wyniesie 1,0. Ogólnie rzecz biorąc, gdy wartości precyzji i czułości są zbliżone, wartość F1 będzie zbliżona do tych wartości. Gdy precyzja i czułość znacznie się od siebie różnią, wartość F1 będzie zbliżona do gorszego z tych wskaźników.

Ćwiczenie: sprawdź swoją wiedzę

Model zwraca 5 wartości TP, 6 wartości TN, 3 wartości FP i 2 wartości FN. Oblicz wycofanie.

0.714

Wartość ta jest obliczana w ten sposób: \(\frac{TP}{TP+FN}=\frac{5}{7}\)

0,455

Wartość przypomnienia uwzględnia wszystkie rzeczywiste wyniki pozytywne, a nie wszystkie prawidłowe klasyfikacje. Wzór na pełność to \(\frac{TP}{TP+FN}\).

0,625

Wartość przypomnienia uwzględnia wszystkie rzeczywiste wyniki pozytywne, a nie wszystkie klasyfikacje pozytywne. Wzór na precyzję to \(\frac{TP}{TP+FN}\)

Model zwraca 3 wartości TP, 4 wartości TN, 2 wartości FP i 1 wartość FN. Oblicz precyzję.

0,6

Precyzja jest obliczana w ten sposób: \(\frac{TP}{TP+FP}=\frac{3}{5}\)

0,75

Precyzja uwzględnia wszystkie klasyfikacje pozytywne, a nie wszystkie rzeczywiste wartości pozytywne. Wzór na precyzję to \(\frac{TP}{TP+FP}\).

0,429

Precyzja uwzględnia wszystkie klasyfikacje pozytywne, a nie wszystkie klasyfikacje prawidłowe. Wzór na precyzję to \(\frac{TP}{TP+FP}\)

Tworzysz klasyfikator binarny, który sprawdza zdjęcia pułapek na owady, aby określić, czy występuje na nich niebezpieczny gatunek inwazyjny. Jeśli model wykryje gatunek, entomolog (naukowiec zajmujący się owadami) na dyżurze otrzyma powiadomienie. Wczesne wykrycie tego owada ma kluczowe znaczenie dla zapobiegania inwazji. Fałszywy alarm (fałszywie pozytywny wynik) jest łatwy do rozwiązania: entomolog widzi, że zdjęcie zostało błędnie sklasyfikowane, i oznacza je jako takie. Zakładając akceptowalny poziom dokładności, pod kątem którego wskaźnika należy zoptymalizować ten model?

Czułość

W tym scenariuszu fałszywe alarmy (FP) są tanie, a fałszywe negatywy są bardzo kosztowne, dlatego warto zmaksymalizować precyzję, czyli prawdopodobieństwo wykrycia.

Współczynnik wyników fałszywie pozytywnych (FPR)

W tym scenariuszu fałszywe alarmy (FP) są tanie. Próba zminimalizowania ich kosztem pominięcia rzeczywistych wyników pozytywnych nie ma sensu.

Precyzja

W tym przypadku fałszywe alarmy (FP) nie są szczególnie szkodliwe, więc próba poprawy poprawności klasyfikacji pozytywnych nie ma sensu.

Wstecz

Próg i tabela pomyłek (12 min)

Dalej

ROC i AUC (10 min)

Klasyfikacja: dokładność, czułość, precyzja i powiązane wskaźniki Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Dokładność

Czułość lub współczynnik wyników prawdziwie pozytywnych

Współczynnik wyników fałszywie pozytywnych

Precyzja

Co oznacza NaN w danych?

Wybór danych i kompromisy

(Opcjonalnie, zaawansowane) Wynik F1

Ćwiczenie: sprawdź swoją wiedzę

Klasyfikacja: dokładność, czułość, precyzja i powiązane wskaźniki