Klasyfikacja: dokładność, czułość, precyzja i powiązane wskaźniki

Wyniki testów prawdziwie i fałszywie pozytywnych i negatywnych są używane do obliczania kilku przydatnych do oceny modeli. Które wskaźniki oceny są najbardziej przydatne znaczenie zależy od modelu i konkretnego zadania, różnych błędnych klasyfikacji, a także tego, czy zbiór danych jest zrównoważony niezrównoważony.

Wszystkie dane w tej sekcji są obliczane na podstawie jednego stałego progu, i zmieniać próg. Użytkownik bardzo często dostosowuje aby zoptymalizować jeden z tych wskaźników.

Dokładność

Dokładność to stosunek wszystkich prawidłowe i negatywne klasyfikacje. Jest zdefiniowany matematycznie jako:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

W przykładzie klasyfikacji spamu dokładność mierzy ułamek wszystkich prawidłowo sklasyfikowanych e-maili.

Idealny model miałby zero wyników fałszywie pozytywnych i zero wyników fałszywie negatywnych oraz i z dokładnością 1,0, czyli 100%.

Ponieważ uwzględnia w nim wszystkie 4 wyniki tablica pomyłek (TP, FP, TN, FN) przy zrównoważonym z podobną liczbą przykładów w obu klasach, dokładność stanowią szczegółową miarę jakości modelu. Z tego powodu często domyślny wskaźnik oceny używany na potrzeby modeli ogólnych lub nieokreślonych wykonywanie ogólnych lub nieokreślonych zadań.

Jeśli jednak zbiór danych jest niezrównoważony, lub gdzie jeden rodzaj błędu (FN lub FP) jest droższy od drugiego, w większości praktycznych zastosowań, lepiej jest optymalizować pod kątem inne dane.

W przypadku mocno niezrównoważonych zbiorów danych, w których jedna klasa pojawia się bardzo rzadko, W tym czasie model, który w 100% przypadków przewidywał wartość ujemną, uzyskałby wynik 99% choć jest bezużyteczna.

Czułość lub współczynnik prawdziwie pozytywnych

Współczynnik prawdziwie dodatnich (TPR) lub odsetek wszystkich rzeczywistych wyników dodatnich, które są prawidłowo sklasyfikowane jako dodatnie, jest również określane jako recall.

Czułość jest definiowana matematycznie jako:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Wynik fałszywie negatywny to rzeczywiste wyniki dodatnie, które zostały błędnie sklasyfikowane jako wyniki negatywne. dlatego są liczone w mianowniku. W przykładzie klasyfikacji spamu mierzy ułamek e-maili zawierających spam, które zostały poprawnie sklasyfikowane jako spamu. Dlatego inną nazwą czułości jest prawdopodobieństwo wykrycia. odpowiada na pytanie „Jaka część e-maili zawierających spam jest wykrywana modelu?”

Hipotetyczny model idealny miałby zero wyników fałszywie negatywnych, a w związku z tym czułość (TPR) wynoszący 1, 0, czyli 100% współczynnik wykrywania.

W niezrównoważonym zbiorze danych, w którym liczba rzeczywistych pozytywnych wyników jest bardzo, bardzo niski, powiedzmy łącznie 1–2 przykłady, czułość jest mniej istotna i mniej przydatna jako wskaźnik.

Współczynnik wyników fałszywie pozytywnych

Współczynnik wyników fałszywie pozytywnych (FPR). to odsetek wszystkich rzeczywistych wyników negatywnych, które zostały sklasyfikowane nieprawidłowo jako dodatnie, czyli prawdopodobieństwo wystąpienia fałszywego alarmu. Jest zdefiniowany matematycznie jako:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Wyniki fałszywie pozytywne to rzeczywiste wyniki negatywne, które zostały błędnie sklasyfikowane. pojawią się w mianowniku. W przykładzie klasyfikacji spamu FPR mierzy liczbę część wiarygodnych e-maili,które zostały nieprawidłowo sklasyfikowane jako spam lub częstość występowania fałszywych alarmów dla modelu.

Idealny model miałby zero wyników fałszywie pozytywnych, a tym samym FPR równy 0,0, czyli 0% fałszywych alarmów.

W niezrównoważonym zbiorze danych, w którym liczba rzeczywistych wyników negatywnych jest bardzo, bardzo niski, powiedzmy łącznie 1–2 przykłady, FPR jest mniej istotne i mniej przydatne jako wskaźnik.

Precyzja

Precyzja to część wszystkich pozytywnych klasyfikacji modelu które są faktycznie pozytywne. Jest to matematyczna definicja:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

W przykładzie klasyfikacji spamu precyzja mierzy ułamek e-maili sklasyfikowanych jako spam, które w rzeczywistości są spamem.

Hipotetyczny model idealny miałby zero wyników fałszywie pozytywnych, więc z dokładnością rzędu 1,0.

W niezrównoważonym zbiorze danych, w którym liczba rzeczywistych pozytywnych wyników jest bardzo, bardzo niski, powiedzmy łącznie 1–2 przykłady, precyzja jest mniej istotna i mniej przydatna jako wskaźnik.

Precyzja zwiększa się wraz ze spadkiem wyników fałszywie pozytywnych, a czułość poprawia się, gdy Spadek wyników fałszywie negatywnych. Jak widać w poprzedniej sekcji, zwiększenie próg klasyfikacji zazwyczaj zmniejsza liczbę wyników fałszywie pozytywnych i zwiększa liczbę wyników fałszywie negatywnych, a obniżenie progu przeciwdziałania skutkom. W rezultacie precyzja i czułość często wykazują odwrotność. a ulepszenie jednego z nich pogarsza wyniki drugiego.

Wybór danych i zalet

Dane, które wybierzesz w pierwszej kolejności podczas oceny modelu jego wybór zależy od kosztów, korzyści i ryzyka związanego z konkretnego problemu. W przykładzie klasyfikacji spamu często powoduje to, nadaj priorytet czułością, przechwytywanie wszystkich e-maili zawierających spam lub precyzję, próbuje się upewnić, że e-maile oznaczone jako spam faktycznie są spamem. ich równoważność, powyżej pewnego minimalnego poziomu dokładności.

Dane Wskazówki
Dokładność

Użyj jako przybliżonego wskaźnika modelu postęp lub zbieżność trenowania w przypadku zrównoważonych zbiorów danych.

Aby uzyskać wydajność modelu, używaj tej wartości tylko w połączeniu z innymi danymi.

Unikaj w przypadku niezrównoważonych zbiorów danych. Rozważ użycie innego wskaźnika.

Czułość
(współczynnik prawdziwie pozytywnych)
Użyj, gdy liczba wyników fałszywie negatywnych jest większa kosztują więcej niż wyniki fałszywie pozytywne.
Współczynnik wyników fałszywie pozytywnych Użyj, gdy wyniki fałszywie dodatnie droższe od wyników fałszywie negatywnych.
Precyzja Używaj, gdy jest to bardzo ważne aby były dokładne.

(Opcjonalnie, zaawansowany) Wynik F1

Wynik F1 to średnia harmoniczna (a typ średniej) precyzji i czułości.

Metoda matematyczna jest obliczana przez:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Ten wskaźnik równoważy znaczenie precyzji i czułości. częściej niż w przypadku zbiorów danych o niezbalansowanej klasie. Kiedy precyzja a oba mają idealne wyniki 1,0, F1 również ma idealny wynik. wynosi 1,0. Ogólnie rzecz biorąc, gdy precyzja i czułość są zbliżone do wartości, F1 być zbliżony do ich wartości. Gdy precyzja i czułość są daleko od siebie, F1 być podobne do tych, które są gorsze.

Ćwiczenie: sprawdź swoją wiedzę

Model generuje 5 TP, 6 TN, 3 FP i 2 FN. Oblicz czułość.
0,714
Czułość jest obliczana według wzoru [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
Zapamiętanie uwzględnia wszystkie rzeczywiste plusy, a nie wszystkie prawidłowe klasyfikacje. Wzór na czułość to [\frac{TP}{TP+FN}].
0,625
Zapamiętanie uwzględnia wszystkie rzeczywiste plusy, a nie wszystkie pozytywne klasyfikacje. Wzór na czułość to [\frac{TP}{TP+FN}]
Model generuje 3 wyniki TP, 4 TN, 2 FP i 1 FN. Oblicz precyzję.
0,6
Precyzja jest obliczana według wzoru [\frac{TP}{TP+FP}=\frac{3}{5}].
0,75
Precyzja uwzględnia wszystkie klasyfikacje pozytywne, a nie wszystkie rzeczywiste liczby dodatnie. Wzór na precyzję to [\frac{TP}{TP+FP}].
0,429
Precyzja uwzględnia wszystkie klasyfikacje pozytywne, a nie wszystkie poprawnych klasyfikacji. Wzór na precyzję to [\frac{TP}{TP+FP}]
Tworzysz klasyfikator plików binarnych, który sprawdza zdjęcia pułapek na owady pod kątem obecności niebezpiecznych i inwazyjnych gatunków. Jeśli model wykryje: gatunku, powiadamiany jest entomolog (naukowiec od owadów). Przed czasem ich wykrycie jest kluczowe dla zapobiegania zakażeniu. O Fałszywy alarm (fałszywie pozytywny) jest łatwy do zniesienia: entomolog zauważa, zostało błędnie sklasyfikowane i jako takie zostało oznaczone. Przy założeniu, pod kątem którego wskaźnika dokładności ma być optymalizowany ten model?
Czułość
W tym scenariuszu fałszywe alarmy są tanie i fałszywe Są one bardzo kosztowne, więc warto zmaksymalizować czułość lub prawdopodobieństwo wykrywaniem zagrożeń.
Współczynnik wyników fałszywie pozytywnych (FPR)
W tym przypadku fałszywe alarmy są tanie. Próbuję w celu ich zminimalizowania pod kątem ryzyka pominięcia rzeczywistych wyników dodatnich. z całego świata.
Precyzja
W takiej sytuacji fałszywe alarmy nie są szczególnie szkodliwe, więc próbujemy poprawić trafność ocen pozytywnych, nie ma sensu.