W poprzedniej sekcji prezentowany był zestaw danych modelu, wszystkie obliczone jako pojedynczej wartości progu klasyfikacji. Jeśli jednak chcesz ocenić do różnych celów, potrzebne są różne narzędzia.
Krzywa charakterystyki operacyjnej odbiornika (ROC)
Krzywa charakterystyki operacyjnej odbiornika (ROC) to wizualna reprezentacja wydajności modelu na wszystkich wartościach progowych. Długa wersja nazwy (charakterystyka operacyjna odbiornika) jest już zachowana od drugowojennych radarów.
Krzywa ROC jest rysowana przez obliczenie współczynnika prawdziwie pozytywnych (TPR) i współczynnik wyników fałszywie pozytywnych (FPR) na każdym możliwym progu (w praktyce wybranych interwałów), a następnie wykres TPR i FPR. Idealny model, który na pewnym poziomie ma TPR równy 1,0, a FPR 0,0, być reprezentowane przez punkt w (0, 1) jeśli wszystkie pozostałe progi są ignorowane lub gdy:
Obszar pod krzywą (AUC)
Obszar pod krzywą ROC (AUC) reprezentuje prawdopodobieństwo, że model, w przypadku losowo wybranego przykładu pozytywnego i negatywnego spowoduje ustalenie pozycji jest większa niż ujemna.
Powyższy idealny model, zawierający kwadrat o długościach 1, ma powierzchnię pod krzywą (AUC) równą 1,0. Oznacza to 100% prawdopodobieństwa, że model poprawnie sklasyfikuje losowo wybrany przykład dodatnią pozycję losowo wybrany przykład negatywny. Innymi słowy, patrząc na rozprzestrzenianie się punktów danych poniżej, AUC daje prawdopodobieństwo, że model umieści losowo wybrany kwadrat po prawej stronie losowo wybranego okręgu, niezależnie od dla których ustawiany jest próg.
Mówiąc konkretniej, klasyfikator spamu z AUC wartości 1,0 zawsze powoduje, że losowe e-maile zawierające spam zwiększają prawdopodobieństwo spamu niż przypadkowy, wiarygodny e-mail. Rzeczywista klasyfikacja poszczególnych zależy od wybranego progu.
W przypadku klasyfikatorów binarnych model, który działa dokładnie tak samo jak przypadkowe odgadywanie, Rzuty monetami mają funkcję ROC, która jest linią ukośną od 0,0 do (1,1). AUC to 0,5, co oznacza 50% prawdopodobieństwa prawidłowego rankingu losowej pozytywnej, negatywny przykład.
W przykładzie klasyfikatora spamu klasyfikatora spamu przypisuje losowy spamerski e-mail większe prawdopodobieństwo, że jest spamem niż losowy e-mail wiarygodne e-maile tylko przez połowę czasu.
(Opcjonalne, zaawansowane) Krzywa precyzji i czułości
AUC i ROC dobrze sprawdzają się przy porównywaniu modeli, gdy zbiór danych ma przybliżoną między klasami. Gdy zbiór danych jest niezrównoważony, funkcja precyzji i czułości krzywe (PRC), a obszar pod nimi może zapewnić lepszy porównanie wizualizacji skuteczności modelu. Krzywe precyzji i czułości są tworzone przez precyzję wykresu na osi Y i czułość na osi X. progów.
AUC i ROC przy wyborze modelu i progu
AUC to przydatny wskaźnik do porównywania skuteczności dwóch różnych modeli, o ile zbiór danych jest w przybliżeniu zrównoważony. (zobacz Krzywa precyzji i czułości, powyżej dla niezrównoważonych zbiorów danych). Model o większym obszarze krzywa jest zwykle lepsza.
Punkty na krzywej ROC najbliższe wartości (0,1) reprezentują zakres progi o najwyższej wydajności dla danego modelu. Jak już wspomnieliśmy w Progi, Tablica pomyłek oraz Wybór danych i zalet wybrany próg zależy od tego, które dane są najważniejsze do konkretnego przypadku użycia. Weź pod uwagę punkty A, B i C opisane poniżej diagram, z których każdy reprezentuje próg:
Jeśli fałszywe alarmy są bardzo kosztowne, wybierz próg, który daje niższy FPR, np. ten w punkcie A, nawet jeśli TPR jest zmniejszona. Jeśli wyniki fałszywie dodatnie są tanie, a fałszywie negatywne, (brak wyników prawdziwie pozytywnych) jest bardzo kosztowny, czyli próg punktu C, maksymalizacji TPR, może być zalecane. Jeśli koszty są mniej więcej równoważne, punkt B może zapewnić równowagę między TPR a FPR.
Oto krzywa ROC dla danych, które widzieliśmy:
Ćwiczenie: sprawdź swoją wiedzę
(Opcjonalne, zaawansowane) Pytanie dodatkowe
Wyobraź sobie, że lepiej dopuścić spam do niż wysyłać do folderu ze spamem e-maile o znaczeniu krytycznym dla firmy. Masz za pomocą klasyfikatora spamu, aby klasa pozytywna była spam, a klasa negatywna to nie spam. Które z poniższych punktów na krzywej ROC Twojego klasyfikatora jest lepsze?