Załóżmy, że masz model regresji logistycznej do wykrywania spamu i e-maili. Przewiduje on wartość z zakresu od 0 do 1 wskazującą prawdopodobieństwo, że dany e-mail to spam. Prognoza 0,50 oznacza prawdopodobieństwo 50%, że e-mail jest spamem, prognoza 0,75 oznacza prawdopodobieństwo 75%, że e-mail jest spamem, itd.
Chcesz wdrożyć ten model w aplikacji poczty e-mail, aby odfiltrowywać spam do osobnego folderu poczty. Aby to zrobić, musisz przekonwertować surowe dane liczbowe modelu (np. 0.75
) do jednej z 2 kategorii: „spam” lub „nie spam”.
Aby dokonać tej konwersji, musisz wybrać próg prawdopodobieństwa, czyli wartość progową klasyfikacji.
Przykłady o większym prawdopodobieństwie niż wartość progowa są przypisywane do klasy pozytywnej, czyli klasy, której dotyczy test (tutaj: spam
). Przykłady o mniejszym prawdopodobieństwie są przypisywane do klasy negatywnej, czyli klasy alternatywnej (tutaj: not spam
).
Więcej informacji o progu klasyfikacji
Możesz się zastanawiać, co się stanie, jeśli przewidywana wartość jest równa progowi klasyfikacji (np.wartość 0,5, gdy próg klasyfikacji wynosi również 0,5). Obsługa tego przypadku zależy od konkretnej implementacji wybranej dla modelu klasyfikacji. Biblioteka Keras przewiduje klasę negatywną, jeśli wynik i wartość progowa są równe, ale inne narzędzia/ramy mogą inaczej obsługiwać ten przypadek.
Załóżmy, że model ocenia jeden e-mail jako 0,99, przewidując, że ma on 99% szans na to, że jest spamem, a inny e-mail jako 0,51, przewidując, że ma on 51% szans na to, że jest spamem. Jeśli ustawisz próg klasyfikacji na 0,5, model sklasyfikuje oba e-maile jako spam. Jeśli ustawisz próg na 0,95, tylko e-maile z oceną 0,99 będą klasyfikowane jako spam.
Chociaż próg 0,5 może wydawać się intuicyjny, nie jest dobrym pomysłem, jeśli koszt jednego typu błędnej klasyfikacji jest wyższy niż w drugim lub gdy klasy są nierównomierne. Jeśli tylko 0,01% e-maili to spam lub jeśli błędne przesyłanie e-maili jest gorsze niż wpuszczanie spamu do skrzynki odbiorczej, oznaczanie wszystkich e-maili, które według modelu w co najmniej 50% to spam, ponieważ spam przynosi niepożądane efekty.
Tablica pomyłek
Wynik prawdopodobieństwa nie jest rzeczywistością ani danymi podstawowymi. Każdy wynik klasyfikatora binarnego może mieć 4 możliwe wartości. W przypadku przykładowego klasyfikatora spamu: jeśli przedstawisz dane podstawowe (ground truth) w postaci kolumn, a prognozę modelu jako wiersze, wynikiem będzie tabela poniżej, zwana tabelą pomyłek:
Prawdziwie pozytywny | Rzeczywisty wynik negatywny | |
---|---|---|
Prognoza dodatnia | Prawdziwie pozytywne (TP): e-maile ze spamem, które zostały poprawnie sklasyfikowane jako spam. To spam, który został automatycznie wysłany do folderu ze spamem. | Fałszywie dodatni wynik (FP): e-mail, który nie jest spamem, został błędnie zaklasyfikowany jako spam. Są to wiarygodne e-maile, które trafiają do folderu ze spamem. |
Przewidywany wynik negatywny | Fałszywie negatywny (FN): e-mail ze spamem błędnie zaklasyfikowany jako niespam. Są to e-maile ze spamem, które nie zostały wychwycone przez filtr spamu i trafiły do skrzynki odbiorczej. | Prawdziwy wynik negatywny (TN): e-mail, który nie jest spamem, został prawidłowo sklasyfikowany jako niebędący spamem. To prawdziwe e-maile wysyłane bezpośrednio do skrzynki odbiorczej. |
Zwróć uwagę, że suma w każdym wierszu zawiera wszystkie prognozowane wyniki pozytywne (TP + FP) i wszystkie prognozowane wyniki negatywne (FN + TN), niezależnie od ich wiarygodności. Z kolei suma w każdej kolumnie daje wszystkie wyniki rzeczywiste dodatnie (TP + FN) i rzeczywiste wartości ujemne (FP + TN) niezależnie od klasyfikacji modelu.
Jeśli łączna liczba rzeczywistych wyników dodatnich nie jest zbliżona do łącznej liczby rzeczywistych wyników ujemnych, zbiór danych jest niezrównoważony. Przykładem zbiórki danych z niezrównoważonym rozkładem może być zbiór tysięcy zdjęć chmur, na których rzadki typ chmur, np. volutus, pojawia się tylko kilka razy.
Wpływ progu na wyniki prawdziwie i fałszywie pozytywne oraz negatywne
Różne progi zwykle powodują różne liczby wyników prawdziwie pozytywnych i fałszywie pozytywnych oraz prawdziwie negatywnych i fałszywie negatywnych. Poniżej znajdziesz film, który wyjaśnia, dlaczego tak się dzieje.
Spróbuj samodzielnie zmienić próg.
Ten widżet zawiera 3 zbiory danych zabawkowych:
- Oddzielone, gdzie przykłady pozytywne i negatywne są dobrze rozróżnione, a większość przykładów pozytywnych ma wyższe wyniki niż przykłady negatywne.
- Nierozdzielone, gdzie wiele przykładów pozytywnych ma niższe wyniki niż przykłady negatywne, a wiele przykładów negatywnych ma wyższe wyniki niż przykłady pozytywne.
- Niezbalansowane – zawiera tylko kilka przykładów klasy pozytywnej.