Klasyfikacja

W tym module pokazujemy, jak regresję logiczną można wykorzystać do zadań związanych z klasyfikacją, a także opisujemy, jak ocenić efektywność modeli klasyfikacji.

Klasyfikacja

  • Czasami używa się regresji logistycznej dla danych wyjściowych prawdopodobieństwa – jest to regresja w (0, 1)
  • W innych przypadkach przekroczymy wartość klasyfikacji dyskretnej pliku binarnego.
  • Wybór progu jest ważnym elementem i można go dostosować
  • Jak oceniamy modele klasyfikacji?
  • Jak oceniamy modele klasyfikacji?
  • Jednym z możliwych pomiarów: dokładność
    • ułamek prognoz, które poznaliśmy
  • W wielu przypadkach dokładność jest niska lub wprowadza w błąd
    • Najczęściej zdarza się, że różne rodzaje błędów mają różne koszty.
    • Typowe przypadki to równoważenie klasy, gdy korzyści pozytywne lub negatywne są bardzo rzadkie
  • W przypadku problemów niezrównoważonych klasowo przydaje się do oddzielania różnych rodzajów błędów
Rzeczywiste pozytywy
prawidłowo nazwaliśmy wilka.
Mamy zapisane miasto.

Fałszywe pozytywy
Błąd: wilk nazwaliśmy fałszywie.
Wszyscy są złe.

Fałszywe Negatywy
Miał wilk, ale go nie znaleźliśmy. Zjadł wszystkie kurczaki.
Pewne negatywne
Brak wilka, żaden alarm.
Wszyscy są OK.

  • Precyzja: (prawdziwie pozytywne) / (wszystkie pozytywne prognozy)
    • Czy model mówił o pozytywnej klasie?
    • Intuicja: czy model płakał zbyt często?
  • Precyzja: (prawdziwie pozytywne) / (wszystkie pozytywne prognozy)
    • Czy model mówił o pozytywnej klasie?
    • Intuicja: czy model płakał zbyt często?
  • Rozpoznawalność: (prawdziwie pozytywne) / (wszystkie rzeczywiste korzyści)
    • Ile spośród wszystkich możliwych pozytywnych wyników zidentyfikowało model?
    • Intuicja: czy brakowało wilków?

Dostępne opcje są opisane poniżej.

Rozważ model klasyfikacji dzielący e-maile na 2 kategorie: „spam” lub „nie spam”. Co się stanie z precyzją, jeśli podniesiesz próg klasyfikacji?
Jak najbardziej.
Podniesienie progu klasyfikacji zazwyczaj zwiększa precyzję, ale nie gwarantujemy, że będzie je wzrastać monotonicznie.
Prawdopodobnie wzrost.
Ogólnie podniesienie progu klasyfikacji zmniejsza liczbę wyników fałszywie pozytywnych, co zwiększa precyzję.
Prawdopodobnie maleje.
Ogólnie podniesienie progu klasyfikacji zmniejsza liczbę wyników fałszywie pozytywnych, co zwiększa precyzję.
Zdecydowanie tak.
Ogólnie podniesienie progu klasyfikacji zmniejsza liczbę wyników fałszywie pozytywnych, co zwiększa precyzję.

Każdy punkt to wskaźnik z TP i FP na poziomie 1 progu decyzji.

Krzywa ROC przedstawiająca wyniki związane z TP i FP przy różnych progach klasyfikacji.
  • AUC: „Obszar pod krzywą ROC”
  • AUC: „Obszar pod krzywą ROC”
  • Interpretacja:
    • Jeśli wybierzemy losowy dodatni lub ujemny, jakie jest prawdopodobieństwo, że mój model zarejestruje je we właściwej kolejności?
  • AUC: „Obszar pod krzywą ROC”
  • Interpretacja:
    • Jeśli wybierzemy losowy dodatni lub ujemny, jakie jest prawdopodobieństwo, że mój model zarejestruje je we właściwej kolejności?
  • Intuicja: dostarcza zbiorcze dane o skuteczności dotyczące wszystkich możliwych progów klasyfikacji.
  • Przewidywania regresji logistycznej powinny być obiektywne.
    • średnia prognoz == średnia z obserwacji
  • Przewidywania regresji logistycznej powinny być obiektywne.
    • średnia prognoz == średnia z obserwacji
  • Odchylenie jest kanikiem.
    • Sama odchylenie zerowe nie oznacza, że wszystko w systemie jest idealne.
    • Świetny wynik.
  • Jeśli występuje odchylenie, występuje problem.
    • Niekompletny zestaw funkcji?
    • Błędny potok?
    • Przykład strony treningowej?
  • Nie koryguj odchylenia za pomocą warstwy kalibracji, popraw je w modelu.
  • Szukaj odchylenia w wycinkach danych – może to pomóc w ulepszeniu funkcji.
Wykres kalibracyjny