Klasyfikacja: odchylenie prognozy

Jak wspomnieliśmy w Regresja liniowa moduł, obliczanie odchylenie prognozy to szybki test, który może oznaczać problemy z modelem lub danymi treningowymi do ich wczesnych testów.

Odchylenie prognozy to różnica między średnią modelu prognoz, oraz średnią etykiety ground-truth w i skalowalnych danych. Model wytrenowany na zbiorze danych gdzie 5% e-maili to spam można przewidzieć, że 5% e-maile, które klasyfikuje jako spam. Innymi słowy, średnia dla etykiet w kolumnie zbiór danych danych podstawowych to 0,05, a średnia prognoz modelu powinna również będzie wynosić 0,05. W takim przypadku model ma zerowe odchylenie prognozy. z model nadal może jednak mieć inne problemy.

Jeśli zamiast tego model przewiduje, że e-mail jest spamem w 50% przypadków, to: coś jest nie tak ze zbiorem danych treningowych, nowym zbiorem danych używanym przez model lub z samym modelem. Dowolne znacząca różnica między tymi 2 środkami sugeruje, że model pewne uprzedzenia prognozowania.

Przyczyny odchylenia prognozy:

  • uprzedzenia lub szum w danych, w tym stronnicze próbkowanie w przypadku zbioru treningowego;
  • Zbyt silna regularyzacja, co oznacza, że model został nadmiernie uproszczony i utracony pewnej niezbędnej złożoności
  • Błędy w potoku trenowania modelu
  • Zestaw funkcji udostępnionych modelowi jest niewystarczający do realizacji zadania