Przewidywania regresji logistycznej powinny być bezstronne. Czyli:
"średnia prognoz&&t; ≈ "średnia obserwacji"
Odchylenie prognozy to ilość, która pokazuje, jak daleko od tych dwóch wartości średnich. Czyli:
Znacząca zera wartość odchylenia informuje, że w modelu występuje błąd, ponieważ wskazuje on na to, jak często występują etykiety pozytywne.
Załóżmy na przykład, że wiemy, że średnio 1% e-maili to spam. Jeśli nic nie wiemy na temat danego e-maila, należy przewidzieć, że będzie to 1% spamu. Podobnie dobry model spamu powinien określać, że e-maile są średnio 1% spamem. Inaczej mówiąc, jeśli średnie prawdopodobieństwo, że każdy e-mail jest prognozą, jest średnie, wynik powinien wynosić 1%. W przeciwnym razie średnia prognoza modelu to 20% prawdopodobieństwa spamu, można założyć, że wykazuje odchylenia prognoz.
Możliwe przyczyny błędów odchylenia prognoz:
- Niekompletny zestaw funkcji
- Hałas zbioru danych
- Błąd potoku
- Próbka odchylenia
- Zbyt duża regularność
Po nieco skorygowanym odchyleniu prognozy można nieco pokusić się o dodanie informacji o utworzonym modelu, czyli dodanie warstwy kalibracji, która dostosowuje dane wyjściowe modelu w celu ograniczenia odchylenia prognoz. Jeśli na przykład odchylenie modelu wynosi +3%, możesz dodać warstwę kalibracyjną, która obniża średnią prognozę o 3%. Warto jednak dodać warstwę kalibracji, ponieważ:
- Próbujesz rozwiązać problem, a nie jego przyczynę.
- Masz bardziej skomplikowany system, który musisz na bieżąco aktualizować.
W miarę możliwości unikaj kalibracji. Projekty, które korzystają z warstw kalibracji, opierają się na nich podczas rozwiązywania problemów z modelami wszystkich warstw. Ostatecznie utrzymanie warstw kalibracyjnych może stać się snem.
Odchylanie i prognozowanie
Regresja logistyczna przewiduje wartość między 0 a 1. Jednak wszystkie przykłady z etykietą to dokładnie 0 (np. "spam") lub dokładnie 1 (co na przykład "spam"). Dlatego też odchylenie prognozy nie jest możliwe w odniesieniu do odchylenia prognoz na podstawie tylko jednego przykładu. Musisz sprawdzić odchylenie prognozy w przykładach w zasobniku. Oznacza to, że odchylenie prognozy w przypadku regresji logistycznej przynosi sens tylko przy grupowaniu wystarczającej liczby przykładów, aby móc porównać przewidywaną wartość (np.0,392) z zaobserwowanymi wartościami (np.0,394).
Zasobniki możesz tworzyć w taki sposób:
- Linearny podział prognoz.
- Tworzenie kwantylów.
Weź pod uwagę poniższy kalibrację konkretnego modelu. Każda kropka reprezentuje zasobnik zawierający 1000 wartości. Siekiery mają następujące znaczenie:
- Oś X przedstawia średnią wartość, którą model przewiduje dla danego zasobnika.
- Oś Y przedstawia rzeczywistą średnią wartości ze zbioru danych dla tego zasobnika.
Obie osie to wagi logarytmiczne.
Rysunek 8. Krzywa odchylenia prognozy (skale logarytmiczne)
Dlaczego prognozy są tak niskie tylko w części modelu? Oto kilka możliwości: