Ocena modeli za pomocą danych

Debugowanie modelu ML może wydawać się trudne, ale dane modelu wskazują, od czego zacząć. Z tych sekcji dowiesz się, jak oceniać skuteczność za pomocą danych.

Ocena jakości na podstawie danych o modelu

Aby ocenić jakość modelu, najczęściej używane metryki:

Wskazówki dotyczące interpretacji tych danych znajdziesz w linkach do treści z występu awarii systemów uczących się. Dodatkowe wskazówki na temat konkretnych problemów znajdziesz w tabeli poniżej.

Problem Ocena jakości
Regresja Oprócz zmniejszenia bezwzględnego błędu średniego (MSE) zmniejsz MSE w stosunku do wartości etykiet. Załóżmy na przykład, że prognozujesz ceny 2 produktów, których średnia cena wynosi 5 i 100. W obu przypadkach załóż MSE na 5. W pierwszym przypadku MSE to 100% średniej ceny, co jest wyraźnym błędem. W drugim przypadku MSE wynosi 5% średniej ceny, co jest uzasadnione.
Klasyfikacja wieloklasowa Jeśli prognozujesz niewielką liczbę zajęć, sprawdź dane dotyczące poszczególnych zajęć. Przy prognozowaniu wielu zajęć możesz uśredniać dane klasy, aby śledzić ogólne dane klasyfikacji. W zależności od potrzeb możesz też ustalić priorytety konkretnych celów jakościowych. Jeśli np. klasyfikujesz obiekty w obrazach, możesz nadać priorytet klasyfikacji użytkowników w porównaniu z innymi obiektami.

Sprawdź wskaźniki pod kątem ważnych wycinków danych

Po utworzeniu modelu wysokiej jakości wciąż może on mieć niską wydajność na podzbiorze danych. Na przykład prognoza jednorożca musi przewidywać zasięg zarówno na Saharze, jak i w Nowym Jorku oraz o każdej porze dnia. Masz jednak mniej danych treningowych dla pustyni Sahary. Warto więc śledzić jakość modeli dla pustyni Sahary. Podzbiory danych, takie jak podzbiór danych na pustyni Sahara, są nazywane wycinkami danych. Oddzielnie wydzielaj wycinki danych tam, gdzie wydajność jest szczególnie ważna lub Twój model może mieć niską skuteczność.

Wykorzystaj swoje dane do identyfikowania interesujących Cię segmentów. Następnie porównaj dane modelu dla wycinków danych z danymi dla całego zbioru danych. Sprawdzenie, czy model działa we wszystkich wycinkach danych, pomaga wyeliminować odchylenia. Więcej dowiesz się z artykułu Fairness: Ocena pod kątem stronniczki.

Używaj rzeczywistych danych

Dane modelu nie zawsze muszą odzwierciedlać rzeczywisty wpływ modelu. Możesz na przykład zmienić hiperparametr i zwiększyć AUC, ale jak ta zmiana wpłynie na wrażenia użytkownika? Aby zmierzyć rzeczywisty wpływ, musisz zdefiniować oddzielne dane. Możesz np. przeprowadzić ankietę wśród użytkowników, którzy zobaczyli prognozę dotyczącą jednorożca, aby sprawdzić, czy zobaczyli oni jednorożca. Pomiar rzeczywistego wpływu pomaga porównać jakość różnych iteracji modelu.