Oceniając model, dane obliczone na podstawie całego zbioru testowego lub testowego walidacji nie zawsze są dokładne.
Rozważ opracowanie nowego modelu pozwalającego przewidzieć obecność guzów w ramach weryfikacji obejmującej 1000 pacjentów. 500 rejestrów pochodzi od pacjentów płci żeńskiej, a 500 od pacjentów. Ta tabela pomyłek podsumowuje wyniki dla wszystkich 1000 przykładów:
Rzeczywiste korzyści (TP): 16 | Fałszywy wynik (FP): 4 |
Fałszywe wyniki negatywne: 6 | Prawda i fałsz: 974 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$ |
Wyniki są obiecujące: precyzja wynosząca 80%, czułość na 72,7%. Ale co się stanie, jeśli wyniki obliczamy osobno dla każdej grupy pacjentów? Rozbij wyniki na 2 oddzielne tablice: jedną dla kobiet i jedną dla mężczyzn.
Wyniki pacjentki
Rzeczywiste korzyści (TP): 10 | Fałszywy wynik (FP): 1 |
Fałszywe wyniki negatywne: 1 | Prawda i fałsz: 488 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$ |
Wyniki pacjenta
Rzeczywiste korzyści (TP): | Fałszywy wynik (FP): 3 |
Fałszywe wyniki negatywne: 5 | Prawda i fałsz: 486 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$ |
Gdy obliczamy dane osobno dla kobiet i mężczyzn, obserwujemy wyraźne różnice w skuteczności poszczególnych grup.
Pacjentki:
Model wśród 11 pacjentów, u których występuje rak Krótko mówiąc, model nie rozpoznał nowotworu w 9,1% przypadków kobiecych.
Podobnie, gdy model wskazuje na guz u pacjentów, jest poprawny w 10 na 11 przypadkach (współczynnik precyzji: 90,9%). Inaczej mówiąc, model nieprawidłowo prognozuje guz w 9,1% przypadków kobiecych.
Pacjenci mężczyzn:
Jednak z 11 płci męskich, u których występują guzy, model poprawnie przewiduje pozytywny wynik tylko 6 pacjentów (współczynnik czułości: 54,5%). Oznacza to, że model nie uwzględnia diagnostyki nowotworów w 45,5% przypadków mężczyzn.
Model z dodatnim wynikiem nowotworu u mężczyzn jest prawidłowy w 6 na 9 przypadków (dokładność: 66,7%). Inaczej mówiąc, model nieprawidłowo przewiduje guz w 33,3% przypadków mężczyzn.
Wiemy teraz znacznie więcej o odchyleniach wynikających z przewidywań modelu, a także o zagrożeniach, z jakimi wiąże się każda grupa podrzędna w przypadku opublikowania modelu do użytku medycznego w ogólnej populacji.
Dodatkowe materiały na temat uczciwości
Sprawiedliwość to stosunkowo nowa kategoria w dziedzinie systemów uczących się. Więcej informacji o badaniach i inicjatywach poświęconych opracowywaniu nowych narzędzi i metod dotyczących identyfikowania i ograniczania odchyleń w modelach systemów uczących się znajdziesz na stronieStrona zasobów Google dotyczących uczciwości systemów uczących się