При оценке модели метрики, рассчитанные для всего набора тестов или проверки, не всегда дают точное представление о том, насколько справедлива модель.
Рассмотрим новую модель, разработанную для прогнозирования наличия опухолей, которая оценивается по проверочному набору медицинских карт 1000 пациентов. 500 записей от пациентов женского пола и 500 записей от пациентов мужского пола. Следующая матрица путаницы суммирует результаты для всех 1000 примеров:
Истинные положительные результаты (TP): 16 | Ложные срабатывания (FP): 4 |
Ложноотрицательные результаты (FN): 6 | Истинные отрицательные результаты (TN): 974 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$ |
Эти результаты выглядят многообещающе: точность 80% и отзыв 72,7%. Но что произойдет, если мы посчитаем результат отдельно для каждой группы пациентов? Давайте разобьем результаты на две отдельные матрицы путаницы: одну для пациентов женского пола и одну для пациентов мужского пола.
Результаты женского пациента
Истинные положительные результаты (TP): 10 | Ложные срабатывания (FP): 1 |
Ложноотрицательные результаты (FN): 1 | Истинные негативы (TN): 488 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$ |
Результаты пациентов мужского пола
Истинные положительные результаты (TP): 6 | Ложные срабатывания (FP): 3 |
Ложноотрицательные результаты (FN): 5 | Истинные негативы (TN): 486 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$ |
Когда мы рассчитываем показатели отдельно для пациентов женского и мужского пола, мы видим резкие различия в производительности модели для каждой группы.
Пациенты женского пола:
Из 11 пациентов женского пола, у которых действительно есть опухоли, модель правильно предсказывает положительный результат для 10 пациентов (уровень отзыва: 90,9%). Другими словами, модель пропускает диагноз опухоли в 9,1% случаев у женщин .
Точно так же, когда модель дает положительный результат в отношении опухоли у пациентов женского пола, она верна в 10 из 11 случаев (уровень точности: 90,9%); другими словами, модель неправильно предсказывает опухоль в 9,1% случаев у женщин .
Пациенты мужского пола:
Однако из 11 пациентов мужского пола, у которых действительно есть опухоли, модель правильно предсказывает положительный результат только у 6 пациентов (показатель отзыва: 54,5%). Это означает , что модель пропускает диагностику опухоли в 45,5% случаев у мужчин .
И когда модель дает положительный результат в отношении опухоли у пациентов мужского пола, она верна только в 6 из 9 случаев (уровень точности: 66,7%); другими словами, модель неверно предсказывает опухоль в 33,3% случаев у мужчин .
Теперь мы гораздо лучше понимаем предубеждения, присущие предсказаниям модели, а также риски для каждой подгруппы, если модель будет выпущена для медицинского использования среди населения в целом.
Дополнительные ресурсы справедливости
Справедливость — относительно новое направление в области машинного обучения. Чтобы узнать больше об исследованиях и инициативах, посвященных разработке новых инструментов и методов для выявления и устранения предвзятости в моделях машинного обучения, ознакомьтесь сСтраница ресурсов Google по справедливому машинному обучению .