Справедливость: оценка предвзятости

При оценке модели метрики, рассчитанные для всего набора тестов или проверки, не всегда дают точное представление о том, насколько справедлива модель.

Рассмотрим новую модель, разработанную для прогнозирования наличия опухолей, которая оценивается по проверочному набору медицинских карт 1000 пациентов. 500 записей от пациентов женского пола и 500 записей от пациентов мужского пола. Следующая матрица путаницы суммирует результаты для всех 1000 примеров:

Истинные положительные результаты (TP): 16 Ложные срабатывания (FP): 4
Ложноотрицательные результаты (FN): 6 Истинные отрицательные результаты (TN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

Эти результаты выглядят многообещающе: точность 80% и отзыв 72,7%. Но что произойдет, если мы посчитаем результат отдельно для каждой группы пациентов? Давайте разобьем результаты на две отдельные матрицы путаницы: одну для пациентов женского пола и одну для пациентов мужского пола.

Результаты женского пациента

Истинные положительные результаты (TP): 10 Ложные срабатывания (FP): 1
Ложноотрицательные результаты (FN): 1 Истинные негативы (TN): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

Результаты пациентов мужского пола

Истинные положительные результаты (TP): 6 Ложные срабатывания (FP): 3
Ложноотрицательные результаты (FN): 5 Истинные негативы (TN): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

Когда мы рассчитываем показатели отдельно для пациентов женского и мужского пола, мы видим резкие различия в производительности модели для каждой группы.

Пациенты женского пола:

  • Из 11 пациентов женского пола, у которых действительно есть опухоли, модель правильно предсказывает положительный результат для 10 пациентов (уровень отзыва: 90,9%). Другими словами, модель пропускает диагноз опухоли в 9,1% случаев у женщин .

  • Точно так же, когда модель дает положительный результат в отношении опухоли у пациентов женского пола, она верна в 10 из 11 случаев (уровень точности: 90,9%); другими словами, модель неправильно предсказывает опухоль в 9,1% случаев у женщин .

Пациенты мужского пола:

  • Однако из 11 пациентов мужского пола, у которых действительно есть опухоли, модель правильно предсказывает положительный результат только у 6 пациентов (показатель отзыва: 54,5%). Это означает , что модель пропускает диагностику опухоли в 45,5% случаев у мужчин .

  • И когда модель дает положительный результат в отношении опухоли у пациентов мужского пола, она верна только в 6 из 9 случаев (уровень точности: 66,7%); другими словами, модель неверно предсказывает опухоль в 33,3% случаев у мужчин .

Теперь мы гораздо лучше понимаем предубеждения, присущие предсказаниям модели, а также риски для каждой подгруппы, если модель будет выпущена для медицинского использования среди населения в целом.

Дополнительные ресурсы справедливости

Справедливость — относительно новое направление в области машинного обучения. Чтобы узнать больше об исследованиях и инициативах, посвященных разработке новых инструментов и методов для выявления и устранения предвзятости в моделях машинного обучения, ознакомьтесь сСтраница ресурсов Google по справедливому машинному обучению .