Справедливость: выявление предвзятости

Готовя данные для обучения и оценки модели, важно помнить о вопросах справедливости и проверять потенциальные источники систематической ошибки , чтобы можно было заранее смягчить ее последствия перед запуском модели в производство.

Где может скрываться предвзятость? Вот несколько тревожных сигналов, на которые следует обратить внимание в вашем наборе данных.

Отсутствуют значения функций

Если в вашем наборе данных есть один или несколько объектов, у которых отсутствуют значения для большого количества примеров, это может быть индикатором того, что некоторые ключевые характеристики вашего набора данных недостаточно представлены.

Упражнение: Проверьте свое понимание.

Вы тренируете модель для прогнозирования возможности адаптации собак-спасателей на основе множества характеристик, включая породу, возраст, вес, темперамент и количество шерсти, линяющей каждый день. Ваша цель — обеспечить, чтобы модель одинаково хорошо работала на всех типах собак, независимо от их физических или поведенческих характеристик.

Вы обнаруживаете, что в 1500 из 5000 примеров в обучающем наборе отсутствуют значения темперамента. Что из перечисленного является потенциальными источниками предвзятости, которые вам следует изучить?

Данные о темпераменте, скорее всего, будут отсутствовать для определенных пород собак.
Если наличие данных о темпераменте коррелирует с породой собаки, это может привести к менее точным прогнозам приемлемости для определенных пород собак.
Данные о темпераменте, скорее всего, будут отсутствовать для собак в возрасте до 12 месяцев.
Если наличие данных о темпераменте коррелирует с возрастом, то это может привести к менее точным прогнозам приемлемости щенков по сравнению с взрослыми собаками.
Данные о темпераменте отсутствуют для всех собак, спасенных из больших городов.
На первый взгляд может показаться, что это не является потенциальным источником систематической ошибки, поскольку недостающие данные в равной степени затрагивают всех собак из больших городов, независимо от их породы, возраста, веса и т. д. Однако нам все равно необходимо учитывать, что Местоположение собаки может эффективно служить показателем этих физических характеристик. Например, если собаки из больших городов с большей вероятностью будут меньше, чем собаки из сельской местности, это может привести к менее точным прогнозам приемлемости для собак с меньшим весом или некоторых пород собак мелких пород.
Данные о темпераменте случайно отсутствуют в наборе данных.
Если данные о темпераменте действительно случайно отсутствуют, это не будет потенциальным источником систематической ошибки. Тем не менее, вполне возможно, что данные о темпераменте могут отсутствовать случайно, но дальнейшее расследование может найти объяснение этому несоответствию. Поэтому важно провести тщательный анализ, чтобы исключить другие возможности, а не предполагать, что пробелы в данных являются случайными.

Неожиданные значения функций

При изучении данных вам также следует искать примеры, содержащие значения признаков, которые выделяются как особенно нехарактерные или необычные. Эти неожиданные значения функций могут указывать на проблемы, возникшие во время сбора данных, или на другие неточности, которые могут привести к систематической ошибке.

Упражнение: Проверьте свое понимание.

Просмотрите следующий гипотетический набор примеров для обучения модели адаптации собаки-спасателя.

порода возраст (лет) вес (фунты) темперамент shedding_level
той-пудель 2 12 возбудимый низкий
золотистый ретривер 7 65 спокойствие высокий
лабрадор ретривер 35 73 спокойствие высокий
французский бульдог 0,5 11 спокойствие середина
неизвестная смешанная порода 4 45 возбудимый высокий
бассет-хаунд 9 48 спокойствие середина
Можете ли вы выявить какие-либо проблемы с данными объекта?
Нажмите здесь, чтобы увидеть ответ

Перекос данных

Любой вид искажения в ваших данных, когда определенные группы или характеристики могут быть недостаточно или перепредставлены по сравнению с их реальной распространенностью, может привести к смещению вашей модели.

При аудите эффективности модели важно не только рассматривать результаты в совокупности, но и разбивать результаты по подгруппам. Например, в случае с нашей моделью адаптации собак-спасателей для обеспечения справедливости недостаточно просто оценить общую точность. Нам также следует проверить эффективность по подгруппам, чтобы убедиться, что модель работает одинаково хорошо для каждой породы собак, возрастной группы и размерной группы.

Позже в этом модуле, в разделе «Оценка предвзятости» , мы более подробно рассмотрим различные методы оценки моделей по подгруппам.