Справедливость: выявление предвзятости

Готовя данные для обучения и оценки модели, важно помнить о вопросах справедливости и проверять потенциальные источники систематической ошибки , чтобы можно было заранее смягчить ее последствия перед запуском модели в производство.

Где может скрываться предвзятость? Вот несколько тревожных сигналов, на которые следует обратить внимание в вашем наборе данных.

Отсутствуют значения функций

Если в вашем наборе данных есть один или несколько объектов, у которых отсутствуют значения для большого количества примеров, это может быть индикатором того, что некоторые ключевые характеристики вашего набора данных недостаточно представлены.

Упражнение: Проверьте свое понимание.

Вы тренируете модель для прогнозирования возможности адаптации собак-спасателей на основе множества характеристик, включая породу, возраст, вес, темперамент и количество шерсти, линяющей каждый день. Ваша цель — обеспечить, чтобы модель одинаково хорошо работала на всех типах собак, независимо от их физических или поведенческих характеристик.

Вы обнаруживаете, что в 1500 из 5000 примеров в обучающем наборе отсутствуют значения темперамента. Что из перечисленного является потенциальными источниками предвзятости, которые вам следует изучить?

Данные о темпераменте, скорее всего, будут отсутствовать для определенных пород собак.
Данные о темпераменте отсутствуют для всех собак, спасенных из больших городов.
Данные о темпераменте, скорее всего, будут отсутствовать для собак в возрасте до 12 месяцев.
Данные о темпераменте случайно отсутствуют в наборе данных.

Неожиданные значения функций

При изучении данных вам также следует искать примеры, содержащие значения признаков, которые выделяются как особенно нехарактерные или необычные. Эти неожиданные значения функций могут указывать на проблемы, возникшие во время сбора данных, или на другие неточности, которые могут привести к систематической ошибке.

Упражнение: Проверьте свое понимание.

Просмотрите следующий гипотетический набор примеров для обучения модели адаптации собаки-спасателя.

порода возраст (лет) вес (фунты) темперамент shedding_level
той-пудель 2 12 возбудимый низкий
золотистый ретривер 7 65 спокойствие высокий
лабрадор ретривер 35 73 спокойствие высокий
французский бульдог 0,5 11 спокойствие середина
неизвестная смешанная порода 4 45 возбудимый высокий
бассет-хаунд 9 48 спокойствие середина
Можете ли вы выявить какие-либо проблемы с данными объекта?
Нажмите здесь, чтобы увидеть ответ

Перекос данных

Любой вид искажения в ваших данных, когда определенные группы или характеристики могут быть недостаточно или перепредставлены по сравнению с их реальной распространенностью, может привести к смещению вашей модели.

При аудите эффективности модели важно не только рассматривать результаты в совокупности, но и разбивать результаты по подгруппам. Например, в случае с нашей моделью адаптации собак-спасателей для обеспечения справедливости недостаточно просто оценить общую точность. Нам также следует проверить эффективность по подгруппам, чтобы убедиться, что модель работает одинаково хорошо для каждой породы собак, возрастной группы и размерной группы.

Позже в этом модуле, в разделе «Оценка предвзятости» , мы более подробно рассмотрим различные методы оценки моделей по подгруппам.