Готовя данные для обучения и оценки модели, важно помнить о вопросах справедливости и проверять потенциальные источники систематической ошибки , чтобы можно было заранее смягчить ее последствия перед запуском модели в производство.
Где может скрываться предвзятость? Вот несколько тревожных сигналов, на которые следует обратить внимание в вашем наборе данных.
Отсутствуют значения функций
Если в вашем наборе данных есть один или несколько объектов, у которых отсутствуют значения для большого количества примеров, это может быть индикатором того, что некоторые ключевые характеристики вашего набора данных недостаточно представлены.
Упражнение: Проверьте свое понимание.
Вы обнаруживаете, что в 1500 из 5000 примеров в обучающем наборе отсутствуют значения темперамента. Что из перечисленного является потенциальными источниками предвзятости, которые вам следует изучить?
Неожиданные значения функций
При изучении данных вам также следует искать примеры, содержащие значения признаков, которые выделяются как особенно нехарактерные или необычные. Эти неожиданные значения функций могут указывать на проблемы, возникшие во время сбора данных, или на другие неточности, которые могут привести к систематической ошибке.
Упражнение: Проверьте свое понимание.
Просмотрите следующий гипотетический набор примеров для обучения модели адаптации собаки-спасателя.
порода | возраст (лет) | вес (фунты) | темперамент | shedding_level |
---|---|---|---|---|
той-пудель | 2 | 12 | возбудимый | низкий |
золотистый ретривер | 7 | 65 | спокойствие | высокий |
лабрадор ретривер | 35 | 73 | спокойствие | высокий |
французский бульдог | 0,5 | 11 | спокойствие | середина |
неизвестная смешанная порода | 4 | 45 | возбудимый | высокий |
бассет-хаунд | 9 | 48 | спокойствие | середина |
порода | возраст (лет) | вес (фунты) | темперамент | shedding_level |
---|---|---|---|---|
той-пудель | 2 | 12 | возбудимый | низкий |
золотистый ретривер | 7 | 65 | спокойствие | высокий |
лабрадор ретривер | 35 | 73 | спокойствие | высокий |
французский бульдог | 0,5 | 11 | спокойствие | середина |
неизвестная смешанная порода | 4 | 45 | возбудимый | высокий |
бассет-хаунд | 9 | 48 | спокойствие | середина |
Самой старой собакой, чей возраст был подтвержден Книгой рекордов Гиннеса, была Блюи , австралийская пастушья собака, которая прожила 29 лет и 5 месяцев. Учитывая это, кажется совершенно невероятным, что лабрадору-ретриверу на самом деле 35 лет, и более вероятно, что возраст собаки был либо рассчитан, либо записан неточно (возможно, собаке на самом деле 3,5 года). Эта ошибка также может указывать на более широкие проблемы с точностью данных о возрасте в наборе данных, которые заслуживают дальнейшего изучения.
Перекос данных
Любой вид искажения в ваших данных, когда определенные группы или характеристики могут быть недостаточно или перепредставлены по сравнению с их реальной распространенностью, может привести к смещению вашей модели.
При аудите эффективности модели важно не только рассматривать результаты в совокупности, но и разбивать результаты по подгруппам. Например, в случае с нашей моделью адаптации собак-спасателей для обеспечения справедливости недостаточно просто оценить общую точность. Нам также следует проверить эффективность по подгруппам, чтобы убедиться, что модель работает одинаково хорошо для каждой породы собак, возрастной группы и размерной группы.
Позже в этом модуле, в разделе «Оценка предвзятости» , мы более подробно рассмотрим различные методы оценки моделей по подгруппам.