Об’єктивність: виявлення упередженості

Готуючи дані для навчання й оцінювання, важливо пам’ятати про об’єктивність і перевіряти потенційні джерела упередженості, щоб завчасно зменшити її вплив перед розгортанням моделі в робочому середовищі.

Де може ховатись упередженість? Нижче наведено деякі червоні прапорці, на які слід звернути увагу в наборі даних.

Відсутні значення ознак

Якщо у вашому наборі даних є одна або кілька ознак із відсутніми значеннями для великої кількості прикладів, це може вказувати на те, що певні ключові характеристики набору даних недостатньо представлені.

Вправа. Перевірте свої знання

Ви навчаєте модель прогнозувати вірогідність того, що певну собаку заберуть із притулку, на основі різноманітних ознак, зокрема породи, віку, ваги, темпераменту й щоденної линьки. Ваша мета – переконатися, що модель однаково добре працює для всіх типів собак, хоч які їх фізичні чи поведінкові характеристики.

Ви виявили, що в 1500 з 5000 прикладів навчального набору даних відсутні значення темпераменту. Що з наведеного нижче є потенційними джерелами упередженості, які слід дослідити?

Дані про темперамент, найімовірніше, відсутні для певних порід собак.
Якщо доступність даних про темперамент залежить від породи собаки, це може призвести до менш точних прогнозів для певних порід собак.
Дані про темперамент, найімовірніше, відсутні для собак віком до 12 місяців.
Якщо доступність даних про темперамент співвідноситься з віком, це може призвести до менш точних прогнозів для цуценят, як порівняти з дорослими собаками.
Дані про темперамент відсутні для всіх собак, яких знайшли у великих містах.
Спершу може здатися, що це не є потенційним джерелом упередженості, оскільки відсутні дані однаково вплинуть на всіх собак із великих міст, незалежно від їх породи, віку, ваги тощо. Однак усе-таки слід враховувати, що місцевість, з якої походить собака, може ефективно слугувати проксі-міткою для цих фізичних характеристик. Наприклад, якщо собаки з великих міст значно частіше менші, ніж собаки із сільської місцевості, це може призвести до менш точних прогнозів для собак із меншою вагою або деяких маленьких порід.
Дані про темперамент відсутні в наборі даних безсистемно.
Якщо дані про темперамент справді відсутні безсистемно, це не буде потенційним джерелом упередженості. Однак можливо, що так лише здається, а в ході подальшого дослідження буде виявлено пояснення цієї розбіжності. Тому важливо провести ретельну перевірку, щоб виключити інші можливості, а не відразу вважати, що прогалини в даних випадкові.

Неочікувані значення ознак

Досліджуючи дані, слід також шукати приклади зі значеннями ознак, які вирізняються як особливо нехарактерні або нетипові. Такі неочікувані значення ознак можуть указувати на проблеми, що виникли під час збору даних, або інші неточності, які можуть призвести до упередженості.

Вправа. Перевірте свої знання

Перегляньте наведений нижче набір гіпотетичних прикладів для навчання моделі, яка прогнозує вірогідність того, що певну собаку заберуть із притулку.

Порода Вік (р.) Вага (фунти) Темперамент Рівень линьки
Карликовий пудель 2 12 Збудливий Низький
Золотистий ретривер 7 65 Спокійний Високий
Лабрадор 35 73 Спокійний Високий
Французький бульдог 0,5 11 Спокійний Середній
Невідома порода (метис) 4 45 Збудливий Високий
Басет-гаунд 9 48 Спокійний Середній
Чи є в даних ознак, на вашу думку, якісь проблеми?
Натисніть, щоб дізнатися відповідь

Спотворення даних

Будь-яке спотворення даних (певні групи чи характеристики недостатньо або надмірно представлені порівняно з їх поширеністю в реальному світі), може призвести до появи упередженості в моделі.

Перевіряючи ефективність моделі, важливо не лише дивитися на результати в сукупності, але й розподіляти їх за підгрупами. Наприклад, для моделі, яка прогнозує вірогідність того, що певну собаку заберуть із притулку, недостатньо просто подивитися на загальну точність, щоб забезпечити об’єктивність. Слід також перевірити ефективність за підгрупами, щоб переконатися, що модель виводить однаково гарні прогнози для кожної породи, вікової групи й розміру собак.

Далі в цьому модулі – у розділі "Оцінювання упередженості" – докладно розглядаються різні методи оцінювання моделей за підгрупами.