Готуючи дані для навчання й оцінювання, важливо пам’ятати про об’єктивність і перевіряти потенційні джерела упередженості, щоб завчасно зменшити її вплив перед розгортанням моделі в робочому середовищі.
Де може ховатись упередженість? Нижче наведено деякі червоні прапорці, на які слід звернути увагу в наборі даних.
Відсутні значення ознак
Якщо у вашому наборі даних є одна або кілька ознак із відсутніми значеннями для великої кількості прикладів, це може вказувати на те, що певні ключові характеристики набору даних недостатньо представлені.
Вправа. Перевірте свої знання
Ви виявили, що в 1500 з 5000 прикладів навчального набору даних відсутні значення темпераменту. Що з наведеного нижче є потенційними джерелами упередженості, які слід дослідити?
Неочікувані значення ознак
Досліджуючи дані, слід також шукати приклади зі значеннями ознак, які вирізняються як особливо нехарактерні або нетипові. Такі неочікувані значення ознак можуть указувати на проблеми, що виникли під час збору даних, або інші неточності, які можуть призвести до упередженості.
Вправа. Перевірте свої знання
Перегляньте наведений нижче набір гіпотетичних прикладів для навчання моделі, яка прогнозує вірогідність того, що певну собаку заберуть із притулку.
Порода | Вік (р.) | Вага (фунти) | Темперамент | Рівень линьки |
---|---|---|---|---|
Карликовий пудель | 2 | 12 | Збудливий | Низький |
Золотистий ретривер | 7 | 65 | Спокійний | Високий |
Лабрадор | 35 | 73 | Спокійний | Високий |
Французький бульдог | 0,5 | 11 | Спокійний | Середній |
Невідома порода (метис) | 4 | 45 | Збудливий | Високий |
Басет-гаунд | 9 | 48 | Спокійний | Середній |
Порода | Вік (р.) | Вага (фунти) | Темперамент | Рівень линьки |
---|---|---|---|---|
Карликовий пудель | 2 | 12 | Збудливий | Низький |
Золотистий ретривер | 7 | 65 | Спокійний | Високий |
Лабрадор | 35 | 73 | Спокійний | Високий |
Французький бульдог | 0,5 | 11 | Спокійний | Середній |
Невідома порода (метис) | 4 | 45 | Збудливий | Високий |
Басет-гаунд | 9 | 48 | Спокійний | Середній |
Найстарішим собакою з перевіреним віком, зафіксованим у Книзі рекордів Гіннеса, був Блюі – австралійська вівчарка, що прожила 29 років і 5 місяців. Враховуючи це, здається абсолютно неправдоподібним, що лабрадору насправді 35 років. Імовірно, вік собаки розраховано або записано неточно (можливо, собаці насправді 3,5 роки). Ця помилка також може свідчити про більш значні проблеми з точністю даних про вік у наборі, тому слід ретельно все перевірити.
Спотворення даних
Будь-яке спотворення даних (певні групи чи характеристики недостатньо або надмірно представлені порівняно з їх поширеністю в реальному світі), може призвести до появи упередженості в моделі.
Перевіряючи ефективність моделі, важливо не лише дивитися на результати в сукупності, але й розподіляти їх за підгрупами. Наприклад, для моделі, яка прогнозує вірогідність того, що певну собаку заберуть із притулку, недостатньо просто подивитися на загальну точність, щоб забезпечити об’єктивність. Слід також перевірити ефективність за підгрупами, щоб переконатися, що модель виводить однаково гарні прогнози для кожної породи, вікової групи й розміру собак.
Далі в цьому модулі – у розділі "Оцінювання упередженості" – докладно розглядаються різні методи оцінювання моделей за підгрупами.