Як зазначалося в модулі Лінійна регресія, обчислення упередженості прогнозу – це швидка перевірка, яка може виявити проблеми з моделлю або навчальними даними на ранніх стадіях.
Упередженість прогнозу – це різниця між середніми значеннями прогнозів моделі й еталонних міток даних. Модель, навчена на наборі даних, у якому 5% листів позначено як спам, має в середньому передбачати, що 5% листів, які вона класифікує, є спамом. Іншими словами, середнє значення як міток з еталонного набору даних, так і прогнозів моделі має дорівнювати 0,05. Якщо це так, то модель має нульову упередженість прогнозів. Звичайно, у роботі моделі можуть бути й інші проблеми.
Якщо натомість модель у 50% випадків прогнозує, що лист – спам, це свідчить про проблему з навчальним набором даних, новим набором даних, який обробляється, або самою моделлю. Будь-яка значна різниця між цими двома показниками свідчить про те, що модель має певну упередженість прогнозу.
Нижче наведено причини, з яких виникає упередженість прогнозу.
- Упередженості або шум у даних, зокрема упередженість вибірки для навчального набору даних.
- Надто сильна регуляризація, тобто надмірне спрощення моделі, через яке вона позбавлена необхідної складності.
- Помилки в конвеєрі навчання моделі.
- Набір ознак, наданих моделі, недостатній для вирішення поставленого завдання.