Класифікація: зсув прогнозування

Як зазначалося в модулі Лінійна регресія, обчислення упередженості прогнозу – це швидка перевірка, яка може виявити проблеми з моделлю або навчальними даними на ранніх стадіях.

Упередженість прогнозу – це різниця між середніми значеннями прогнозів моделі й істинних міток даних. Модель, навчена на наборі даних, у якому 5% листів позначено як спам, має в середньому передбачати, що 5% листів, які вона класифікує, є спамом. Іншими словами, середнє значення як міток з істинного набору даних, так і прогнозів моделі має дорівнювати 0,05. Якщо це так, то модель має нульову упередженість прогнозів. Звичайно, у роботі моделі можуть бути й інші проблеми.

Якщо натомість модель у 50% випадків прогнозує, що лист – спам, це свідчить про проблему з навчальним набором даних, новим набором даних, який обробляється, або самою моделлю. Будь-яка значна різниця між цими двома показниками свідчить про те, що модель має певну упередженість прогнозу.

Нижче наведено причини, з яких виникає упередженість прогнозу.

Упередженості або шум у даних, зокрема упередженість вибірки для навчального набору даних.
Надто сильна регуляризація, тобто надмірне спрощення моделі, через яке вона позбавлена необхідної складності.
Помилки в конвеєрі навчання моделі.
Набір ознак, наданих моделі, недостатній для вирішення поставленого завдання.

ROC й AUC (10 хв)

Далі

Багатокласова класифікація (2 хв)