Классификация: предвзятость прогноза

Как упоминалось в модуле «Линейная регрессия» , расчет смещения прогноза — это быстрая проверка, которая может выявить проблемы с моделью или обучающими данными на раннем этапе.

Смещение прогноза — это разница между средним значением предсказаний модели и средним значением меток истинности в данных. Модель, обученная на наборе данных, в котором 5% электронных писем являются спамом, должна прогнозировать в среднем, что 5% классифицированных ею электронных писем являются спамом. Другими словами, среднее значение меток в наборе достоверных данных равно 0,05, а среднее значение прогнозов модели также должно составлять 0,05. Если это так, модель имеет нулевую предсказывающую ошибку. Конечно, у модели могут быть и другие проблемы.

Если вместо этого модель предсказывает, что в 50 % случаев электронное письмо является спамом, значит, что-то не так с набором обучающих данных, новым набором данных, к которому применяется модель, или с самой моделью. Любая значительная разница между двумя средними значениями предполагает, что модель имеет некоторую предвзятость прогноза.

Ошибка прогноза может быть вызвана:

  • Смещения или шум в данных, включая смещенную выборку для обучающего набора.
  • Слишком сильная регуляризация, означающая, что модель была чрезмерно упрощена и потеряла некоторую необходимую сложность.
  • Ошибки в конвейере обучения модели
  • Набор функций, предоставленных модели, недостаточен для поставленной задачи.