Эта страница переведена с помощью Cloud Translation API.

Классификация: предвзятость прогноза

Расчет смещения прогноза — это быстрая проверка, которая может выявить проблемы с моделью или обучающими данными на ранней стадии.

Смещение предсказания — это разница между средним значением предсказаний модели и средним значением меток , полученных с помощью реальных данных. Модель, обученная на наборе данных, содержащем 5% спама, должна в среднем предсказывать, что 5% классифицируемых ею писем являются спамом. Другими словами, среднее значение меток в наборе данных, полученных с помощью реальных данных, равно 0,05, и среднее значение предсказаний модели также должно быть равно 0,05. В этом случае смещение предсказания модели равно нулю. Конечно, у модели могут быть и другие проблемы.

Если же модель предсказывает, что письмо является спамом в 50% случаев, то проблема в обучающем наборе данных, новом наборе данных, к которому применяется модель, или в самой модели. Любая значимая разница между двумя средними значениями свидетельствует о наличии у модели некоторой систематической ошибки прогнозирования.

Ошибка прогнозирования может быть вызвана следующими причинами:

Смещения или шум в данных, включая смещенную выборку для обучающего набора
Слишком сильная регуляризация, в результате чего модель была чрезмерно упрощена и потеряла необходимую сложность.
Ошибки в конвейере обучения модели
Набор предоставленных модели признаков недостаточен для решения поставленной задачи

РПЦ и АУК (10 мин)

Многоклассовая классификация (2 мин)

Классификация: предвзятость прогноза Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Классификация: предвзятость прогноза