分类:预测偏差

正如我们在 线性回归 计算 预测偏差 可以标记模型或训练数据中存在的问题, 。

预测偏差是指一个模型 预测 求平均值, 标准答案标签 数据。使用数据集训练的模型 其中 5% 的电子邮件是垃圾邮件,平均而言, 被归类为垃圾邮件的电子邮件。也就是说, 标准答案数据集的概率为 0.05,那么模型预测的平均值应为 也为 0.05。在这种情况下,模型的预测偏差为零。/ 那么模型可能仍存在其他问题。

如果模型有 50% 的时间预测电子邮件是垃圾邮件,那么 训练数据集存在问题,模型的新数据集 模型本身。不限 二者之间的显著差异表明模型 某些预测偏差。

导致预测偏差的原因可能是:

  • 数据中的偏差或噪声,包括训练集的偏差抽样
  • 正则化过于强烈,意味着模型过度简化, 必要的复杂性
  • 模型训练流水线中的 bug
  • 提供给模型的特征集不足以完成任务