分类:预测偏差

计算预测偏差是一种快速检查,可尽早发现模型或训练数据的问题。

预测偏差是指模型预测结果的平均值与数据中标准答案标签的平均值之间的差值。如果模型基于 5% 的电子邮件为垃圾邮件的数据集进行训练,那么平均而言,该模型预测的垃圾邮件比例应为 5%。换句话说,标准答案数据集中的标签平均值为 0.05,模型的预测结果的平均值也应为 0.05。在这种情况下,模型具有零预测偏差。当然,模型可能仍然存在其他问题。

如果模型预测电子邮件为垃圾邮件的概率为 50%,则说明训练数据集、模型应用到的新数据集或模型本身存在问题。如果这两个平均值之间存在显著差异,则表明模型存在一定的预测偏差。

预测偏差可能是由以下原因造成的:

  • 数据中的偏差或噪声,包括训练集的抽样偏差
  • 正则化过强,这意味着模型过于简单,丢失了一些必要的复杂性
  • 模型训练流水线中的 bug
  • 提供给模型的特征集不足以完成任务