正如我们在 线性回归 计算 预测偏差 可以标记模型或训练数据中存在的问题, 。
预测偏差是指一个模型 预测 求平均值, 标准答案标签 数据。使用数据集训练的模型 其中 5% 的电子邮件是垃圾邮件,平均而言, 被归类为垃圾邮件的电子邮件。也就是说, 标准答案数据集的概率为 0.05,那么模型预测的平均值应为 也为 0.05。在这种情况下,模型的预测偏差为零。/ 那么模型可能仍存在其他问题。
如果模型有 50% 的时间预测电子邮件是垃圾邮件,那么 训练数据集存在问题,模型的新数据集 模型本身。不限 二者之间的显著差异表明模型 某些预测偏差。
导致预测偏差的原因可能是:
- 数据中的偏差或噪声,包括训练集的偏差抽样
- 正则化过于强烈,意味着模型过度简化, 必要的复杂性
- 模型训练流水线中的 bug
- 提供给模型的特征集不足以完成任务