拆分数据

新闻报道示例所示,纯随机拆分并不总是正确的方法。

在线系统的一种常见方法是按时间拆分数据,以便:

  • 收集 30 天的数据。
  • 使用第 1-29 天的数据进行训练。
  • 根据第 30 天的数据进行评估。

对于在线系统,训练数据比服务数据更早,因此,此方法可确保您的验证集镜像训练与服务之间的延迟。但是,基于时间的拆分最适合处理非常大的数据集,例如包含数千万个样本的数据集。在数据较少的项目中,分布在训练、验证和测试之间最终会截然不同。

还应回顾一下机器学习速成课程中介绍的机器学习文献项目中的数据拆分缺陷。这些数据是由三位作者之一撰写的文献,因此数据分成了三个主要组。由于该团队应用了随机拆分,因此来自每个组的数据都存在于训练集、评估集和测试集中,因此模型通过在预测时掌握的信息不一定会具备信息。无论数据是按时间序列数据分组还是按其他条件进行聚类,都可能发生此问题。您可根据自己对网域的了解来决定如何拆分数据。

如需进一步审核,请参阅机器学习速成课程中的以下单元: