数据集构建简介

构建数据集的步骤

如需构建数据集(并在进行数据转换之前),您应该执行以下操作:

  1. 收集原始数据。
  2. 识别特征和标签来源。
  3. 选择抽样策略。
  4. 拆分数据。

这些步骤在很大程度上取决于您对机器学习问题的描绘方式。使用下面的自我检查来刷新关于框架构建的问题,并检查数据收集方面的假设。

自行确定问题构建框架和数据收集概念

对于以下问题,请点击所需的箭头以查看您的答案:

您正在执行全新的机器学习项目,即将选择第一批功能。您应该选择多少个功能?
请选择 1-3 个似乎具有很强预测能力的功能。
您的数据收集流水线最好从一两项功能开始。这有助于您确认机器学习模型是否按预期运行。 此外,当您基于几项功能构建基准时,会感觉您正在不断进步!
请选择 4-6 个似乎具有很强预测能力的功能。
您最终可能会使用很多功能,但最好还是从较少的功能入手。特征越少,通常意味着不必要的并发问题就越少。
选择尽可能多的特征,以便您可以开始观察哪些特征的预测能力最强。
先从小事做起。每个新功能都会向训练数据集添加一个新维度。当维度增加时,空间的增长速度过快,以致于可用训练数据变得稀疏。数据越稀少,模型就越难了解实际重要的特征与标签之间的关系。这种现象称为“维度的诅咒”。
您的朋友 Sam 对统计数据分析的初步结果很感兴趣。他表示,数据表明应用下载次数与应用评价展示次数之间存在正相关关系。但他不确定是否一定会在不查看评价的情况下就下载应用。哪种回复对小萨最有帮助?
您可以运行实验,将没有看到评价的用户的行为与看到评价的类似用户的行为进行比较。
正确!如果 Sam 发现,相较于没有看到应用的用户,看到正面评价的用户更有可能下载应用,那么他有合理的证据表明该正面评价会鼓励用户获取应用。
相信数据。很明显,出色的应用评价是用户下载应用的原因。
错误。这种回答不能使 Sam 了解正确的方向。 您无法仅根据观察数据来确定原因。Sam 看到有一种相关性(即数字之间的统计依赖关系)可能表明存在因果关系。不要让分析成为虚假相关性排名。