数值数据:初始步骤

在创建特征向量之前,我们建议您通过以下两种方式研究数值数据:

  • 在图表或图形中直观呈现数据。
  • 获取有关数据的统计信息。

将数据可视化

图表可帮助您发现数据中隐藏的异常或模式。因此,在深入分析之前,请以图形的形式(散点图或直方图)查看数据。您不仅可以在数据流水线的开头查看图表,还可以在整个数据转换过程中查看图表。可视化有助于您不断检查自己的假设。

我们建议使用 pandas 进行可视化:

请注意,某些可视化工具针对特定数据格式进行了优化。 可帮助您评估协议缓冲区的可视化工具不一定能帮助您评估 CSV 数据。

对数据进行统计评估

除了直观分析之外,我们还建议您通过数学方法评估潜在的特征和标签,收集以下基本统计信息:

  • 平均值和中位数
  • 标准差
  • 四分位分界点的值:第 0、25、50、75 和 100 百分位。第 0 个百分位数是此列的最小值;第 100 个百分位数是此列的最大值。(第 50 百分位是指中位数。)

查找离群值

离群值是指与特征或标签中的大多数其他值相差甚远的值。离群值常常会导致模型训练出现问题,因此找出离群值非常重要。

如果第 0 百分位数与第 25 百分位数之间的差异与第 75 百分位数与第 100 百分位数之间的差异显著不同,则数据集可能包含离群值。

离群值可以属于以下任一类别:

  • 异常值是由于错误造成的。例如,实验者可能误输入了多余的零,或者收集数据的仪器可能出现故障。您通常会删除包含异常错误的示例。
  • 离群值是合法的数据点,而非错误。在这种情况下,经过训练的模型最终是否需要对这些离群值推断出良好的预测结果?
    • 如果是,请将这些离群值保留在训练集中。毕竟,某些特征中的离群值有时会反映在标签中的离群值,因此离群值实际上可以帮助模型做出更好的预测。请注意,极端离群值仍会影响模型。
    • 如果没有,请删除离群值,或应用更具侵入性的特征工程技术,例如剪裁