数值数据：初始步骤

在创建特征向量之前，我们建议您通过以下两种方式研究数值数据：

将数据可视化

图表可以帮助您发现数据中隐藏的异常或模式。因此，在深入分析之前，请以图形的形式（散点图或直方图）查看数据。您不仅可以在数据流水线的开头查看图表，还可以在整个数据转换过程中查看图表。可视化有助于您不断检查自己的假设。

我们建议使用 pandas 进行可视化：

请注意，某些可视化工具针对特定数据格式进行了优化。可帮助您评估协议缓冲区的可视化工具不一定能帮助您评估 CSV 数据。

除了直观分析之外，我们还建议您通过数学方法评估潜在的特征和标签，收集以下基本统计信息：

平均值和中位数
标准差
四分位数分界点的值：第 0、25、50、75 和 100 百分位。第 0 个百分位数是此列的最小值；第 100 个百分位数是此列的最大值。（第 50 百分位是指中位数。）

离群值是指与特征或标签中的大多数其他值相差甚远的值。离群值常常会导致模型训练出现问题，因此找出离群值非常重要。

如果第 0 百分位数与第 25 百分位数之间的差异与第 75 百分位数与第 100 百分位数之间的差异显著不同，则数据集可能包含离群值。

离群值可以属于以下任一类别：

异常值是由于错误造成的。例如，实验者可能误输入了一个零，或者收集数据的仪器可能出现故障。您通常会删除包含异常错误的示例。
离群值是合法的数据点，而非错误值。在这种情况下，经过训练的模型最终是否需要对这些离群值推断出良好的预测结果？
- 如果是，请将这些离群值保留在训练集中。毕竟，某些特征中的离群值有时会反映在标签中的离群值，因此离群值实际上可以帮助模型做出更好的预测。请注意，极端离群值仍会影响模型。
- 如果没有，请删除离群值，或应用更具侵入性的特征工程技术，例如剪裁。