在创建特征向量之前,我们建议先在 Google Cloud 中 两种方法:
- 通过图表或图形直观呈现您的数据。
- 获取关于您的数据的统计信息。
将数据可视化
图表可帮助您发现隐藏在数据中的异常值或模式。 因此,在深入分析之前,请先查看您的 以散点图或直方图的形式呈现相关数据。查看图表 还在整个数据流水线中, 转换。可视化可帮助你不断检查假设。
我们建议使用 Pandas 直观呈现数据:
请注意,某些可视化工具针对特定数据格式进行了优化。 可帮助您评估协议缓冲区的可视化工具(不一定) 帮助您评估 CSV 数据。
以统计学方式评估数据
除了直观分析之外,我们还建议你评估潜在功能和 以数学方式标记标签,从而收集基本统计信息,例如:
- 均值和中位数
- 标准差
- 四分位数处的值:第 0、25、50、75 和 100 位数 百分位数。第 0 个百分位数是此列的最小值; 第 100 百分位是此列的最大值。(第 50% 百分位 为中位数。)
找出离群值
离群值是远值 与特征或标签中的大多数其他值进行比较。离群值往往会导致问题 因此找到离群值非常重要。
第 0 百分位和第 25 百分位之间的增量存在显著差异时 从第 75 和第 100 百分位之间的增量变化,则数据集可能 包含离群值。
离群值可分为以下任何类别:
- 离群值是由某个错误导致的。 例如,也许实验者误输入了一个额外的 0, 也可能是收集数据的工具出现了故障。 您通常需要删除包含错误离群值的样本。
- 离群值是一个合理的数据点,不是错误。
在这种情况下,经过训练的模型
最终是否需要对这些离群值推断出良好预测?
- 如果是,请将这些离群值保留在训练集中。毕竟,离群值 某些特征中的离群值有时会镜像标签中的离群值, 离群值实际上可以帮助模型做出更好的预测。 请注意,极端离群值仍可能会损害您的模型。
- 如果不是,请删除离群值或应用更具侵入性的特征工程 例如剪辑。