数值数据:擦除

苹果树结出的果实有美味的果实,还有臭虫的滋生。 而高端杂货店的苹果是 100% 完美的水果。 在果园和杂货店之间,有人花费大量时间 或者给可挽救的苹果喷蜡。 作为一名机器学习工程师,您将花费大量时间 丢弃不良样本,清理可挽救的样本。 即使是几个坏苹果也可能会破坏大型数据集。

由于存在一个或多个 以下问题:

问题类别 示例
省略的值 人口普查员未能记录居民的年龄。
重复示例 服务器会将相同的日志上传两次。
超出范围的特征值。 有人不小心输入了额外的数字。
标签有误 一名人工评估员误将一张橡树的图片标记为 枫树。

您可以编写程序或脚本来检测以下任何问题:

  • 省略的值
  • 重复示例
  • 超出范围的特征值

例如,以下数据集包含六个重复值:

图 15前六个值会重复。8 强赛
            值不能。
图 15. 前六个值是重复的。

再举一个例子,假设某个特征的温度范围 介于 10 度(含)和 30 度(含)之间。但意外还是会发生——也许是 温度计暂时暴露在阳光下,会导致不良的离群值。 您的程序或脚本必须识别小于 10 或更大的温度值 超过 30 个字符:

图 16.19 个在范围内的值和一个超出范围的值。
图 16. 超出范围的值。

如果标签由多人生成,我们建议您 确定每个标注者是否生成了等效的标签集。 某个评分者可能比其他评分者更加严格,或 使用一组不同的评分标准?

一旦检测到,您通常需要“修正”包含不良特征的示例 从数据集中移除或输入值来调整标签或不良标签。 有关详情,请参阅 数据特征 部分中 数据集、泛化和过拟合 模块。