此页面由 Cloud Translation API 翻译。

数值数据：擦除

苹果树结出的果实有美味的果实，还有臭虫的滋生。而高端杂货店的苹果是 100% 完美的水果。在果园和杂货店之间，有人花费大量时间或者给可挽救的苹果喷蜡。作为一名机器学习工程师，您将花费大量时间丢弃不良样本，清理可挽救的样本。即使是几个坏苹果也可能会破坏大型数据集。

由于存在一个或多个以下问题：

您可以编写程序或脚本来检测以下任何问题：

例如，以下数据集包含六个重复值：

再举一个例子，假设某个特征的温度范围介于 10 度（含）和 30 度（含）之间。但意外还是会发生——也许是温度计暂时暴露在阳光下，会导致不良的离群值。您的程序或脚本必须识别小于 10 或更大的温度值超过 30 个字符：

如果标签由多人生成，我们建议您确定每个标注者是否生成了等效的标签集。某个评分者可能比其他评分者更加严格，或使用一组不同的评分标准？

一旦检测到，您通常需要“修正”包含不良特征的示例从数据集中移除或输入值来调整标签或不良标签。有关详情，请参阅数据特征部分中数据集、泛化和过拟合模块。

数值数据：擦除 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。