数值数据:总结

机器学习 (ML) 模型的运行状况取决于其数据。向模型提供优质数据,模型就会茁壮成长;向模型提供垃圾数据,其预测结果将毫无价值。

处理数值数据的最佳实践:

  • 请注意,机器学习模型与特征向量中的数据进行交互,而不是与数据集中的数据进行交互。
  • 归一化大多数数值特征
  • 如果您的第一种归一化策略不成功,请考虑采用其他方式来归一化数据。
  • 分箱(也称为分桶)有时比标准化更有效。
  • 考虑一下您的数据应该是什么样子,编写验证测试来验证这些预期。例如:
    • 纬度的绝对值不得超过 90。您可以编写一个测试,检查数据中是否出现大于 90 的纬度值。
    • 如果您的数据仅限于佛罗里达州,您可以编写测试来检查纬度是否介于 24 到 31 之间(包括这两个数值)。
  • 使用散点图和直方图直观呈现数据。查找异常。
  • 您不仅可以收集整个数据集的统计信息,还可以收集数据集的较小子集的统计信息。这是因为汇总统计数据有时会掩盖数据集中较小部分存在的问题。
  • 记录所有数据转换。

数据是您最宝贵的资源,因此请妥善处理。

其他信息

  • 机器学习规则指南包含一个实用的 特征工程部分。

后续步骤

恭喜您完成本单元!

我们鼓励您根据自己的兴趣和进度,探索各种 MLCC 模块。如果您想按照建议的顺序学习,我们建议您接下来学习以下模块:表示分类数据