数值数据:总结

机器学习模型的健康状况取决于其数据。为您的 对健康数据进行建模,使其能够蓬勃发展;给模型垃圾 那么预测将毫无价值。

处理数值数据的最佳做法:

  • 请记住,您的机器学习模型会与 特征向量、 而不是 dataset
  • 归一化 数值特征
  • 如果您的第一个标准化策略未成功,请考虑采用其他 对数据进行归一化的方法。
  • 分箱,也称为 分桶 这要比归一化处理的效果好。
  • 考虑您的数据应该是什么样子,然后编写验证代码 以验证这些预期例如:
    • 纬度的绝对值绝不应超过 90。您可以编写 检查数据中是否出现大于 90 的纬度值。
    • 如果您的数据仅限于佛罗里达州,您可以编写测试 来检查纬度是否介于 24 到 31 之间(包括 24 和 31)。
  • 通过散点图和直方图直观呈现您的数据。查找 数据异常。
  • 您不仅可以收集整个数据集的统计信息,还可以收集规模较小 是数据集的子集。这是因为汇总统计信息有时会 来避免混淆问题。
  • 记录所有数据转换。

数据是您最宝贵的资源,因此请谨慎处理。

其他信息

  • 机器学习规则指南包含一项宝贵的 特征工程部分。

后续步骤

恭喜您完成本单元的学习!

我们建议您探索各种 MLCC 模块 自己的节奏和兴趣如果您想遵循建议顺序 我们建议您接下来学习以下单元: 表示分类数据