机器学习模型的健康状况取决于其数据。为您的 对健康数据进行建模,使其能够蓬勃发展;给模型垃圾 那么预测将毫无价值。
处理数值数据的最佳做法:
- 请记住,您的机器学习模型会与 特征向量、 而不是 dataset。
- 归一化 数值特征。
- 如果您的第一个标准化策略未成功,请考虑采用其他 对数据进行归一化的方法。
- 分箱,也称为 分桶 这要比归一化处理的效果好。
- 考虑您的数据应该是什么样子,然后编写验证代码
以验证这些预期例如:
- 纬度的绝对值绝不应超过 90。您可以编写 检查数据中是否出现大于 90 的纬度值。
- 如果您的数据仅限于佛罗里达州,您可以编写测试 来检查纬度是否介于 24 到 31 之间(包括 24 和 31)。
- 通过散点图和直方图直观呈现您的数据。查找 数据异常。
- 您不仅可以收集整个数据集的统计信息,还可以收集规模较小 是数据集的子集。这是因为汇总统计信息有时会 来避免混淆问题。
- 记录所有数据转换。
数据是您最宝贵的资源,因此请谨慎处理。
其他信息
- 机器学习规则指南包含一项宝贵的 特征工程部分。
后续步骤
恭喜您完成本单元的学习!
我们建议您探索各种 MLCC 模块 自己的节奏和兴趣如果您想遵循建议顺序 我们建议您接下来学习以下单元: 表示分类数据。