转换数字数据

您可能需要对数值数据应用两种转换:

  • 归一化 - 将数字数据转换为与其他数字数据相同的比例。
  • 分桶 - 将数值(通常是连续)数据转换为分类数据。

为什么要对数值特征进行归一化?

我们强烈建议对包含不同范围(例如年龄和收入)的数字特征的数据集进行归一化。当不同的特征具有不同的范围时,梯度下降法会“弹跳”并减慢收敛。AdagradAdam 等优化器可以通过为每个功能创建单独的有效学习速率来防止出现此问题。

此外,我们还建议您对涵盖各种范围的数字特征进行归一化,例如“城市人口”。如果您不对“城市人口”特征进行归一化,则训练模型可能会生成 NaN 错误。遗憾的是,当一个特征中有各种值时,Adagrad 和 Adam 等优化器无法防止出现 NaN 错误。