处理分类数据

分类数据具有 一组特定的可能值。例如:

  • 国家公园内的不同物种
  • 特定城市的街道名称
  • 电子邮件是否为垃圾邮件
  • 房屋外部的颜色是绘制的
  • 分箱数字,具体说明请参阅使用数值 Data 模块

数字也可以是分类数据

真实的数值数据 可以有意义地相乘。例如,假设 根据房屋面积预测房屋价值的模型。 请注意,一个有用的房价评估模型通常取决于 数百项功能。尽管如此,在其他条件相同的情况下, 只有 200 平方块的房屋 约为 100 平方米的相同房屋价值的两倍 米。

通常,您应将包含整数值的特征表示为 而不是数值数据。例如,假设某个邮政信箱 其中值为整数的代码功能。如果你代表该组织 而不是分类特征,您要求模型 找到数字关系, 不同邮政编码之间。也就是说,您可以指示模型 将邮政编码 20004 视为邮政编码的两倍(或一半) 10002。将邮政编码表示为分类数据可让模型 并单独计算每个邮政编码的权重。

编码

编码是指将分类数据或其他数据转换为数值向量 可用于训练的模型。必须进行这种转换,因为模型 仅使用浮点值进行训练;模型无法基于字符串进行训练, "dog""maple"。本单元将介绍 编码方法。