分类数据具有 一组特定的可能值。例如:
- 国家公园内的不同物种
- 特定城市的街道名称
- 电子邮件是否为垃圾邮件
- 房屋外部的颜色是绘制的
- 分箱数字,具体说明请参阅使用数值 Data 模块
数字也可以是分类数据
可以对真实的数值数据进行有意义的乘法运算。例如,假设有一个模型,用于根据房屋的面积预测其价值。请注意,一个有用的房价评估模型通常取决于 数百项功能。尽管如此,在其他条件相同的情况下, 只有 200 平方块的房屋 约为 100 平方米的相同房屋价值的两倍 米。
通常,您应将包含整数值的特征表示为分类数据,而不是数值数据。例如,假设有一个邮政编码地图项,其中值为整数。如果您以数值(而非分类)来表示此特征,则表示您要求模型找出不同邮政编码之间的数值关系。也就是说,您可以指示模型 将邮政编码 20004 视为邮政编码的两倍(或一半) 10002。将邮政编码表示为分类数据可让模型 并单独计算每个邮政编码的权重。
编码
编码是指将分类数据或其他数据转换为数值向量
可用于训练的模型。必须进行这种转换,因为模型
仅使用浮点值进行训练;模型无法基于字符串进行训练,
"dog"
或 "maple"
。本单元将介绍
编码方法。