此页面由 Cloud Translation API 翻译。

分类数据：词汇和独热编码

维度一词是特征向量中元素数量的同义词。有些分类特征是低维的。例如：

特征名称	类别数	示例类别
snowed_today	2	True、False
skill_level	3	初级、实操人员、专家
season	4	冬季、春季、夏季、秋季
day_of_week	7	周一、周二、周三
星球	8	水星、金星、地球

如果分类特征的可能类别数量较少，您可以将其编码为词汇。使用词汇表编码时，模型会将每个可能的分类值视为单独的特征。在训练期间，模型会为每个类别学习不同的权重。

例如，假设您要创建一个模型，根据部分分类特征（名为 car_color）来预测汽车的价格。也许红车的价值高于绿车。由于制造商提供的外观颜色数量有限，因此 car_color 属于低维分类特征。下图显示了 car_color 的词汇（可能的值）：

图 1. 调色板中的每种颜色都表示为一个单独的特征。也就是说，每种颜色都是特征向量中的一个单独特征。
例如，“红色”是一种特征，“橙色”是另一种特征，依此类推。 — **图 1.** 每个类别的独特功能。

练习：检查您的理解情况

对还是错：机器学习模型可以直接基于原始字符串值（例如“红色”和“黑色”）进行训练，而无需将这些值转换为数值向量。

正确

在训练期间，模型只能处理浮点数。字符串 "Red" 不是浮点数。您必须将 "Red" 等字符串转换为浮点数。

错误

机器学习模型只能基于具有浮点值的特征进行训练，因此您需要在训练之前将这些字符串转换为浮点值。

指数

机器学习模型只能处理浮点数。因此，您必须将每个字符串转换为唯一的索引号，如下例所示：

图 2. 每种颜色都与一个唯一的整数值相关联。例如，“红色”与整数 0 相关联，“橙色”与整数 1 相关联，依此类推。 — **图 2.** 编入索引的功能。

将字符串转换为唯一索引号后，您需要进一步处理数据，以便以有助于模型学习值之间有意义关系的方式来表示数据。如果分类特征数据保留为索引整数并加载到模型中，模型会将索引值视为连续的浮点数。然后，模型会认为“紫色”的可能性是“橙色”的 6 倍。

独热编码

构建词汇表的下一步是将每个索引号转换为其独热编码。在独热编码中：

每个类别都由一个包含 N 个元素的向量（数组）表示，其中 N 是类别的数量。例如，如果 car_color 有 8 个可能的类别，则表示它的独热向量将有 8 个元素。
独热向量中一个元素的值为 1.0，其余所有元素的值均为 0.0。

例如，下表显示了 car_color 中每种颜色的独热编码：

功能	红色	Orange	蓝色	黄色	绿色	黑色	紫色	棕色
`“红色”`	1	0	0	0	0	0	0	0
`"Orange"`	0	1	0	0	0	0	0	0
`“蓝色”`	0	0	1	0	0	0	0	0
`“黄色”`	0	0	0	1	0	0	0	0
`“绿色”`	0	0	0	0	1	0	0	0
`“黑色”`	0	0	0	0	0	1	0	0
`“紫色”`	0	0	0	0	0	0	1	0
`“棕色”`	0	0	0	0	0	0	0	1

传递给特征向量的是独热向量，而不是字符串或索引号。模型会为特征向量的每个元素学习单独的权重。

下图展示了词汇表示形式的各种转换：

图 3. 将类别映射到特征向量的端到端流程图。在该图表中，输入特征为“黄色”“橙色”“蓝色”和“蓝色”（第二次）。系统使用存储的词汇表（“红色”为 0，“橙色”为 1，“蓝色”为 2，“黄色”为 3，依此类推）将输入值映射到 ID。因此，系统会将“黄色”“橙色”“蓝色”和“蓝色”分别映射为 3、1、2、2。然后，系统会将这些值转换为独热特征向量。例如，如果系统有 8 种可能的颜色，则 3 会变为 0、0、0、1、0、0、0、0。 — **图 3.** 将类别映射到特征向量的端到端流程。

稀疏表示法

如果某个特征的值主要为零（或为空），则该特征称为稀疏特征。许多分类特征（例如 car_color）往往是稀疏特征。稀疏表示法是指在稀疏向量中存储 1.0 的位置。例如，"Blue" 的独热向量为：

[0, 0, 1, 0, 0, 0, 0, 0]

由于 1 位于位置 2（从 0 开始计数），因此上述独热向量的稀疏表示形式为：

2

请注意，稀疏表示法占用的内存远少于八元素独热向量。重要的是，模型必须使用 one-hot 向量进行训练，而不是使用稀疏表示形式。

分类数据中的离群值

与数值数据一样，分类数据也包含离群值。假设 car_color 不仅包含常用颜色，还包含一些很少使用的离群颜色，例如 "Mauve" 或 "Avocado"。您可以将这些离群颜色归入一个名为词汇表外 (OOV) 的“包罗万象”类别，而不是为每种离群颜色单独设置一个类别。换句话说，所有离群颜色都将归入一个离群分桶。系统会为该离群值分箱学习单个权重。

对高维分类特征进行编码

某些分类特征具有较高的维度，例如下表中的特征：

特征名称	类别数	示例类别
words_in_english	~500,000	“happy”“walking”
US_postal_codes	~42,000	“02114”“90301”
last_names_in_Germany	~850,000	“施密特”“施耐德”

当类别数量较多时，独热编码通常不是一个好的选择。嵌入（在单独的嵌入模块中有详细介绍）通常是更好的选择。嵌入可大幅减少维度数量，从而在两个重要方面使模型受益：

模型通常训练得更快。
构建的模型通常可以更快地推理出预测结果。也就是说，模型的延迟时间更短。

哈希（也称为哈希技巧）是一种不太常用的降维方法。

点击此处了解哈希处理

简而言之，哈希会将类别（例如颜色）映射到一个较小的整数，即用于存放相应类别的“桶”的编号。

具体而言，您可以按如下方式实现哈希算法：

将类别向量中的箱数设置为 N，其中 N 小于剩余类别的总数。举个任意示例，假设 N = 100。
选择一个哈希函数。（通常，您还会选择哈希值的范围。）
通过该哈希函数传递每个类别（例如，特定颜色），生成一个哈希值，例如 89237。
为每个箱分配一个索引号，该索引号为输出哈希值模 N。在本例中，N 为 100，哈希值为 89237，因此模运算结果为 37，因为 89237 % 100 为 37。
使用这些新索引号为每个箱创建独热编码。

如需详细了解如何对数据进行哈希处理，请参阅生产环境机器学习系统模块的随机化部分。

简介（5 分钟）

分类数据的常见问题（5 分钟）