此页面由 Cloud Translation API 翻译。

分类数据：特征组合

特征组合交叉（取笛卡尔积）两个或更多个分类式或分桶式特征。类似于多项式 transforms，特征组合允许线性模型处理非线性。特征组合还可以对特征之间的交互进行编码。

例如，假设某个叶数据集具有分类特征：

假设上述顺序是独热模型中特征列的顺序使一个具有 smooth 边和 opposite 排列的叶项以 {(1, 0, 0), (1, 0)} 表示。

这两个特征的特征组合（即笛卡尔积）为：

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

其中每一项的值是基准特征值的乘积，：

对于数据集中的任何给定样本，仅当满足以下条件时，特征组合才等于 1 两个基本功能的对于组合的类别，原始独热矢量为 1。也就是说，具有浅裂边缘和交替排列的橡树叶具有 Lobed_Alternate 的值为 1，则上面的特征组合为：

{0, 0, 0, 0, 0, 1}

此数据集可用于按树种对树叶进行分类，因为这些其特征因物种而异。

点击此处比较多项式转换包含特征组合

特征组合有点类似于 <ph type="x-smartling-placeholder"></ph> 多项式转换。两者均将多个特征组合成模型可以学习非线性关系。多项式转换通常会将数值数据，而特征组合用于组合分类数据。

何时使用特征组合

领域知识可以提供有用的特征组合有待过。如果没有相关领域知识，就可能难以确定有效特征组合或多项式转换。您通常有可能如果计算开销很大，神经网络在训练过程中自动查找和应用有用的特征组合。

请注意，组合两个稀疏特征会生成一个均匀稀疏的新两个原始特征之间的差异。例如，如果特征 A 是 100 元素稀疏特征，特征 B 为 200 元素稀疏特征， A 和 B 的特征组合会生成包含 2 万个元素的稀疏特征。