分类数据:特征组合

特征组合 交叉(取笛卡尔积)两个或更多个分类式或分桶式 特征。类似于多项式 transforms, 特征组合允许线性模型处理非线性。特征组合 还可以对特征之间的交互进行编码。

例如,假设某个叶数据集具有分类特征:

  • edges,包含值 smoothtoothedlobed
  • arrangement,包含值 oppositealternate

假设上述顺序是独热模型中特征列的顺序 使一个具有 smooth 边和 opposite 排列的叶项 以 {(1, 0, 0), (1, 0)} 表示。

这两个特征的特征组合(即笛卡尔积)为:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

其中每一项的值是基准特征值的乘积, :

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

对于数据集中的任何给定样本,仅当满足以下条件时,特征组合才等于 1 两个基本功能的对于组合的类别,原始独热矢量为 1。 也就是说,具有浅裂边缘和交替排列的橡树叶具有 Lobed_Alternate 的值为 1,则上面的特征组合为:

{0, 0, 0, 0, 0, 1}

此数据集可用于按树种对树叶进行分类,因为这些 其特征因物种而异。

何时使用特征组合

领域知识可以提供有用的特征组合 有待过。如果没有相关领域知识,就可能难以确定 有效特征组合或多项式转换。您通常有可能 如果计算开销很大, 神经网络 在训练过程中自动查找和应用有用的特征组合。

请注意,组合两个稀疏特征会生成一个均匀稀疏的新 两个原始特征之间的差异。例如,如果特征 A 是 100 元素稀疏特征,特征 B 为 200 元素稀疏特征, A 和 B 的特征组合会生成包含 2 万个元素的稀疏特征。