類別資料:特徵交叉點

交叉特徵交叉的建立依據: 交錯組合 (使用笛卡兒乘積),二種以上的類別式或值區分類 資料集特徵例如多項式 轉換, 交叉特徵交叉點可讓線性模型處理非線性關係。特徵交叉點 特徵之間的互動也經過編碼

舉例來說,假設有一個分葉資料集含有類別特徵:

  • edges,包含值 smoothtoothedlobed
  • arrangement,包含值 oppositealternate

假設上述順序是特徵欄在一次性模型中的順序 表示的分葉,因此具有 smooth 邊緣和 opposite 排列的分葉 表示為 {(1, 0, 0), (1, 0)}

這兩個特徵的交錯組合或笛卡兒乘積即為:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

其中每個字詞的值都是基本特徵值的乘積,例如 顯示:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

針對資料集中的任何特定範例,只有在下列情況中,特徵交叉才會等於 1 兩項基本功能在所有的交叉類別中,原始的單一向量是 1。 也就是說,具有邊緣斜坡和替代擺設的橡木葉子, 僅為 Lobed_Alternate 的值 1,上述交叉特徵會如下所示:

{0, 0, 0, 0, 0, 1}

這個資料集可以按照樹木分類,因此能將葉子分類 不會因物種大小而異

十字形功能的使用時機

各領域知識可以提供實用的功能組合建議 再延伸。若缺乏網域知識,可能難以判斷 可交錯的跨式特徵或多項式轉換。這些做法通常可行 如果運算成本較高 類神經網路 在訓練期間,「自動」尋找並套用實用的特徵組合。

注意:交叉比對兩個稀疏特徵會產生平均稀疏型 取代兩項原始功能舉例來說,如果功能 A 是 100 元素稀疏特徵和特徵 B 是 200 元素的稀疏特徵 一個跨越 A 和 B 的特徵,就會產生 20,000 個元素的稀疏特徵。