類別資料:特徵交叉點

特徵交叉 是透過交叉 (取笛卡兒乘積) 資料集的兩個或多個分類或分割特徵來建立。與多項式轉換一樣,特徵交叉可讓線性模型處理非線性問題。地圖交叉點也會對地圖項目之間的互動進行編碼。

舉例來說,請考慮含有類別特徵的葉資料集:

  • edges,包含值 smoothtoothedlobed
  • arrangement,包含值 oppositealternate

假設上方的順序是單熱點表示法中的功能欄順序,因此具有 smooth 邊緣和 opposite 排列的葉子會以 {(1, 0, 0), (1, 0)} 表示。

這兩個地點特徵的笛卡兒乘積如下:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

其中每個項的值是基本特徵值的乘積,例如:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Smooth_Alternate = edges[0] * arrangement[1]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Toothed_Alternate = edges[1] * arrangement[1]
  • Lobed_Opposite = edges[2] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

舉例來說,如果葉節具有 lobed 邊緣和 alternate 排列方式,則特徵交叉向量會為 Lobed_Alternate 提供 1 的值,並為所有其他字詞提供 0 的值:

{0, 0, 0, 0, 0, 1}

由於這些特徵在同一物種中不會有所差異,因此這個資料集可用於依樹種分類葉片。

使用交叉特徵的時機

領域知識可提供有用的特徵組合,供您進行交叉比對。缺乏該領域的知識,就很難手動判斷有效的特徵交叉或多項式轉換。在訓練期間,如果運算成本高昂,通常可以使用神經網路自動找出並套用實用的功能組合。

請注意,交叉兩個稀疏特徵會產生比兩個原始特徵更稀疏的新特徵。舉例來說,如果特徵 A 是 100 個元素的稀疏特徵,而特徵 B 是 200 個元素的稀疏特徵,則 A 和 B 的特徵交叉會產生 20,000 個元素的稀疏特徵。