特徵交叉 是透過交叉 (取笛卡兒乘積) 資料集的兩個或多個分類或分割特徵來建立。與多項式轉換一樣,特徵交叉可讓線性模型處理非線性問題。地圖交叉點也會對地圖項目之間的互動進行編碼。
舉例來說,請考慮含有類別特徵的葉資料集:
edges
,包含值smooth
、toothed
和lobed
arrangement
,包含值opposite
和alternate
假設上方的順序是單熱點表示法中的功能欄順序,因此具有 smooth
邊緣和 opposite
排列的葉子會以 {(1, 0, 0), (1, 0)}
表示。
這兩個地點特徵的笛卡兒乘積如下:
{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate,
Lobed_Opposite, Lobed_Alternate}
其中每個項的值是基本特徵值的乘積,例如:
Smooth_Opposite = edges[0] * arrangement[0]
Smooth_Alternate = edges[0] * arrangement[1]
Toothed_Opposite = edges[1] * arrangement[0]
Toothed_Alternate = edges[1] * arrangement[1]
Lobed_Opposite = edges[2] * arrangement[0]
Lobed_Alternate = edges[2] * arrangement[1]
舉例來說,如果葉節具有 lobed
邊緣和 alternate
排列方式,則特徵交叉向量會為 Lobed_Alternate
提供 1 的值,並為所有其他字詞提供 0 的值:
{0, 0, 0, 0, 0, 1}
由於這些特徵在同一物種中不會有所差異,因此這個資料集可用於依樹種分類葉片。
使用交叉特徵的時機
領域知識可提供有用的特徵組合,供您進行交叉比對。缺乏該領域的知識,就很難手動判斷有效的特徵交叉或多項式轉換。在訓練期間,如果運算成本高昂,通常可以使用神經網路自動找出並套用實用的功能組合。
請注意,交叉兩個稀疏特徵會產生比兩個原始特徵更稀疏的新特徵。舉例來說,如果特徵 A 是 100 個元素的稀疏特徵,而特徵 B 是 200 個元素的稀疏特徵,則 A 和 B 的特徵交叉會產生 20,000 個元素的稀疏特徵。