交叉特徵交叉的建立依據: 交錯組合 (使用笛卡兒乘積),二種以上的類別式或值區分類 資料集特徵例如多項式 轉換, 交叉特徵交叉點可讓線性模型處理非線性關係。特徵交叉點 特徵之間的互動也經過編碼
舉例來說,假設有一個分葉資料集含有類別特徵:
edges
,包含值smooth
、toothed
和lobed
arrangement
,包含值opposite
和alternate
假設上述順序是特徵欄在一次性模型中的順序
表示的分葉,因此具有 smooth
邊緣和 opposite
排列的分葉
表示為 {(1, 0, 0), (1, 0)}
。
這兩個特徵的交錯組合或笛卡兒乘積即為:
{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate,
Lobed_Opposite, Lobed_Alternate}
其中每個字詞的值都是基本特徵值的乘積,例如 顯示:
Smooth_Opposite = edges[0] * arrangement[0]
Toothed_Opposite = edges[1] * arrangement[0]
Lobed_Alternate = edges[2] * arrangement[1]
針對資料集中的任何特定範例,只有在下列情況中,特徵交叉才會等於 1
兩項基本功能在所有的交叉類別中,原始的單一向量是 1。
也就是說,具有邊緣斜坡和替代擺設的橡木葉子,
僅為 Lobed_Alternate
的值 1,上述交叉特徵會如下所示:
{0, 0, 0, 0, 0, 1}
這個資料集可以按照樹木分類,因此能將葉子分類 不會因物種大小而異
十字形功能的使用時機
各領域知識可以提供實用的功能組合建議 再延伸。若缺乏網域知識,可能難以判斷 可交錯的跨式特徵或多項式轉換。這些做法通常可行 如果運算成本較高 類神經網路 在訓練期間,「自動」尋找並套用實用的特徵組合。
注意:交叉比對兩個稀疏特徵會產生平均稀疏型 取代兩項原始功能舉例來說,如果功能 A 是 100 元素稀疏特徵和特徵 B 是 200 元素的稀疏特徵 一個跨越 A 和 B 的特徵,就會產生 20,000 個元素的稀疏特徵。