特徵交叉口:編碼非線性

在圖 1 和圖 2 中,請思考以下幾點:

  • 藍點代表生病樹。
  • 橘色的圓點代表健康的樹木。

藍點坐落於東北象限;藍點代表西南象。

圖 1. 這是線性問題嗎?

您能否畫出很好的樹與健康樹之間的樹木?好的,這是線性問題。此線條不會完美。一棵生殖器有可能在「健康」方面,有兩條生理樹,但線材就是預測機。

現在,請查看下圖:

藍點與西北方和西南方象限;圓點代表位於西北方和東南方象限。

圖 2. 這是線性問題嗎?

您是否能畫出一條直線,將健康的樹木與健康樹分離?否,您可以這是非線性問題。您繪製的任何線條都是預測樹狀結構的不良預測值。

與圖 2 相同,差別在於水平線打破了飛機。線條上方會顯示藍點和橘色圓點;藍色和橘色圓點則代表下方。

圖 3. 一行不能分為兩個類別。

 

如要解決圖 2 中顯示的非線性問題,請建立功能交叉。「特徵交錯組合」是一種合成功能,可將多個輸入特徵相乘,藉此在特徵空間中進行非線性編碼。(「交叉」一詞跨產品)。 讓我們使用 \(x_3\) 穿越 \(x_1\)和 \(x_2\)功能,建立一個名為 \(x_3\) 的特徵:

$$x_3 = x_1x_2$$

我們把這項新功能 \(x_3\) 初次使用的功能當成任何其他功能處理。線性公式會變成:

$$y = b + w_1x_1 + w_2x_2 + w_3x_3$$

線性演算法和 \(w_3\) \(w_1\) 和 \(w_2\)一樣,會學習權重。 換句話說,雖然 \(w_3\) 會將非線性資訊編碼,但您不需要變更線性模型的訓練方式來決定 \(w_3\)的值。

特徵交錯種類

我們可以建立多種不同的功能交叉口。例如:

  • [A X B]:將兩個特徵的值相乘而形成的特徵交叉值。
  • [A x B x C x D x E]:將五個特徵的值相乘而形成的特徵交叉比對。
  • [A x A]:透過交疊單一特徵的方式形成的特徵。

多虧有隨機梯度下降,線性模型才有效率地訓練。因此,透過功能交叉填充經過調整的線性模型,一直是有效訓練大量資料集的資料集。