在圖 1 和圖 2 中,請思考以下幾點:
- 藍點代表生病樹。
- 橘色的圓點代表健康的樹木。
圖 1. 這是線性問題嗎?
您能否畫出很好的樹與健康樹之間的樹木?好的,這是線性問題。此線條不會完美。一棵生殖器有可能在「健康」方面,有兩條生理樹,但線材就是預測機。
現在,請查看下圖:
圖 2. 這是線性問題嗎?
您是否能畫出一條直線,將健康的樹木與健康樹分離?否,您可以這是非線性問題。您繪製的任何線條都是預測樹狀結構的不良預測值。
圖 3. 一行不能分為兩個類別。
如要解決圖 2 中顯示的非線性問題,請建立功能交叉。「特徵交錯組合」是一種合成功能,可將多個輸入特徵相乘,藉此在特徵空間中進行非線性編碼。(「交叉」一詞跨產品)。 讓我們使用 \(x_3\) 穿越 \(x_1\)和 \(x_2\)功能,建立一個名為 \(x_3\) 的特徵:
$$x_3 = x_1x_2$$
我們把這項新功能 \(x_3\) 初次使用的功能當成任何其他功能處理。線性公式會變成:
$$y = b + w_1x_1 + w_2x_2 + w_3x_3$$
線性演算法和 \(w_3\) \(w_1\) 和 \(w_2\)一樣,會學習權重。 換句話說,雖然 \(w_3\) 會將非線性資訊編碼,但您不需要變更線性模型的訓練方式來決定 \(w_3\)的值。
特徵交錯種類
我們可以建立多種不同的功能交叉口。例如:
[A X B]
:將兩個特徵的值相乘而形成的特徵交叉值。[A x B x C x D x E]
:將五個特徵的值相乘而形成的特徵交叉比對。[A x A]
:透過交疊單一特徵的方式形成的特徵。
多虧有隨機梯度下降,線性模型才有效率地訓練。因此,透過功能交叉填充經過調整的線性模型,一直是有效訓練大量資料集的資料集。