有時候,當機器學習專家具備相關領域知識,並認為某個變數與另一個變數的平方、立方或其他冪相關時,就可以利用其中一個現有的數值特徵建立合成特徵。
請考慮下列資料點分布情形,其中粉紅色圓圈代表一個類別或類別 (例如某種樹木),綠色三角形則代表另一個類別 (或樹木種類):

您無法繪製可清楚分隔兩個類別的直線,但可以繪製可分隔兩個類別的曲線:

如線性迴歸模組所述,具有一個特徵 $x_1$ 的線性模型可由線性方程式描述:
新增功能可透過新增條件 \(w_2x_2\)、\(w_3x_3\)等來處理。
梯度下降法會找出能盡量減少模型損失的權重 $w_1$ (或權重\(w_1\)、 \(w_2\)、 \(w_3\),如果有其他功能)。但顯示的資料點無法以線條分隔。該怎麼辦?
您可以定義一個新的項 \(x_2\),也就是 \(x_1\) 平方,藉此同時保留線性方程式和允許非線性:
這項合成地圖項目稱為多項式轉換,會與其他地圖項目一樣受到處理。上述線性公式會變成:
這仍可視為線性迴歸問題,且權重會像平常一樣透過梯度下降法決定,儘管其中含有隱藏的平方項 (多項式轉換)。在不變更線性模型訓練方式的情況下,新增多項式轉換可讓模型使用 $y = b + w_1x + w_2x^2$ 形式的曲線分隔資料點。
通常,感興趣的數值特徵會相乘,也就是升冪。有時,機器學習專家可以根據經驗判斷適當的指數。舉例來說,物理世界中的許多關係都與平方項有關,包括重力加速度、光或聲音在距離上的衰減,以及彈性勢能。
如果您以變更其規模的方式轉換地圖項目,建議您也嘗試將其標準化。在轉換後進行標準化處理,可能會讓模型的效能提升。詳情請參閱「數值資料:標準化」。