有時機器學習從業人員具備相關領域知識 某個變數與二的平方、立方或其他次方相關 因此建議您建立 合成功能 包括現有數值特徵
請考慮下列資料點的分佈,粉紅色圓圈代表 一個類別或類別 (例如樹種) 和綠色三角形 其他類別 (或樹種):
你無法繪製直接分隔兩者之間的直線 類別,但「可以」繪製達到以下效果的曲線:
如 線性迴歸模組, 包含單一特徵 $x_1$ 的線性模型,其方式為下列線性方程式:
其他功能必須遵守新增條款 \(w_2x_2\)、 \(w_3x_3\)等
梯度下降法會找出 重量 $w_1$ (或重量) \(w_1\)、 \(w_2\)、 \(w_3\)(如果是其他功能) 進而導致模型遺失但是顯示的資料點無法用線條分隔。 該怎麼辦?
有可能同時讓線性方程式「同時」允許非線性 然後定義名為 \(x_2\)的新字詞,也就是 \(x_1\) 正方形:
這種合成特徵稱為多項式轉換 其他功能。上一個線性公式會變成:
仍可視為 線性迴歸 以及透過梯度下降法判定的權重 包含隱藏的平方字詞,則稱為多項式轉換。不含變更 線性模型的訓練方式,加入多項式轉換後, 模型就會使用 格式為 $y = b + w_1x + w_2x^2$。
興趣的數值特徵通常會乘以本身 。有時候機器學習從業人員可以做出明智的猜測 適當的指數。例如,實體機器技術中的許多關係 平方詞都與平方用語相關 包括重力加速度 光線或聲音的銳利現象,以及具有彈性的發電潛力。