數值資料:多項式轉換

有時機器學習從業人員具備相關領域知識 某個變數與二的平方、立方或其他次方相關 因此建議您建立 合成功能 包括現有數值特徵

請考慮下列資料點的分佈,粉紅色圓圈代表 一個類別或類別 (例如樹種) 和綠色三角形 其他類別 (或樹種):

圖 17. y=x^2 資料點的分佈,下方有三角形
            曲線上方的曲線
圖 17。 無法以行分隔的兩個類別。

你無法繪製直接分隔兩者之間的直線 類別,但「可以」繪製達到以下效果的曲線:

圖 18.與圖 17 相同的圖片,但這次只有 y=x^2
            疊加在三角形和
            社交圈。
圖 18.使用 y = x2 分隔類別。

線性迴歸模組, 包含單一特徵 $x_1$ 的線性模型,其方式為下列線性方程式:

$$y = b + w_1x_1$$

其他功能必須遵守新增條款 \(w_2x_2\)、 \(w_3x_3\)等

梯度下降法會找出 重量 $w_1$ (或重量) \(w_1\)、 \(w_2\)、 \(w_3\)(如果是其他功能) 進而導致模型遺失但是顯示的資料點無法用線條分隔。 該怎麼辦?

有可能同時讓線性方程式「同時」允許非線性 然後定義名為 \(x_2\)的新字詞,也就是 \(x_1\) 正方形:

$$x_2 = x_1^2$$

這種合成特徵稱為多項式轉換 其他功能。上一個線性公式會變成:

$$y = b + w_1x_1 + w_2x_2$$

仍可視為 線性迴歸 以及透過梯度下降法判定的權重 包含隱藏的平方字詞,則稱為多項式轉換。不含變更 線性模型的訓練方式,加入多項式轉換後, 模型就會使用 格式為 $y = b + w_1x + w_2x^2$。

興趣的數值特徵通常會乘以本身 。有時候機器學習從業人員可以做出明智的猜測 適當的指數。例如,實體機器技術中的許多關係 平方詞都與平方用語相關 包括重力加速度 光線或聲音的銳利現象,以及具有彈性的發電潛力。

其中有相關概念 「類別資料是指 交錯組合功能 經常整合兩種不同的功能