本頁面由 Cloud Translation API 翻譯而成。

線性迴歸：梯度下降

梯度下降是一種數學技術，可反覆找出權重和偏誤，產生損失最低的模型。梯度下降會重複執行下列程序 (次數由使用者定義)，找出最佳權重和偏差。

模型會先以接近零的隨機權重和偏差值開始訓練，然後重複執行下列步驟：

使用目前的權重和偏差計算損失。
判斷要朝哪個方向移動權重和偏誤，才能減少損失。
朝減少損失的方向，稍微移動權重和偏差值。
返回步驟一並重複執行程序，直到模型無法再減少損失為止。

下圖概述梯度下降執行的疊代步驟，目的是找出可產生最低損失模型權重和偏差。

圖 11.梯度下降程序示意圖。

圖 11. 梯度下降法是疊代程序，可找出產生最低損失模型時的權重和偏差。

按一下加號圖示，進一步瞭解梯度下降背後的數學原理。

具體來說，我們可以透過下列七個範例的小型燃油效率資料集，逐步瞭解梯度下降步驟，並以 均方誤差 (MSE) 做為損失指標：

以千為單位的磅數 (功能)	每加侖英里 (標籤)
3.5	18
3.69	15
3.44	18
3.43	16
4.34	15
4.42	14
2.37	24

模型會將權重和偏誤設為零，然後開始訓練：

$$ \small{Weight:\ 0} $$ $$ \small{Bias:\ 0} $$ $$ \small{y = 0 + 0(x_1)} $$

使用目前的模型參數計算 MSE 損失：

$$ \small{Loss = \frac{(18-0)^2 + (15-0)^2 + (18-0)^2 + (16-0)^2 + (15-0)^2 + (14-0)^2 + (24-0)^2}{7}} $$ $$ \small{Loss= 303.71} $$

計算每個權重和偏差的損失函數切線斜率：

$$ \small{Weight\ slope: -119.7} $$ $$ \small{Bias\ slope: -34.3} $$

按一下加號圖示，瞭解如何計算斜率。

如要取得權重和偏誤的切線斜率，請根據權重和偏誤得出損失函式的導數，然後解出方程式。

我們將預測方程式寫成：
$ f_{w,b}(x) = (w*x)+b $。

我們會將實際值寫為：$ y $。

我們會使用以下公式計算 MSE：
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $
其中 $i$ 代表第 $i$ 個訓練範例，$M$ 代表範例數量。

重量衍生值

損失函式對權重的導數可寫成：
$ \frac{\partial }{\partial w} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $

並評估為：
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2x_{(i)} $

首先，我們會將每個預測值減去實際值，然後乘以特徵值的兩倍。然後將總和除以範例數量。結果是與權重值相切的直線斜率。

如果我們以權重和偏差值等於零來解這道方程式，會得到 -119.7 的線條斜率。

偏差導數

損失函式對偏差的導數可寫成：
$ \frac{\partial }{\partial b} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $

並評估為：
$ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2 $

首先，我們會將每個預測值減去實際值，然後乘以 2。然後將總和除以範例數量。結果是與偏差值相切的直線斜率。

如果我們以權重和偏差值等於零來解這個方程式，會得到 -34.3 的直線斜率。

朝負斜率方向移動少量，即可取得下一個權重和偏差。目前，我們會任意將「少量」定義為 0.01：

$$ \small{New\ weight = old\ weight - (small\ amount * weight\ slope)} $$ $$ \small{New\ bias = old\ bias - (small\ amount * bias\ slope)} $$ $$ \small{New\ weight = 0 - (0.01)*(-119.7)} $$ $$ \small{New\ bias = 0 - (0.01)*(-34.3)} $$ $$ \small{New\ weight = 1.2} $$ $$ \small{New\ bias = 0.34} $$

使用新的權重和偏差計算損失並重複。完成六次疊代程序後，我們會得到下列權重、偏差和損失：