降低損失：梯度下降法

疊代方法圖表 (圖 1) 包含名為「Compute 參數更新」(Compute 參數更新) 的綠色手繪方塊。現在，我們要用更巨大的表面取代演算法灰塵。

假設我們有時間和運算資源來計算所有 $w_1$可能值的損失，就我們正在檢查的迴歸問題而言，結果損失和 $w_1$ 的繪製結果往往較為凸顯。也就是說，陰道將是碗狀的，如下所示：

圖 2. 迴歸問題會產生凸面與體重圖表。

正面問題只有一個最低值；也就是說，只有斜率剛好為 0 的位置。這個最小值是損失函式收斂的位置。

針對整個資料集，計算 $w_1$每個可感知值的損失函式，就會是找出收斂點的效率不佳方法。讓我們來探討一種更優異的機制 (在機器學習中非常受歡迎)，稱為「梯度下降法」。

梯度下降法的第一個階段是挑選 $w_1$的起始值 (起點)。起點並不重要，因此許多演算法只會將 $w_1$ 設為 0 或選擇隨機值。下圖顯示我們選擇的起點略大於 0：

圖 3. 梯度下降法的起點。

接著，梯度下降法演算法會計算起點的損失曲線漸層。在圖 3 中，損失的梯度與曲線的衍生性 (斜率) 相等，並告訴您「暖機」或「相容」的方式。當有多個權重時，「漸層」是與權重相關的部分導數向量。

按一下加號圖示，進一步瞭解部分導數和漸層。

機器學習的數學功能令人驚艷，很高興您點選了連結即可瞭解詳情。不過請注意，TensorFlow 會為您處理所有梯度運算，因此您實際上不必瞭解此處提供的計算值。

部分導數

多變數函式是含有多個引數的函式，例如：

$$f(x,y) = e^{2y}\sin(x)$$

關於 $x$的部分導數 $f$ 部分導數，如下所示：

$$ \partial f \over \partial x $$

是 $f$ 的導數，僅做為 $x$的功能。尋找下列項目：

$$\partial f \over \partial x $$

您必須保留 $y$ 常數 ( $f$ 現在是單一變數的函式 $x$)，並針對 $x$收取 $f$的一般衍生值。例如，當 $y$ 固定為 1 時，上述函式會變成：

$$ f(x) = e^2\sin(x) $$

這只是一個變數 $x$的函式，其導數為：

$$ e^2\cos(x) $$

一般來說，將 $y$ 視為已修正， $f$ 具有 $x$ 的部分導數會以下列方式計算：

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

同理，如果改為保留 $x$ 固定狀態，則 $f$ 的部分導數為 $y$ ：

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

理論上，部分導數會告訴您當您順位一個變數時，函式的變化程度。在上述範例中：

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

因此，當您從 $(0,1)$著手， $y$ 固定 $y$ 繼續並 $x$ 稍微移動，$f$ 變化幅度大約是變更金額的 7.4 倍 $x$。

在機器學習中，部分衍生性最常與函式的梯度搭配使用。

漸層

函式的梯度 (如下所示) 是所有獨立變數相關的部分導數向量：

$$ \nabla f $$

舉例來說，如果：

$$ f(x,y) = e^{2y}\sin(x) $$

然後：

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

請注意：

$$\nabla f$$ 指向函式最大增加方向的方向。

$$ {-\nabla f} $$ 對函式值最大減少方向的點。

向量中的維度數量等於 $f$公式中的變數數量。換句話說，向量位於函式的網域空間內。例如，下列函式 $f(x,y)$的圖形：

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

以三度為單位觀看時，看起來像山谷， $z = f(x,y)$ 而且它至少為 $(2,0,4)$：

$f(x,y)$ 的漸層是一種二維向量，讓您知道在最大高度增加時要移動的$(x,y)$ 方向。因此，漸層的負數會朝高度降幅的方向移動。換句話說，梯度向量的負數指向橢圓形。

在機器學習中，梯度下降法會使用漸層。我們通常有許多想要盡量減少的變數損失函式，並嘗試按照函式梯度的負數來嘗試達到這個目的。

請注意，漸層是向量，因此具備以下兩項特性：

方向

規模

漸層一律會指向損失函式中最陡增的方向。梯度下降法演算法會朝負梯度的方向採取一步，以便盡快減少損失。

圖 4 梯度下降法仰賴負漸層。

為了判定損失函式曲線的下一個點，梯度下降法演算法會在起點中，增加一部分的漸層規模，如下圖所示：

圖 5 漸層步驟會移到損失曲線的下一點。

接著，梯度下降法會重複這項程序，並趨近於最小。

注意： 執行梯度下降法時，我們會將上述程序進行一般化，以便同時調整所有模型參數。舉例來說，為了找出 $w_1$ 和偏誤 $b$的最佳值，我們會計算漸層，並同時考量 $w_1$ 和 $b$。接下來，我們會根據各自的漸層修改 $w_1$和 $b$ 的值。接著重複上述步驟，直到損失最低值為止。
重要字詞

梯度下降法

步

$$\nabla f$$	指向函式最大增加方向的方向。
$$ {-\nabla f} $$	對函式值最大減少方向的點。