減少損失：學習率

如前所述，漸層向量同時具有方向和規模。梯度下降法演算法將梯度乘以「學習率」 (也稱為「步數大小」) 純量，藉此判定下一個點。舉例來說，如果梯度量為 2.5 且學習率為 0.01，則梯度下降法演算法會從上點算起，選擇下一個點 0.025 點。

「超參數」是指程式設計師在機器學習演算法中微調的旋鈕。大部分的機器學習程式設計師都需花費大量時間調整學習率如果選擇的學習率太小，學習時間會太長：

圖 6 學習率過低。

相反地，如果您指定的學習率過大，下一個點就會永久彈跳，就像量子機制實驗發生了嚴重錯誤：

圖 7. 學習率過高。

每個迴歸問題都有 Goldilocks 學習率。Goldilocks 值與損失函式的平坦函式方式相關。如果您知道損失函式的梯度較小，可以放心嘗試放大的學習率，這樣會因為漸層較小而變大，導致步數變大。

圖 8. 學習率合理。

一維度的理想學習率為 \(\frac{ 1 }{ f''(x) }\) (x 時 f(x) 的第二導數的相反數)。

2 個或多個維度的理想學習率是 Hessian (第二個部分導數的矩陣)。

一般凸顯函式的故事較為複雜。