如前所述,漸層向量同時具有方向和規模。梯度下降法演算法將梯度乘以「學習率」 (也稱為「步數大小」) 純量,藉此判定下一個點。舉例來說,如果梯度量為 2.5 且學習率為 0.01,則梯度下降法演算法會從上點算起,選擇下一個點 0.025 點。
「超參數」是指程式設計師在機器學習演算法中微調的旋鈕。大部分的機器學習程式設計師 都需花費大量時間調整學習率如果選擇的學習率太小,學習時間會太長:
圖 6 學習率過低。
相反地,如果您指定的學習率過大,下一個點就會永久彈跳,就像量子機制實驗發生了嚴重錯誤:
圖 7. 學習率過高。
每個迴歸問題都有 Goldilocks 學習率。Goldilocks 值與損失函式的平坦函式方式相關。如果您知道損失函式的梯度較小,可以放心嘗試放大的學習率,這樣會因為漸層較小而變大,導致步數變大。
圖 8. 學習率合理。