減少損失:學習率

如前所述,漸層向量同時具有方向和規模。梯度下降法演算法將梯度乘以「學習率」 (也稱為「步數大小」) 純量,藉此判定下一個點。舉例來說,如果梯度量為 2.5 且學習率為 0.01,則梯度下降法演算法會從上點算起,選擇下一個點 0.025 點。

「超參數」是指程式設計師在機器學習演算法中微調的旋鈕。大部分的機器學習程式設計師 都需花費大量時間調整學習率如果選擇的學習率太小,學習時間會太長:

相同 U 形曲線。許多積分相距甚遠,且軌道的發展速度極慢,因此朝向美國底部。

圖 6 學習率過低。

相反地,如果您指定的學習率過大,下一個點就會永久彈跳,就像量子機制實驗發生了嚴重錯誤:

相同 U 形曲線。這個圖表包含的點太少。這條路徑的軌跡會在 U 底部跳起來,之後又從軌道回去。

圖 7. 學習率過高。

每個迴歸問題都有 Goldilocks 學習率。Goldilocks 值與損失函式的平坦函式方式相關。如果您知道損失函式的梯度較小,可以放心嘗試放大的學習率,這樣會因為漸層較小而變大,導致步數變大。

相同 U 形曲線。點數累計在大約八步後達到最低點數。

圖 8. 學習率合理。