本頁面由 Cloud Translation API 翻譯而成。

學習率

本附錄包含學習率的一些額外詳細資料。

學習率衰減時間表

最佳學習率衰減排程系列仍是開放式問題；目前尚不清楚如何建構一套嚴謹的實驗，以自信地回答這個問題。雖然我們不知道最適合家庭的行程表，但我們有信心：

請務必安排一些 (非固定) 時間。
調整時間表非常重要。

在最佳化過程的不同階段，最佳學習率也會有所不同。設定某種時間表，模型就更有可能達到良好的學習率。

最佳預設學習率衰減

建議您預設使用下列任一學習率衰減系列：

線性衰減
餘弦衰減

其他許多排程系列也可能適用。

為什麼有些論文的學習率時間表很複雜？

許多學術論文都使用複雜的分段學習率 (LR) 衰減時間表。讀者經常想知道作者如何制定如此複雜的行程。許多複雜的 LR 衰減時間表，都是根據驗證集效能臨時調整時間表所致。也就是：

開始執行單一訓練，並使用一些簡單的 LR 衰減 (或常數學習率)。
持續執行訓練，直到成效似乎停滯不前為止。如果發生這種情況，請暫停訓練。然後從這個時間點開始，以較陡峭的 LR 衰減時間表 (或較小的常數學習率) 繼續訓練。重複這個程序 (直到會議或發布截止日期)。

一般來說，直接複製產生的時間表並非好主意，因為最佳時間表會受到許多其他超參數選擇的影響。建議您複製產生時間表的演算法，但如果時間表是由任意人為判斷產生，則很少能做到這一點。如果這類對驗證錯誤敏感的時間表可以完全自動化，則可放心使用，但如果是以驗證錯誤為依據的人工參與時間表，則較為脆弱且不易重現，因此建議避免使用。發布使用這類排程的結果前，請盡量確保結果完全可重現。

如何調整 Adam 的超參數？

Adam 中的所有超參數重要性不盡相同。以下經驗法則是根據研究中試驗次數的不同「預算」而定。

如果研究中的試驗次數少於 10 次，請只調整 (基本) 學習率。
如果研究中有 10 到 25 次試驗，請調整學習率和 beta_1。
如果試驗次數超過 25 次，請調整學習率、beta_1 和 epsilon。
如果試驗次數遠超過 25 次，請額外調整 beta_2。

由於很難提供有關搜尋空間的一般規則，以及您應從搜尋空間取樣多少點，因此請將本節所述的經驗法則視為粗略的指引。

訓練管道的其他指南

隨堂搜尋

學習率 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

學習率衰減時間表

最佳預設學習率衰減

為什麼有些論文的學習率時間表很複雜？

如何調整 Adam 的超參數？

學習率