本附錄包含學習率的一些額外詳細資料。
學習率衰減時間表
最佳學習率衰減排程系列仍是開放式問題;目前尚不清楚如何建構一套嚴謹的實驗,以自信地回答這個問題。雖然我們不知道最適合家庭的行程表,但我們有信心:
- 請務必安排一些 (非固定) 時間。
- 調整時間表非常重要。
在最佳化過程的不同階段,最佳學習率也會有所不同。設定某種時間表,模型就更有可能達到良好的學習率。
最佳預設學習率衰減
建議您預設使用下列任一學習率衰減系列:
- 線性衰減
- 餘弦衰減
其他許多排程系列也可能適用。
為什麼有些論文的學習率時間表很複雜?
許多學術論文都使用複雜的分段學習率 (LR) 衰減時間表。讀者經常想知道作者如何制定如此複雜的行程。許多複雜的 LR 衰減時間表,都是根據驗證集效能臨時調整時間表所致。也就是:
- 開始執行單一訓練,並使用一些簡單的 LR 衰減 (或常數學習率)。
- 持續執行訓練,直到成效似乎停滯不前為止。 如果發生這種情況,請暫停訓練。然後從這個時間點開始,以較陡峭的 LR 衰減時間表 (或較小的常數學習率) 繼續訓練。重複這個程序 (直到會議或發布截止日期)。
一般來說,直接複製產生的時間表並非好主意,因為最佳時間表會受到許多其他超參數選擇的影響。建議您複製產生時間表的演算法,但如果時間表是由任意人為判斷產生,則很少能做到這一點。如果這類對驗證錯誤敏感的時間表可以完全自動化,則可放心使用,但如果是以驗證錯誤為依據的人工參與時間表,則較為脆弱且不易重現,因此建議避免使用。發布使用這類排程的結果前,請盡量確保結果完全可重現。
如何調整 Adam 的超參數?
Adam 中的所有超參數重要性不盡相同。 以下經驗法則是根據研究中試驗次數的不同「預算」而定。
- 如果研究中的試驗次數少於 10 次,請只調整 (基本) 學習率。
- 如果研究中有 10 到 25 次試驗,請調整學習率和
beta_1
。 - 如果試驗次數超過 25 次,請調整學習率、
beta_1
和epsilon
。 - 如果試驗次數遠超過 25 次,請額外調整
beta_2
。
由於很難提供有關搜尋空間的一般規則,以及您應從搜尋空間取樣多少點,因此請將本節所述的經驗法則視為粗略的指引。