學習率

本附錄提供了一些有關學習率的額外詳細資料。

學習率衰減時間表

最有效率的學習衰減是否存在一個開放式問題,雖然如何建構一套嚴謹的實驗,因而難以回答這個問題。儘管我們沒有最合適的行程排程,但我們可以確保下列事項:

  • 請務必設定時間表。
  • 調整時間表十分重要。

在最佳化過程中,不同學習期的執行效果各不相同。安排良好的時間表,可以更有機會讓模型達到良好的學習率。

最佳預設學習率衰減

建議您選擇下列兩種學習費率衰退的家庭:

  • 線性衰減
  • 餘弦衰減

除此之外,許多時間表可能也很理想。

為什麼有些文件的學習率時間表不同?

許多學術論文會使用複雜的學習法 (LR) 衰退時間表。讀者常會想到作者要如何到達如此複雜的時刻。某些複雜的 LR 衰減時間表會影響「{1/}」的組合設定效能,藉由隨機調整效能。也就是:

  1. 使用一些簡單的 LR 衰減 (或穩定學習率) 啟動單一訓練執行作業。
  2. 持續執行訓練,直到效能不停波動。 如果發生這種情況,請暫停訓練。接著,從這個時間點可能延遲的 LR 衰減時間表 (或更短的學習率) 恢復。重複此程序 (直到會議或產品上市截止日為止)。

一般來說,複製產生的時間表通常不是不錯的做法,因為最佳時間表對其他超參數選擇的敏感性至關重要。我們建議複製產生時間表的演算法,但如果任何人的判斷有可能產生排程,很少會發生這種情況。如果該驗證完全自動化,可以使用這個驗證容易區分大小寫的時間表,但如果是驗證錯誤函式的人機迴圈排程很麻煩,且無法輕易重現,因此我們建議避免使用。發布採用上述時間表的結果之前,請先嘗試完全重現該結果。

小美應該如何調整超參數?

在阿樂中,所有的超參數都同等重要。 下列原則所對應的是測試中的測試數量不同的「預算」。

  • 如果研究中的試用期少於 10 次,請只調整 (基礎) 學習率。
  • 如果研究中有 10 到 25 份試用期,請調整學習率和 beta_1
  • 如果試用次數超過 25 次,請調整學習率、beta_1epsilon
  • 如果試用期超過 25 次,請微調「beta_2」。

由於要提供有關搜尋空間的一般規則,以及從搜尋空間中可以找到多少點,因此請大致參閱本節所述的基本規則。」