学习速率

此附录包含关于学习速率的一些其他详细信息。

学习率衰减时间表

最佳的学习率衰减时间表系列是一个待解决的问题;尚不清楚如何构建一组严格的实验来自信地回答这个问题。虽然我们不知道最佳的时间表系列,但我们坚信以下做法:

  • 制定时间表(持续不变)非常重要。
  • 调整时间表很重要。

不同的学习速率在优化过程中的不同时间效果最佳。设定某种时间表后,模型更有可能达到良好的学习速率。

最佳默认学习速率衰减

我们建议默认的学习速率衰减系列之一:

  • 线性衰减
  • 余弦衰减

其他很多家庭出行可能也很不错。

为什么有些论文的学习时间表非常复杂?

许多学术论文使用复杂的分段学习速率 (LR) 衰减时间表。读者往往想知道作者是如何确定如此复杂的时间表的。许多复杂的 LR 衰减时间表是由于临时调整验证集函数而计算得出的结果。具体来说:

  1. 使用简单的 LR 衰减(或恒定学习率)开始单次训练运行。
  2. 继续进行训练,直到效果开始停滞不前。如果发生这种情况,请暂停训练。然后,从此时开始采用更稳定的 LR 衰减时间表(或更低的恒定学习率)继续学习。重复此过程(直到会议或发布截止日期)。

略过一下生成的时间表通常不是一个好主意,因为最佳的特定时间表对大量其他超参数选择来说比较敏感。我们建议复制生成该时间表的算法,但当任意人员做出这种判断时,这种情况不太可能发生。如果这种验证错误敏感型方案是完全自动化的,则可以采用,但是作为验证错误的一种人为循环,并且较脆弱,不易重现,因此我们建议避免使用。在发布使用此类时间表的结果之前,请尝试使其完全可重现。

应如何调整 Adam 的超参数?

Adam 中并非所有超参数都同等重要。 以下经验法则对应研究中试验次数的不同“预算”。

  • 如果研究中的试验不足 10 次,请仅调整(基本)学习率。
  • 如果研究中有 10-25 个试验轮次,请调整学习率和beta_1
  • 如果试验超过 25 次,请调整学习率 beta_1epsilon
  • 如果试验次数远远超过 25 次,请额外调谐 beta_2

鉴于提供关于搜索空间的一般规则以及从搜索空间采样的点数并非易事,请查看本节中所述的经验法则作为粗略准则。”