此附录包含有关学习速率的一些其他详细信息。
学习速率衰减时间表
最佳学习率衰减时间表系列是一个开放性问题;目前尚不清楚如何构建一组严谨的实验来自信地回答这个问题。 虽然我们不知道最佳家庭时间表,但我们确信以下几点:
- 制定一些(非恒定)时间表非常重要。
- 调整该时间表非常重要。
在优化过程中的不同时间,不同的学习速率效果最好。制定某种类型的调度,更有可能使模型达到良好的学习率。
最佳默认学习速率衰减
我们建议将以下任一学习速率衰减系列作为默认值:
- 线性衰减
- 余弦衰减
许多其他时间表系列可能也不错。
为什么有些论文会采用复杂的学习率调度?
许多学术论文都使用复杂的分段学习速率 (LR) 衰减时间表。读者经常想知道作者是如何制定出如此复杂的日程安排的。许多复杂的 LR 衰减时间表都是以临时方式根据验证集性能调整时间表的结果。具体来说:
- 使用一些简单的 LR 衰减(或恒定的学习速率)启动一次训练运行。
- 继续运行训练,直到性能似乎停滞不前。 如果出现这种情况,请暂停训练。然后,从这一点开始,以可能更陡峭的学习率衰减时间表(或更小的恒定学习率)恢复训练。重复此流程(直到会议或发布截止日期)。
盲目复制生成的时间表通常不是一个好主意,因为最佳特定时间表对许多其他超参数选择非常敏感。我们建议复制生成相应时间表的算法,不过如果时间表是任意人为判断的结果,则很少能做到这一点。如果这种对验证错误敏感的调度可以完全自动化,那么使用它没有问题,但以验证错误为函数的人工在环调度不稳定且不易重现,因此我们建议避免使用。在发布使用此类时间表的实验结果之前,请尝试使其完全可重现。
应如何调整 Adam 的超参数?
Adam 中的并非所有超参数都同等重要。 以下经验法则对应于研究中不同数量的试验“预算”。
- 如果研究中的试验次数少于 10 次,则仅调整(基本)学习速率。
- 如果研究中有 10-25 次试验,请调整学习速率和
beta_1
。 - 如果试验次数超过 25 次,请调整学习率
beta_1
和epsilon
。 - 如果实验次数远超 25 次,请额外调整
beta_2
。
鉴于很难提供有关搜索空间以及应从搜索空间中抽样多少个点的通用规则,请将本部分中列出的经验法则视为粗略的指导原则。”