この付録では、学習率の詳細をいくつか紹介します。
学習率の減衰スケジュール
学習率の最適な減衰スケジュール ファミリーは未解決の問題です。この質問に正確に答えるための一連の厳格なテストの作成方法は不明です。最適なスケジュール ファミリーはわかりませんが、次のような確信があります。
- (不定)スケジュールを立てることが重要です。
- スケジュールを調整することは重要です。
学習率は、最適化プロセス中のさまざまなタイミングで最適に機能します。なんらかのスケジュールを設定することで、モデルが適切な学習率を達成する可能性が高くなります。
デフォルトのデフォルトの学習率の減衰
デフォルトで、次のいずれかの学習率の減衰ファミリーをおすすめします。
- 線形減衰
- コサイン減衰
他にも多くのスケジュール ファミリーが適しています。
一部の論文に複雑な学習率のスケジュールがあるのはなぜですか?
多くの学術論文では、複雑な一方向学習率(LR)の減衰スケジュールが使用されています。多くの読者は、どのようにしてこのように複雑なスケジュールに到達しているのかを疑問に思っています。複雑な LR 減衰スケジュールの多くは、検証セットのパフォーマンスに応じて、臨機応変にスケジュールを調整した結果です。つまり:
- 単純な LR 減衰(または一定の学習率)で、単一のトレーニングの実行を開始します。
- パフォーマンスが停滞するまで、トレーニングを継続します。その場合は、トレーニングを一時停止してください。その後、この時点でより急な LR 減衰スケジュール(または一定の一定の学習率)で再開してください。このプロセスを繰り返します(会議やリリースの期限まで)。
最善のスケジュールは他の多くのハイパーパラメータの選択に左右されるため、結果として得られたスケジュールをブラインドコピーすることは、通常はおすすめできません。スケジュールを生成したアルゴリズムをコピーすることをおすすめします。ただし、任意の人間の判断でスケジュールが作成された場合は、ほとんどコピーできません。検証エラーの影響を受けやすいこの種類のスケジュールは、完全に自動化できる場合は使用できますが、検証エラーの関数である人間参加型のスケジュールは脆弱で、再現が難しいため、使用を回避することをおすすめします。このようなスケジュールを使用して結果を公開する前に、問題を再現できるようにしてください。
Adam のハイパーパラメータをどのように調整すべきですか。
Adam のすべてのハイパーパラメータが同じように重要であるわけではありません。次の経験則は、1 回のスタディの試行回数に対する異なる「予算」に対応しています。
- スタディのトライアル数が 10 回未満の場合は、学習率(基本)のみを調整します。
- 調査で 10 ~ 25 回のトライアルを行う場合は、学習率と
beta_1
を調整する - 25 回以上のトライアルの場合は、学習率、
beta_1
、epsilon
を調整します。 - トライアルが 25 件を大幅に超える場合は、さらに
beta_2
を調整します。
検索スペースに関する一般的なルールを提供するのが難しいこと、および検索スペースからサンプリングすべきポイント数を考慮すると、このセクションで説明する大まかなルールを確認してください。」