準ランダム検索

このユニットでは、準ランダム検索に焦点を当てます。

準ランダム検索を使用する理由

(差異の少ないシーケンスに基づく)準ランダム検索を優先 反復処理の一環として使用した場合、より優れたブラックボックス最適化ツールを 分析プロセスで考慮する必要があることは、チューニングの問題( “探索フェーズ”と呼んでいます)。ベイズ最適化など エクスプロイトの段階では、ツールの使用が適切です。 ランダムにシフトされた低差異シーケンスに基づく準ランダム検索は、 「ジッター、シャッフルされたグリッド検索」と考えることができますが、 指定された検索空間を探索し、検索ポイントを分散させる ランダム検索よりも優れています。

より高度なブラックボックスに対する準ランダム検索のメリット 最適化ツール(ベイズ最適化、進化アルゴリズムなど) 含める:

  • 検索スペースを適応性なしでサンプリングすると、 テストを再実行することなく、事後分析でチューニング目標を作成できます。 たとえば、通常は検証という点で最適なトライアルを見つけます あるとします。ただし、非適応型モデルは 準ランダム検索の性質上、最適なトライアルを 最終的な検証誤差、トレーニング誤差、または 評価指標が生成されます。
  • 準ランダム検索は、一貫性があり、統計的に再現性のある環境で動作 できます。6 か月前の調査を 再現できるはずです 検索アルゴリズムの実装が変更された場合 同じ均一性特性が維持されます。高度なベイズ関数を使用する場合 ソフトウェア最適化ソフトウェアを使用している場合、実装は 古い検索の再現が非常に困難になります。 常に古い実装にロールバックできるとは限りません(たとえば、 (最適化ツールはサービスとして実行されています)。
  • 検索スペースの探索が統一されているため、推論が 検索結果や検索スペースについての提案内容です たとえば、準ランダム探索の走査で最適点が 検索スペースの境界にある場合、これは良い(ただし確実ではない) 検索スペースの境界を変更する必要があるというシグナルです。 しかし適応型ブラックボックス最適化アルゴリズムは 不幸な出来事によって検索空間の中央が無視されたかもしれない。 早期のトライアルはたとえ同程度の優良ポイントが含まれていたとしても、 この不均一性により 優れた最適化アルゴリズムが 必要なツールの数を減らします。
  • 異なる数のトライアルを並行して実行するか、順次実行するか 準ランダムを使用した場合、統計的に異なる結果が得られない 検索(または他の非適応型検索アルゴリズム)を使用しており、適応型 学習します。
  • より高度な検索アルゴリズムでは、実行不可能な情報を常に処理できるとは限らない 特に、ニューラル ネットワーク向けに設計されていない場合、 考慮する必要があります
  • 準ランダム検索はシンプルで、多数のチューニングを行う場合に特に効果的 並列して行われます 事例を見ると1、適応型アルゴリズムが 特に試行回数が多い場合に、予算が 2 倍の準ランダム検索 並列して実行する必要があります(そのため、ワーカーが 新しいトライアルの開始時に以前のトライアル結果を使用)。 ベイズ最適化やその他の高度なブラックボックスに関する専門知識がない メリットを得られない可能性があります。 提供できます。高度なベンチマークは難しい 現実的なディープ ラーニング チューニングにおけるブラックボックス最適化アルゴリズム あります。これらは現在非常に活発な研究分野であり、 より高度なアルゴリズムには、システム設計の 経験の浅いユーザーにも対応できますこれらの方法のエキスパートは良い結果を得ることができ、 並列処理が高い状況では、検索スペースとバジェットが より重要になります。

とは言え、使用する計算リソースが 多数のトライアルを順番に実行できるため ディスクサイズを最適化しても、ベイズ最適化は 解釈が難しくなります

オープンソースの Vizier 準ランダム化の実装 できます。 この Vizier の使用方法で algorithm="QUASI_RANDOM_SEARCH" を設定する 例をご覧ください。 このハイパーパラメータ スイープには別の実装がありますをご覧ください。 どちらの実装も、特定の検索に対するハルトン数列を生成します。 シフトしてスクランブルされたハルトン シーケンスを 推奨 重要なハイパー パラメータ: ランダム性なし、なし 泣く

差異の少ないシーケンスに基づく準ランダム検索アルゴリズムが、 代わりに疑似ランダム均一検索を代用することができます。 ただし、やや効率は低下する可能性があります。1 ~ 2 次元の場合 グリッド検索も使用できますが、高次元ではありません。(参照: ベルクストラ、Bengio、2012 年)。

準ランダム探索で良好な結果を得るには、何回試行する必要がありますか。

必要なトライアル数を判断する方法がない 通常は疑似ランダム検索の結果が 表示されますが 具体的な例を見てみましょう。図 3 に示すように、1 つのスタディのトライアル回数は パフォーマンスに大きく影響します

検証エラー率(Y 軸)と調整予算(X 軸)の箱ひげ図
          ここで、調整予算は試行回数です。平均検証
          一般的に、チューニング バジェットが増えるにつれてエラー率は低下しました。

図 3: ImageNet でチューニングした ResNet-50 を 100 回のトライアルでチューニング。 ブートストラップを使用して、さまざまな量の調整バジェットをシミュレートしました。 各トライアルの予算で最高のパフォーマンスを示す箱ひげ図がプロットされます。

 

図 3 について、次の点に注意してください。

  • 6 回の試行をサンプリングした四分位範囲がはるかに大きくなった (20 回の試行をサンプリングした場合との比較)
  • 20 回試行しても、「特にラッキー」と「不運」の違い スタディは、再トレーニング間の典型的な変動よりも大きい可能性が高い 固定ハイパーパラメータを使用して さまざまなランダムシードで このワークロードでは、平均 +/- 0.1%、 検証エラー率は約 23%です

  1. Ben Recht、Kevin Jamieson 予算の 2 倍のランダム検索をベースライン( ハイパーバンドに関する論文 同様の論拠を出しています)が、 最先端のベイズ最適化手法が 2 倍の予算があるランダム検索を圧倒します。Google の 予算の 2 倍のランダム検索に勝つと、非常に困難になります。 高い並列処理方式を採用しているとのことです。ベイズ最適化では、 以前のトライアルの結果を観察します