隨堂搜尋

這個單元著重於準隨機搜尋。

為什麼要使用準隨機搜尋?

我們偏好以低誤差順序進行準隨機搜尋 在疊代作業中 調整程序,目的是盡可能深入瞭解調整問題 ( 我們稱為「探索階段」)。貝葉斯最佳化與類似 這些工具比較適合用於攻擊階段 根據隨機位移的低差異序列進行準隨機搜尋, 會視為「抖動、隨機排序格線搜尋」, 隨機探索指定搜尋空間,並分散搜尋點 比隨機搜尋更出色

與其他精密黑盒相較,準隨機搜尋的優點 最佳化工具 (例如貝葉斯最佳化、演化演算法) 包括:

  • 以非自動調整方式取樣搜尋聯播網空間後 進行後期分析,無須重新執行實驗。 例如,我們通常希望在驗證時 錯誤。不過,非自動調整 本質上研究的本質讓學生找到最佳的試驗 例如最終驗證錯誤、訓練錯誤或某些其他的 評估指標,不必重新執行任何實驗。
  • 準隨機搜尋行為一致且具統計顯著性 。不管是在 6 個月前 如果搜尋演算法實作方式發生變化,只要 都具有相同的統一屬性如果使用精密的貝葉斯 最佳化軟體可能會改變廣告導入方式 使得舊式搜尋變得難以重現。 系統不一定每次都能復原至舊的實作方式 (舉例來說, 最佳化工具會以服務的形式執行
  • 探索搜尋空間的一致方式,更容易理解 ,以及對於搜尋空間的建議。 例如,如果準隨機搜尋的結果最好 位於搜尋空間的邊界,這是很好 (但不能保證萬無一失) 指示應變更搜尋空間的邊界。 不過,可自動調整的黑箱最佳化演算法 可能因為某些運氣不佳,而忽略了搜尋空間的中間 初期測試的期許相同,因為 因為與最佳化演算法相同 加快搜尋速度。
  • 同時進行不同測試數量與依序進行 使用準隨機時無法產生統計不同的結果 搜尋 (或其他非自動調整式搜尋演算法) 和自動調整式搜尋演算法不同 演算法。
  • 功能更複雜的搜尋演算法,不一定每次都能處理。 尤其是若非以類神經網路設計 需要調整超參數
  • 準隨機搜尋十分容易,而且在多次調整時效果特別好 試驗正在同時執行。 還有1,自動調整演算法很難超越 預算是 2 倍的準隨機搜尋,尤其是在多次嘗試的情況下 因此需要同時執行 追蹤成效)。 不具備貝葉斯最佳化技術和其他進階黑箱知識 最佳化方法,您可能就無法達成目標 原則上,能夠提供要以進階基準比較不容易 運用黑箱最佳化演算法,調整逼真的深度學習微調 條件。他們是相當活躍的研究領域, 更複雜的演算法會有自己的陷阱 沒有經驗的使用者這些方法中的專家無法取得良好結果 但在高度平行處理的情況下,搜尋空間和預算往往會 可能性更重要

也就是說,如果您的運算資源 可同時執行多項測試 儘管能大幅改善貝葉斯最佳化做法, 調整結果不易解讀

Open-Source Vizier類比隨機實作 搜尋。 在此 Vizier 用法中設定 algorithm="QUASI_RANDOM_SEARCH" 範例。 這個超參數清除作業中有替代的實作方式 範例。 這兩種實作方式都能針對特定搜尋產生 Halton 序列 空間 (適合執行經過移動及打散的 Halton 序列, 建議用於 關鍵超參數:無隨機、否 哭泣

如果以較低差異序列為依據的準隨機搜尋演算法,則不會 您可以改用虛擬隨機統一搜尋 但效益可能稍低在 1 到 2 個維度中 網格搜尋也是可接受的做法,但尺寸不大。(詳情請參閱 Bergstra 和Bengio,2012 年)。

需要進行幾次試驗,才能以準測隨機搜尋獲得良好結果?

您無法判斷需要多少試驗次數才能達到這個目標 一般搜尋的結果 具體範例如圖 3 所示,研究中的試驗次數可以 對結果有重大影響:

驗證錯誤率 (Y 軸) 和調整預算 (X 軸) 的方塊圖,
          調整預算是指試驗次數平均驗證
          錯誤率通常會隨著調整預算提高而下滑。

圖 3:經過 100 次試驗的 ImageNet 調整 ResNet-50。 透過開機程序,模擬了不同的調整預算金額。 標出每個試用預算的最佳成效的方塊圖。

 

注意圖 3 的後續內容:

  • 6 次試驗的取樣範圍遠大於四分位數範圍 是取樣 20 項試用方案的比例來得低。
  • 即使有 20 次試驗,「幸運」與「幸運」之間的差異 研究可能大於重新訓練之間的一般變化 產生一個符記 這項工作負載約為 約為 23% 的驗證錯誤率

  1. Ben Recht 和 Kevin Jamieson 指出 2 倍預算隨機搜尋是基準 ( 超頻紙 類似的引數),但仍然可以使用 首屈一指的貝葉斯最佳化技術 讓我們來超越 2 倍預算的隨機搜尋不過,在 而且在隨機搜尋中 我們沒有機會採用貝葉斯最佳化做法,因此無法處理 並觀察先前試驗的結果