超參數是變數 以控制訓練的不同層面三個常見的超參數如下:
相較之下,「參數」是指 權重和偏誤等變數都屬於模型本身的於 也就是您控管的值參數值是 模型在訓練期間計算的數值
學習率
學習率是一種 您設定的浮點數會影響 模型集錦如果學習率過低,模型可能需要較長時間 交集不過,如果學習率過高 而是以權重和偏誤的權重和偏誤 損失我們的目標是選擇學習率適中也不能太低 才能快速聚集
學習率會決定權重變化幅度 產生偏誤的情形模型乘法 依據學習率劃分的梯度來判斷模型的參數 (權重) 以便預測下個疊代在漸層的第三個步驟 descent、「小額」往前方移動 負斜率是指學習率
舊模型參數和新模型參數的差異如下: 與損失函式的斜率成正比舉例來說,如果斜率為 模型會執行到很大的難度如果規模較小,團隊會多走一小步。適用對象 舉例來說,如果梯度的規模為 2.5,學習率為 0.01,則 模型會將參數變更為 0.025
理想的學習率能協助模型在合理的數值內收斂 反覆改進在圖 21 中,損失曲線大幅增加了模型 在 20 次疊代前加強改善:
圖 21.損失圖表,顯示訓練時所用學習率的模型 能迅速交集
相反地 如果學習率太小,可能會產生太多次疊代 集點。在圖 22 中,損失曲線顯示模型只造成微小的 以及每次疊代後的改進
圖 22.損失圖表,顯示以小學習率偏低的模型訓練而成。
學習率過高,所以不會收縮,因為每次疊代 導致損失下滑或不斷增加圖 23 中的損失 曲線顯示模型每次疊代後減少再增加 而在圖 24 中,損失在之後疊代會增加:
圖 23.損失圖,顯示訓練時模型的學習率 太大 這裡的損失曲線會變得不穩定 疊代增加
圖 24.損失圖,顯示訓練時模型的學習率 太大,在之後的疊代中,損失曲線會大幅增加。
練習:隨堂測驗
批量
批次大小是超參數, 是指模型在更新權重前,模型處理的樣本數量 和偏見您可能會認為模型應計算每一次 再更新權重和偏誤。不過,如果 包含數十萬或數百萬個範例 但整批作業在實務上並不可行
在平均情況下取得適當漸層的兩種常見技巧 先查看資料集中的每個範例,再更新權重和偏誤 隨機梯度下降法 和小批次隨機梯度梯度 descent (拒絕):
隨機梯度下降 (SGD):僅使用隨機梯度下降法 每項疊代的單一範例 (批次大小為 1)。足夠 SGD 雖然正常運作,但非常吵雜。「雜音」是指 訓練期間增加數值時 「stochastic」一詞這個例子包含 每個批次都是由系統隨機選擇
請注意,在下圖中,損失與模型的損失有些微波動 使用 SGD 來更新權重和偏誤, 圖表:
圖 25.以隨機梯度下降 (SGD) 訓練的模型 呈現出遺失曲線的雜訊
請注意,使用隨機梯度下降法會在 整個損失曲線,而不只是接近收斂
最小批次隨機梯度下降法 (迷你批次 SGD):迷你批次 隨機梯度下降法是完整批次與 SGD 之間的入侵。適用對象 $ N $ 的資料點,批量可以是任何大於 1 的數字 小於 $ N $模型會選擇每個批次中包含的範例 以隨機方式計算梯度,然後更新權重和偏誤 每次疊代一次
決定每批次的樣本數量取決於資料集和 可用的運算資源一般來說,小型批量是指 SGD 和較大型批次大小的行為類似於全批次梯度下降法。
圖 26.以迷你批次 SGD 訓練的模型。
訓練模型時,您可能會以為不想要的雜訊 應該排除的特性然而,資料量的 是件好事在後續單元中,您將瞭解雜訊如何協助模型 進一步一般化,並找到 類神經網路中的最佳權重和偏誤 網路。
訓練週期
在訓練期間,「訓練週期」表示 模型已處理一次訓練集中的每個範例。舉例來說 包含 1,000 個範例及 100 個樣本的迷你批次大小訓練集 會進行 10 次疊代 完成一個訓練週期
訓練通常需要許多訓練週期。也就是說,系統需要 擷取訓練集中的每個範例
訓練週期數是指您在模型開始之前設定的超參數 訓練而成在許多情況下,您必須嘗試不同的訓練週期數 以便模型對話一般來說,訓練週期越多,模型會越準確 也需要更多時間訓練
圖 27.完整批次與迷你批次
下表說明批量和週期與 模型更新參數的時間
批次類型 | 發生權重和偏誤的更新時 |
---|---|
完整批次 | 模型檢查完資料集中的所有範例後,舉例來說: 如果資料集包含 1,000 個範例,且模型的訓練作業達到 20 個週期 模型會更新權重和偏誤 20 次,每個週期一次 |
隨機梯度下降 | 模型查看了資料集中的一個範例後, 舉例來說,假設資料集包含 1,000 個範例和訓練資料 模型會將權重和偏誤更新為 20,000 次。 |
迷你批次隨機梯度下降法 | 模型查看了各批次中的範例後,舉例來說: 如果資料集含有 1,000 個範例,批量為 100,且 模型會訓練 20 個訓練週期 200 倍 |