線性迴歸:超參數

超參數是變數 以控制訓練的不同層面三個常見的超參數如下:

相較之下,「參數」是指 權重和偏誤等變數都屬於模型本身的於 也就是您控管的值參數值是 模型在訓練期間計算的數值

學習率

學習率是一種 您設定的浮點數會影響 模型集錦如果學習率過低,模型可能需要較長時間 交集不過,如果學習率過高 而是以權重和偏誤的權重和偏誤 損失我們的目標是選擇學習率適中也不能太低 才能快速聚集

學習率會決定權重變化幅度 產生偏誤的情形模型乘法 依據學習率劃分的梯度來判斷模型的參數 (權重) 以便預測下個疊代在漸層的第三個步驟 descent、「小額」往前方移動 負斜率是指學習率

舊模型參數和新模型參數的差異如下: 與損失函式的斜率成正比舉例來說,如果斜率為 模型會執行到很大的難度如果規模較小,團隊會多走一小步。適用對象 舉例來說,如果梯度的規模為 2.5,學習率為 0.01,則 模型會將參數變更為 0.025

理想的學習率能協助模型在合理的數值內收斂 反覆改進在圖 21 中,損失曲線大幅增加了模型 在 20 次疊代前加強改善:

圖 21.損失曲線,顯示斜坡前出現陡坡。

圖 21.損失圖表,顯示訓練時所用學習率的模型 能迅速交集

相反地 如果學習率太小,可能會產生太多次疊代 集點。在圖 22 中,損失曲線顯示模型只造成微小的 以及每次疊代後的改進

圖 22.顯示將近 45 度坡度的損失曲線。

圖 22.損失圖表,顯示以小學習率偏低的模型訓練而成。

學習率過高,所以不會收縮,因為每次疊代 導致損失下滑或不斷增加圖 23 中的損失 曲線顯示模型每次疊代後減少再增加 而在圖 24 中,損失在之後疊代會增加:

圖 23.損失曲線,顯示上下線條。

圖 23.損失圖,顯示訓練時模型的學習率 太大 這裡的損失曲線會變得不穩定 疊代增加

圖 24.損失曲線,顯示損失在之後疊代增加

圖 24.損失圖,顯示訓練時模型的學習率 太大,在之後的疊代中,損失曲線會大幅增加。

練習:隨堂測驗

理想的學習率為何?
理想的學習率取決於問題。
每個模型和資料集都有各自的理想學習率。
0.01 版
1.0 版

批量

批次大小是超參數, 是指模型在更新權重前,模型處理的樣本數量 和偏見您可能會認為模型應計算每一次 再更新權重和偏誤。不過,如果 包含數十萬或數百萬個範例 但整批作業在實務上並不可行

平均情況下取得適當漸層的兩種常見技巧 先查看資料集中的每個範例,再更新權重和偏誤 隨機梯度下降法小批次隨機梯度梯度 descent (拒絕)

  • 隨機梯度下降 (SGD):僅使用隨機梯度下降法 每項疊代的單一範例 (批次大小為 1)。足夠 SGD 雖然正常運作,但非常吵雜。「雜音」是指 訓練期間增加數值時 「stochastic」一詞這個例子包含 每個批次都是由系統隨機選擇

    請注意,在下圖中,損失與模型的損失有些微波動 使用 SGD 來更新權重和偏誤, 圖表:

    圖 25.陡峭的損失曲線,呈現平穩但大幅波動。

    圖 25.以隨機梯度下降 (SGD) 訓練的模型 呈現出遺失曲線的雜訊

    請注意,使用隨機梯度下降法會在 整個損失曲線,而不只是接近收斂

  • 最小批次隨機梯度下降法 (迷你批次 SGD):迷你批次 隨機梯度下降法是完整批次與 SGD 之間的入侵。適用對象 $ N $ 的資料點,批量可以是任何大於 1 的數字 小於 $ N $模型會選擇每個批次中包含的範例 以隨機方式計算梯度,然後更新權重和偏誤 每次疊代一次

    決定每批次的樣本數量取決於資料集和 可用的運算資源一般來說,小型批量是指 SGD 和較大型批次大小的行為類似於全批次梯度下降法。

    圖 26.陡峭的損失曲線,開始下降,聚合性近似的波動較小。

    圖 26.以迷你批次 SGD 訓練的模型。

訓練模型時,您可能會以為不想要的雜訊 應該排除的特性然而,資料量的 是件好事在後續單元中,您將瞭解雜訊如何協助模型 進一步一般化,並找到 類神經網路中的最佳權重和偏誤 網路

訓練週期

在訓練期間,「訓練週期」表示 模型已處理一次訓練集中的每個範例。舉例來說 包含 1,000 個範例及 100 個樣本的迷你批次大小訓練集 會進行 10 次疊代 完成一個訓練週期

訓練通常需要許多訓練週期。也就是說,系統需要 擷取訓練集中的每個範例

訓練週期數是指您在模型開始之前設定的超參數 訓練而成在許多情況下,您必須嘗試不同的訓練週期數 以便模型對話一般來說,訓練週期越多,模型會越準確 也需要更多時間訓練

圖 27.完整的批次是指整個資料集,迷你批次是資料集中的子集,而一個週期則是經過十個迷你批次的完整傳遞。

圖 27.完整批次與迷你批次

下表說明批量和週期與 模型更新參數的時間

批次類型 發生權重和偏誤的更新時
完整批次 模型檢查完資料集中的所有範例後,舉例來說: 如果資料集包含 1,000 個範例,且模型的訓練作業達到 20 個週期 模型會更新權重和偏誤 20 次,每個週期一次
隨機梯度下降 模型查看了資料集中的一個範例後, 舉例來說,假設資料集包含 1,000 個範例和訓練資料 模型會將權重和偏誤更新為 20,000 次。
迷你批次隨機梯度下降法 模型查看了各批次中的範例後,舉例來說: 如果資料集含有 1,000 個範例,批量為 100,且 模型會訓練 20 個訓練週期 200 倍

練習:隨堂測驗

1. 使用迷你批次 SGD 時的最佳批量為何?
視情況而定
理想的批次大小取決於資料集和 運算資源
每個批次 10 個範例
每個批次 100 個範例
2. 以下敘述何者正確?
較大的批次不適合含有許多離群值的資料。
這是錯誤的說法。將更多梯度平均相加,就可以更大 批次大小有助於減少離群值產生的負面影響 資料。
將學習率加倍可能會拖慢訓練速度。
這是真的。加倍學習率可望 學習率過高 「彈跳」增加溝通所需的時間 一如以往,最好的超參數取決於資料集和 可用的運算資源