過度配適:L2 正則化

L2 正則化 是熱門正則化指標,計算公式如下:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

舉例來說,下表顯示 L2 的值 以下為具有六個權重的模型正規化作業:

平方值
1 0.2 0.04
2 -0.5 0.25
3 5.0 25.0
4 -1.2 1.44
5 0.3 0.09
6 -0.1 0.01
    26.83 = 總計

請注意,權重接近 0 不會影響 L2 正則化 但較大的權重會帶來巨大的影響例如,在 先前計算方式:

  • 單一權重 (3) 佔了 93% 變得複雜
  • 其他 5 個權重則僅佔 7% 的 變得複雜

L2 正則化建議將權重「降至」0,但從未推進 權重為零

練習:隨堂測驗

如果您在訓練模型時使用 L2 正則化功能,會發生什麼事? 會發生什麼情況?
整個系統的整體複雜性可能會降低。
由於 L2 正則化建議權重為 0, 整體的複雜程度可能會下滑
模型的整體複雜度 常數。
這個情況不太可能會發生。
模型的整體複雜度可能會增加。
不太可能會這樣。請注意,L2 正則化 鼓勵權重趨向於 0
如果您在訓練模型時使用 L2 正則化功能, 部分功能將從模型中移除
雖然 L2 正則化可能會有一些權重 因此一定無法將任何權重推進至零 因此所有功能仍可確保 模型
L2 正則化不會使權重不斷提高 零時差弱點

正規化率 (lambda)

如上所述,訓練會嘗試減少部分損失和複雜度的組合:

$$\text{minimize(loss} + \text{ complexity)}$$

模型開發人員可調整複雜度對模型訓練的整體影響 做法是將其值乘以名為 正則化比率。 希臘字元 lambda 通常代表正規化率。

也就是說,模型開發人員的目標是達成以下目標:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

高正則化率:

  • 強化正規化的影響,降低 過度配適。
  • 通常能夠產生具有下列資料的模型權重直方圖 特性:
    • 常態分佈
    • 平均權重為 0

低正則化率:

  • 降低正則化的影響,提高 過度配適。
  • 通常能夠產生採用固定費率的模型權重直方圖。

例如,高正規化率模型權重的直方圖 可能如圖 18 所示

圖 18.模型權重的直方圖,平均值為 0 和
            如常態分佈
圖 18。 高正規化率的權重直方圖。 平均值為 0。常態分佈。

 

相反地,低正規化率往往會產生扁平的直方圖, 如圖 19 所示。

圖 19.模型權重的直方圖,平均值為 0
            介於平分和常態值之間
            發行。
圖 19。 低正規化率的權重直方圖。 平均值不一定為零。

 

挑選正則化率

理想的正規化率會產生模型 之前從未見過的全新資料 不過,這個理想價值取決於資料。 所以你必須 調整模型

提早停止:這是複雜性正規化的替代方案

「提早中止訓練」是一種 不涉及複雜計算的正則化方法 相反地,提前停止只意只是在模型之前結束訓練 舉例來說,在損失曲線時結束訓練 的驗證集開始增加 (斜率會變成正數)。

提早中止訓練通常會增加訓練損失,但可以減少 測試損失

提早停止是快速的正規化形式,但很少見。 產生的模型幾乎不可能和訓練好的模型一樣好 以達到理想的正規化率

找出學習率和正規化率之間的平衡

學習率和 正則化率傾向於提取權重 。高學習率通常從零變為零; 高正規化率會將權重設為「向下」為零。

如果正規化率在學習率方面很高 弱權重往往會產生較差的模型 相反地,如果正規化的學習率較高 權重的話就會產生過度配適的模型

你的目標是找到學習率和學習率之間的平衡 正規化率這並不容易。最糟糕的是,一旦找到 在這種情況下,你可能要改變學習率。 變更學習率後,你需要找出理想的學習率 正規化率