L2 正則化 是熱門正則化指標,計算公式如下:
舉例來說,下表顯示 L2 的值 以下為具有六個權重的模型正規化作業:
值 | 平方值 | |
---|---|---|
1 週 | 0.2 | 0.04 |
第2 週 | -0.5 | 0.25 |
第3 週 | 5.0 | 25.0 |
第4 週 | -1.2 | 1.44 |
週5 | 0.3 | 0.09 |
週6 | -0.1 | 0.01 |
26.83 = 總計 |
請注意,權重接近 0 不會影響 L2 正則化 但較大的權重會帶來巨大的影響例如,在 先前計算方式:
- 單一權重 (3) 佔了 93% 變得複雜
- 其他 5 個權重則僅佔 7% 的 變得複雜
L2 正則化建議將權重「降至」0,但從未推進 權重為零
練習:隨堂測驗
正規化率 (lambda)
如上所述,訓練會嘗試減少部分損失和複雜度的組合:
模型開發人員可調整複雜度對模型訓練的整體影響 做法是將其值乘以名為 正則化比率。 希臘字元 lambda 通常代表正規化率。
也就是說,模型開發人員的目標是達成以下目標:
高正則化率:
- 強化正規化的影響,降低 過度配適。
- 通常能夠產生具有下列資料的模型權重直方圖
特性:
- 常態分佈
- 平均權重為 0
低正則化率:
- 降低正則化的影響,提高 過度配適。
- 通常能夠產生採用固定費率的模型權重直方圖。
例如,高正規化率模型權重的直方圖 可能如圖 18 所示
相反地,低正規化率往往會產生扁平的直方圖, 如圖 19 所示。
挑選正則化率
理想的正規化率會產生模型 之前從未見過的全新資料 不過,這個理想價值取決於資料。 所以你必須 調整模型
提早停止:這是複雜性正規化的替代方案
「提早中止訓練」是一種 不涉及複雜計算的正則化方法 相反地,提前停止只意只是在模型之前結束訓練 舉例來說,在損失曲線時結束訓練 的驗證集開始增加 (斜率會變成正數)。
提早中止訓練通常會增加訓練損失,但可以減少 測試損失
提早停止是快速的正規化形式,但很少見。 產生的模型幾乎不可能和訓練好的模型一樣好 以達到理想的正規化率
找出學習率和正規化率之間的平衡
學習率和 正則化率傾向於提取權重 。高學習率通常從零變為零; 高正規化率會將權重設為「向下」為零。
如果正規化率在學習率方面很高 弱權重往往會產生較差的模型 相反地,如果正規化的學習率較高 權重的話就會產生過度配適的模型
你的目標是找到學習率和學習率之間的平衡 正規化率這並不容易。最糟糕的是,一旦找到 在這種情況下,你可能要改變學習率。 變更學習率後,你需要找出理想的學習率 正規化率