L2 正則化は、次の数式を使用する一般的な正則化指標です。
たとえば、次の表は、6 つの重みを持つモデルの L2 正則化の計算を示しています。
| 値 | 二乗値 | |
|---|---|---|
| w1 | 0.2 | 0.04 |
| w2 | -0.5 | 0.25 |
| w3 | 5.0 | 25.0 |
| w4 | -1.2 | 1.44 |
| w5 | 0.3 | 0.09 |
| w6 | -0.1 | 0.01 |
| 26.83 = 合計 |
0 に近い重みは L2 正則化にあまり影響しませんが、大きな重みは大きな影響を与える可能性があります。たとえば、上記の計算では次のようになります。
- 1 つの重み(w3)が複雑さの合計の約 93% を占めています。
- 他の 5 つの重みの合計は、複雑さの合計の約 7% にすぎません。
L2 正則化は重みを 0 に近づけますが、重みを 0 にすることはありません。
演習: 理解度を確認する
正則化率(ラムダ)
前述のように、トレーニングでは損失と複雑さの組み合わせを最小限に抑えようとします。
モデル デベロッパーは、複雑さの値に正則化率と呼ばれるスカラーを乗算して、モデル トレーニングに対する複雑さの全体的な影響を調整します。通常、ギリシャ文字のラムダは正則化率を表します。
つまり、モデル デベロッパーは次のことを目指します。
正則化率が高い場合:
- 正則化の影響を強め、過学習の可能性を減らします。
- 次の特徴を持つモデルの重みのヒストグラムを生成する傾向があります。
- 正規分布
- 平均重量が 0 の場合。
正則化率が低い場合:
- 正則化の影響を軽減し、過適合の可能性を高めます。
- 分布が平坦なモデルの重みのヒストグラムを生成する傾向があります。
たとえば、正則化率が高い場合のモデルの重みのヒストグラムは、図 18 のようになります。
一方、正則化率が低いと、図 19 に示すように、ヒストグラムが平坦になる傾向があります。
正則化率の選択
最適な正則化率を使用すると、新しい未知のデータに対して一般化がうまく行われるモデルが生成されます。残念ながら、理想的な値はデータに依存するため、手動または自動で チューニング。
早期停止: 複雑性に基づく正則化の代替手段
早期停止は、複雑さの計算を伴わない正則化手法です。早期停止は、モデルが完全に収束する前にトレーニングを終了することを意味します。たとえば、検証セットの損失曲線が上昇し始めたとき(傾きが正になったとき)にトレーニングを終了します。
通常、早期停止によりトレーニング損失は増加しますが、テスト損失は減少する可能性があります。
早期停止は、迅速ですが、最適化されることはほとんどない正則化の形式です。結果として得られるモデルは、理想的な正則化率で徹底的にトレーニングされたモデルほど優れている可能性はほとんどありません。
学習率と正則化率の平衡を見つける
学習率と正則化率は、重みを反対方向に移動させる傾向があります。学習率が高いと、重みがゼロから離れる傾向があり、正則化率が高いと、重みがゼロに近づく傾向があります。
正則化率が学習率に対して高い場合、弱い重みは予測精度の低いモデルを生成する傾向があります。逆に、正則化率に対して学習率が高い場合、強い重みは過適合モデルを生成する傾向があります。
目標は、学習率と正則化率のバランスを見つけることです。これは難しい場合があります。最悪の場合、そのバランスを見つけても、最終的に学習率を変更しなければならないことがあります。また、学習率を変更すると、理想的な正則化率を再度見つける必要があります。