過学習: L2 正則化

L2 正則化は、次の数式を使用する一般的な正則化指標です。

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

たとえば、次の表は、6 つの重みを持つモデルの L2 正則化の計算を示しています。

二乗値
w1 0.2 0.04
w2 -0.5 0.25
w3 5.0 25.0
w4 -1.2 1.44
w5 0.3 0.09
w6 -0.1 0.01
    26.83 = 合計

0 に近い重みは L2 正則化にあまり影響しませんが、大きな重みは大きな影響を与える可能性があります。たとえば、上記の計算では次のようになります。

  • 1 つの重み(w3)が複雑さの合計の約 93% を占めています。
  • 他の 5 つの重みの合計は、複雑さの合計の約 7% にすぎません。

L2 正則化は重みを 0 に近づけますが、重みを 0 にすることはありません。

演習: 理解度を確認する

モデルのトレーニング中に L2 正則化を使用すると、モデルの全体的な複雑さは通常どうなりますか?
システムの全体的な複雑さは低下する可能性があります。
L2 正則化では重みが 0 に近づくため、全体的な複雑さは低下する可能性があります。
モデルの全体的な複雑さは、おそらく一定のままです。
その可能性は非常に低い。
モデルの全体的な複雑さが増す可能性があります。
可能性は低い。L2 正則化は重みを 0 に近づけることを思い出してください。
モデルのトレーニング中に L2 正則化を使用すると、一部の特徴量がモデルから削除されます。
正しい
L2 正則化では、一部の重みが非常に小さくなる可能性がありますが、重みが 0 になることはありません。したがって、すべての特徴がモデルに何らかの貢献をします。
False
L2 正則化では、重みが 0 になることはありません。

正則化率(ラムダ)

前述のように、トレーニングでは損失と複雑さの組み合わせを最小限に抑えようとします。

$$\text{minimize(loss} + \text{ complexity)}$$

モデル デベロッパーは、複雑さの値に正則化率と呼ばれるスカラーを乗算して、モデル トレーニングに対する複雑さの全体的な影響を調整します。通常、ギリシャ文字のラムダは正則化率を表します。

つまり、モデル デベロッパーは次のことを目指します。

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

正則化率が高い場合:

  • 正則化の影響を強め、過学習の可能性を減らします。
  • 次の特徴を持つモデルの重みのヒストグラムを生成する傾向があります。
    • 正規分布
    • 平均重量が 0 の場合。

正則化率が低い場合:

  • 正則化の影響を軽減し、過適合の可能性を高めます。
  • 分布が平坦なモデルの重みのヒストグラムを生成する傾向があります。

たとえば、正則化率が高い場合のモデルの重みのヒストグラムは、図 18 のようになります。

図 18. 平均がゼロで正規分布のモデルの重みのヒストグラム。
図 18. 正則化率が高い場合の重みのヒストグラム。平均は 0 です。正規分布。

 

一方、正則化率が低いと、図 19 に示すように、ヒストグラムが平坦になる傾向があります。

図 19. 平均が 0 で、一様分布と正規分布の中間にあるモデルの重みのヒストグラム。
図 19. 正則化率が低い場合の重みヒストグラム。平均値はゼロの場合もあれば、ゼロでない場合もあります。

 

正則化率の選択

最適な正則化率を使用すると、新しい未知のデータに対して一般化がうまく行われるモデルが生成されます。残念ながら、理想的な値はデータに依存するため、手動または自動で チューニング。

早期停止: 複雑性に基づく正則化の代替手段

早期停止は、複雑さの計算を伴わない正則化手法です。早期停止は、モデルが完全に収束する前にトレーニングを終了することを意味します。たとえば、検証セットの損失曲線が上昇し始めたとき(傾きが正になったとき)にトレーニングを終了します。

通常、早期停止によりトレーニング損失は増加しますが、テスト損失は減少する可能性があります。

早期停止は、迅速ですが、最適化されることはほとんどない正則化の形式です。結果として得られるモデルは、理想的な正則化率で徹底的にトレーニングされたモデルほど優れている可能性はほとんどありません。

学習率と正則化率の平衡を見つける

学習率と正則化率は、重みを反対方向に移動させる傾向があります。学習率が高いと、重みがゼロから離れる傾向があり、正則化率が高いと、重みがゼロに近づく傾向があります。

正則化率が学習率に対して高い場合、弱い重みは予測精度の低いモデルを生成する傾向があります。逆に、正則化率に対して学習率が高い場合、強い重みは過適合モデルを生成する傾向があります。

目標は、学習率と正則化率のバランスを見つけることです。これは難しい場合があります。最悪の場合、そのバランスを見つけても、最終的に学習率を変更しなければならないことがあります。また、学習率を変更すると、理想的な正則化率を再度見つける必要があります。