L2 正則化
以下の選択肢をご覧ください。
100 個の入力特徴を持つ線形モデルがあるとします。
非常に有益です。
90 は有益ではありません。
すべての特徴の値が -1 ~ 1 であると仮定します。次の説明のうち、正しいものはどれですか。
L2 正則化では、多くの情報に欠ける重みの多くが 0.0 に近い(ただし厳密にはそうではない)ことが奨励されます。
はい。L2 正則化では、重みが 0.0 に近いことが推奨されますが、厳密に 0.0 ではないことが推奨されます。
L2 正則化により、情報のない重みのほとんどがちょうど 0.0 になります。
L2 正則化では重みが厳密に 0.0 に強制される傾向はありません。L2 正則化は、小さな重みよりも大きな重みにペナルティーをかけます。重みが 0.0 に近づくと、L2 は 0.0 に向かって「押しやる」力が小さくなります。
L2 正則化では、情報に欠ける一部の特徴に対して、モデルが中程度の重みを学習することがあります。
意外なことに、この現象は情報提供のない特徴がラベルと相関している場合に発生することがあります。この場合、モデルはこのような情報提供のない特徴に、情報を提供するべき「クレジット」の一部を誤って付与しています。
L2 正則化と相関機能
以下の選択肢をご覧ください。
2 つの強い相関がある特徴を持つ線形モデルがあるとします。つまり、この 2 つの特徴は互いにほぼ同一のコピーですが、一方の特徴には少量のランダムノイズが含まれています。このモデルを L2 正則化でトレーニングすると、この 2 つの特徴の重みはどうなりますか。
どちらの対象物も、ほぼ同じ重みで、中程度の重みになります。
L2 正則化は、2 つの特徴のうち 1 つしか含まれていないと考えた場合の約半分の重みに、特徴を強制的に適用します。
1 つの対象物の重みは大きく、もう 1 つの対象物の重みはほぼ 0.0 です。
L2 正則化は、小さな重みよりも大きな重みにペナルティーをかけます。そのため、一方の重みが他方よりも速く低下し始めても、L2 正則化は、小さい重みよりも大きい重みをより速く低下させる傾向があります。
一方の対象物の重みは大きく、もう一方の対象物の重みはちょうど 0.0 になります。
L2 正則化によって重みが正確に 0.0 に強制されることはほとんどありません。一方、後述の L1 正則化では、重みが正確に 0.0 に強制されます。