スパース性の正則化: 理解を確認する

L₁ 正則化

以下の選択肢をご覧ください。

100 個の入力特徴を持つ線形モデルがあるとします。

非常に有益です。

90 は有益ではありません。

すべての特徴の値が -1 ～ 1 であると仮定します。次の説明のうち、正しいものはどれですか。

L1 正則化では、多くの情報に欠ける重みの多くが 0.0 に近い（ただし厳密にはそうではない）ことが奨励されます。

一般に、十分なラムダを L1 正則化すると、情報のない特徴の重みがちょうど 0.0 になる傾向があります。L2 正則化とは異なり、L1 正則化は重みが 0.0 からどれだけ離れていても 0.0 に向かって強固に「押し上げ」ます。

L1 正則化により、情報量に欠ける重みのほとんどがちょうど 0.0 になります。

十分なラムダが L1 正則化されると、情報のない重みがちょうど 0.0 になる傾向があります。そうすると、情報量を多く含まない特徴がモデルから離れてしまいます。

L1 正則化によって情報特徴の重みがちょうど 0.0 になることがあります。

L1 正則化により、次の種類の特徴にちょうど 0 の重みが割り当てられることに注意してください。

機能的には情報が不十分。

さまざまな規模で非常に有益な機能を提供。

有益な特徴は、同様に有益な他の特徴と強い相関関係があります。

以下の選択肢をご覧ください。

100 個の入力特徴があり、そのすべてが -1 ～ 1 の値を持つ線形モデルがあるとします。

非常に有益です。

90 は有益ではありません。

どちらの正則化の方が小さいモデルになりますか。

L₂ 正則化。

L₂ 正則化によって特徴の数が減ることはほとんどありません。つまり、L₂ 正則化によってモデルのサイズが縮小されることはほとんどありません。

L₁ 正則化。

L₁ 正則化は特徴の数を削減する傾向があります。言い換えれば、L₁ 正則化はしばしばモデルのサイズを縮小するということです。