简化正则化：检查您的理解情况

L₂ 正则化

了解以下选项。

假设某个线性模型具有 100 个输入特征：

其中 10 个特征信息丰富。

其中 90 个特征信息缺乏。

假设所有特征的值都介于 -1 到 1 之间。以下哪些说法是正确的？

L₂ 正则化会使许多信息缺乏的权重接近（但并非正好）0.0。

是的，L₂ 正则化会使权重接近于 0.0，但并非正好为 0.0。

L₂ 正则化会使大多数信息缺乏的权重正好为 0.0。

L₂ 正则化不会倾向于使权重正好为 0.0。L₂ 正则化降低较大权重的程度高于降低较小权重的程度。随着权重越来越接近于 0.0，L₂“推”向 0.0 的力度会减弱。

L₂ 正则化可能会导致模型针对某些信息缺乏的特征学习到适中的权重。

出乎意料的是，当某个信息缺乏的特征恰好与标签相关联时，就会发生这种情况。在这种情况下，模型错误地将本应归于信息丰富特征的“功劳”归功于此类信息缺乏的特征。

了解以下选项。

假设某个线性模型具有两个密切相关的特征；也就是说，这两个特征几乎是彼此的副本，但其中一个特征包含少量的随机噪点。如果我们使用 L₂ 正则化训练该模型，这两个特征的权重会发生什么变化？

这两个特征将具有大致相等的适度权重。

L₂ 正则化会使特征的权重大致相等，大约为模型中只有两个特征之一时权重的一半。

其中一个特征的权重较大，另一个特征的权重几乎为 0.0。

L₂ 正则化降低较大权重的程度高于降低较小权重的程度。因此，即使一个权重降低的速度比另一个快，L₂ 正则化也往往会使较大权重降低的速度快于较小的权重。

其中一个特征的权重较大，另一个特征的权重正好为 0.0。

L₂ 正则化几乎不会使权重正好为 0.0。相比之下，L₁ 正则化（稍后会介绍）则会使权重正好为 0.0。