简化正则化:检查您的理解情况

L2 正则化

了解以下选项。

假设某个线性模型具有 100 个输入特征:
  • 其中 10 个特征信息丰富。
  • 其中 90 个特征信息缺乏。
  • 假设所有特征的值都介于 -1 到 1 之间。以下哪些说法是正确的?
    L2 正则化会使许多信息缺乏的权重接近(但并非正好)0.0。
    是的,L2 正则化会使权重接近于 0.0,但并非正好为 0.0。
    L2 正则化会使大多数信息缺乏的权重正好为 0.0。
    L2 正则化不会倾向于使权重正好为 0.0。L2 正则化降低较大权重的程度高于降低较小权重的程度。随着权重越来越接近于 0.0,L2“推”向 0.0 的力度会减弱。
    L2 正则化可能会导致模型针对某些信息缺乏的特征学习到适中的权重。
    出乎意料的是,当某个信息缺乏的特征恰好与标签相关联时,就会发生这种情况。在这种情况下,模型错误地将本应归于信息丰富特征的“功劳”归功于此类信息缺乏的特征。

    L2 正则化和相关特征

    了解以下选项。

    假设某个线性模型具有两个密切相关的特征;也就是说,这两个特征几乎是彼此的副本,但其中一个特征包含少量的随机噪点。如果我们使用 L2 正则化训练该模型,这两个特征的权重会发生什么变化?
    这两个特征将具有大致相等的适度权重。
    L2 正则化会使特征的权重大致相等,大约为模型中只有两个特征之一时权重的一半。
    其中一个特征的权重较大,另一个特征的权重几乎为 0.0。
    L2 正则化降低较大权重的程度高于降低较小权重的程度。因此,即使一个权重降低的速度比另一个快,L2 正则化也往往会使较大权重降低的速度快于较小的权重。
    其中一个特征的权重较大,另一个特征的权重正好为 0.0。
    L2 正则化几乎不会使权重正好为 0.0。相比之下,L1 正则化(稍后会介绍)则会使权重正好为 0.0。