过拟合:L2 正则化

L2 正则化 是一种常用的正则化指标,其使用公式如下:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

例如,下表显示了 L2 的计算方法 使用六个权重的模型进行正则化:

平方值
1 0.2 0.04
2 -0.5 0.25
3 5.0 25.0
w4 -1.2 1.44
5 0.3 0.09
6 -0.1 0.01
    26.83 = 总计

请注意,接近于零的权重不影响 L2 正则化 但较大的权重会产生巨大的影响。例如,在 之前的计算:

  • 单个权重 (w3) 约占总权重的 93% 总体复杂性。
  • 其他五个权重加起来只占权重的 7% 总体复杂性。

L2 正则化会使权重接近 0,但绝不会推入 权重一直为零。

练习:检查您的掌握程度

如果您在训练模型时使用 L2 正则化, 模型的整体复杂性通常如何?
系统的整体复杂程度可能会降低。
由于 L2 正则化会使权重接近 0, 因此总体复杂程度可能会降低
模型的整体复杂程度可能会保持不变, 常量。
不太可能会发生这种情况。
模型的整体复杂性可能会增加。
不太可能。请注意,L2 正则化 使权重接近于 0。
如果您在训练模型时使用 L2 正则化, 一些特征将从模型中移除。
正确
虽然 L2 正则化可能会使某些权重 它绝不会将任何权重一直推到 0。 因此,所有功能对 模型。
错误
L2 正则化绝不会使权重一直增加 零。

正则化率 (lambda)

如前所述,训练会尝试最大限度降低损失和复杂性的某种组合:

$$\text{minimize(loss} + \text{ complexity)}$$

模型开发者会调整复杂性对模型训练的整体影响 将其值乘以名为 正则化率。 希腊字符 lambda 通常表示正则化率。

也就是说,模型开发者要做到以下几点:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

正则化率较高:

  • 增强正则化的影响,从而降低 过拟合。
  • 往往会生成模型权重的直方图,其中 特征:
    • 正态分布
    • 平均权重为 0。

正则化率较低:

  • 降低正则化的影响,从而增加 过拟合。
  • 往往会生成模型权重呈平面分布的直方图。

例如,正则化率较高的模型权重直方图 如图 18 所示。

图 18.模型权重的直方图,其中平均值为零,
            正态分布。
图 18. 高正则化率的权重直方图。 平均值为零。正态分布。

 

相反,正则化率较低,往往会产生较为平坦的直方图,因为 如图 19 所示。

图 19一个模型权重平均值为零的直方图,
            介于平面分布和正态分布之间
            分发。
图 19. 低正则化率的权重直方图。 平均值不一定为零。

 

选择正则化率

理想的正则化率所生成的模型可以很好地泛化到 以前未见过的新数据。 遗憾的是,理想价值取决于数据, 因此您必须 调整。

早停法:基于复杂性的正则化的替代方案

早停法是 这种正则化方法不涉及复杂程度计算。 早停法是指在模型之前结束训练 会完全收敛。例如,当损失曲线 开始增加(斜率变为正值)。

虽然早停法通常会增加训练损失, 测试损失。

早停法是一种快速但不是最佳的正则化形式。 生成的模型不太可能达到训练后的模型 理想的正则化率。

寻找学习速率和正则化率之间的平衡

学习速率和 正则化率往往会反过来 路线。较高的学习速率通常会将权重从零移开; 较高的正则化率会使权重零拉近。

如果正则化率相对于学习速率较高, 而弱权重往往会产生预测不佳的模型。 相反,如果正则化的学习速率较高, 较高的权重往往会产生过拟合模型。

您的目标是找到学习速率和 正则化率。这可能颇具挑战性。最糟糕的是, 可能必须最终改变学习速率。 而且,在改变学习速率时, 正则化率。