L2 正则化 是一种常用的正则化指标,其使用公式如下:
例如,下表显示了 L2 的计算方法 使用六个权重的模型进行正则化:
值 | 平方值 | |
---|---|---|
周1 | 0.2 | 0.04 |
周2 | -0.5 | 0.25 |
周3 | 5.0 | 25.0 |
w4 | -1.2 | 1.44 |
周5 | 0.3 | 0.09 |
周6 | -0.1 | 0.01 |
26.83 = 总计 |
请注意,接近于零的权重不影响 L2 正则化 但较大的权重会产生巨大的影响。例如,在 之前的计算:
- 单个权重 (w3) 约占总权重的 93% 总体复杂性。
- 其他五个权重加起来只占权重的 7% 总体复杂性。
L2 正则化会使权重接近 0,但绝不会推入 权重一直为零。
练习:检查您的掌握程度
正则化率 (lambda)
如前所述,训练会尝试最大限度降低损失和复杂性的某种组合:
模型开发者会调整复杂性对模型训练的整体影响 将其值乘以名为 正则化率。 希腊字符 lambda 通常表示正则化率。
也就是说,模型开发者要做到以下几点:
正则化率较高:
- 增强正则化的影响,从而降低 过拟合。
- 往往会生成模型权重的直方图,其中
特征:
- 正态分布
- 平均权重为 0。
正则化率较低:
- 降低正则化的影响,从而增加 过拟合。
- 往往会生成模型权重呈平面分布的直方图。
例如,正则化率较高的模型权重直方图 如图 18 所示。
相反,正则化率较低,往往会产生较为平坦的直方图,因为 如图 19 所示。
选择正则化率
理想的正则化率所生成的模型可以很好地泛化到 以前未见过的新数据。 遗憾的是,理想价值取决于数据, 因此您必须 调整。
早停法:基于复杂性的正则化的替代方案
早停法是 这种正则化方法不涉及复杂程度计算。 早停法是指在模型之前结束训练 会完全收敛。例如,当损失曲线 开始增加(斜率变为正值)。
虽然早停法通常会增加训练损失, 测试损失。
早停法是一种快速但不是最佳的正则化形式。 生成的模型不太可能达到训练后的模型 理想的正则化率。
寻找学习速率和正则化率之间的平衡
学习速率和 正则化率往往会反过来 路线。较高的学习速率通常会将权重从零移开; 较高的正则化率会使权重向零拉近。
如果正则化率相对于学习速率较高, 而弱权重往往会产生预测不佳的模型。 相反,如果正则化的学习速率较高, 较高的权重往往会产生过拟合模型。
您的目标是找到学习速率和 正则化率。这可能颇具挑战性。最糟糕的是, 可能必须最终改变学习速率。 而且,在改变学习速率时, 正则化率。