模型开发者通过以下方式来调整正则化项的整体影响:用正则化项的值乘以名为 lambda(也称为正则化率)的标量。也就是说,模型开发者旨在执行以下操作:
$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$
执行 L2 正则化会对模型产生以下影响
- 使权重值接近于 0(但并非正好为 0)
- 使权重的平均值接近 0,并且呈正态(钟形或高斯)分布。
增加 lambda 值会增强正则化效果。例如,lambda 值较高的权重直方图可能如图 2 所示。
图 2. 权重直方图。
降低 lambda 的值往往会生成一个更扁平的直方图,如图 3 所示。
图 3. 由较低的 lambda 值生成的权重直方图。
选择 lambda 值时,目标是在简单性和训练数据拟合之间取得适当的平衡:
如果 lambda 值过高,则模型会非常简单,但是您将面临数据欠拟合的风险。模型将无法从训练数据中获得足够的信息来做出有用的预测。
如果 lambda 值过低,则模型会比较复杂,并且您将面临数据过拟合的风险。您的模型将了解过多训练数据的特殊性,无法泛化到新数据。
理想的 lambda 值生成的模型可以很好地泛化到以前未见过的新数据。遗憾的是,理想的 lambda 值取决于数据,因此您需要手动或自动进行一些 调整。