简化正则化：Lambda

模型开发者通过以下方式来调整正则化项的整体影响：用正则化项的值乘以名为 lambda（也称为正则化率）的标量。也就是说，模型开发者旨在执行以下操作：

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

执行 L₂ 正则化会对模型产生以下影响

增加 lambda 值会增强正则化效果。例如，lambda 值较高的权重直方图可能如图 2 所示。

图 2. 权重直方图。

降低 lambda 的值往往会生成一个更扁平的直方图，如图 3 所示。

图 3. 由较低的 lambda 值生成的权重直方图。

选择 lambda 值时，目标是在简单性和训练数据拟合之间取得适当的平衡：

理想的 lambda 值生成的模型可以很好地泛化到以前未见过的新数据。遗憾的是，理想的 lambda 值取决于数据，因此您需要手动或自动进行一些调整。

学习速率与 lambda 之间存在密切关联。L₂ 正则化值越强，使特征权重接近于 0。较低的学习速率（使用早停法）通常会产生相同的效果，因为与 0 的距离没有那么大。因此，同时调整学习速率和 lambda 可能会产生令人困惑的效果。

早停法是指在模型完全收敛之前结束训练。在实践中，以在线（连续）方式进行训练时，我们通常最终会获得一定程度的隐式早停法。也就是说，一些新趋势的数据尚不足以收敛。

如上所述，改变正则化参数的影响可能与学习速率或迭代次数变化的影响相混淆。一种有用的做法（在对固定批次的数据进行训练时）是进行足够多的迭代，这样提前停止不会产生任何影响。