简化正则化:Lambda

模型开发者通过以下方式来调整正则化项的整体影响:用正则化项的值乘以名为 lambda(也称为正则化率)的标量。也就是说,模型开发者旨在执行以下操作:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

执行 L2 正则化会对模型产生以下影响

  • 使权重值接近于 0(但并非正好为 0)
  • 使权重的平均值接近 0,并且呈正态(钟形或高斯)分布。

增加 lambda 值会增强正则化效果。例如,lambda 值较高的权重直方图可能如图 2 所示。

模型权重的直方图,平均值为零且呈正态分布。

图 2. 权重直方图。

降低 lambda 的值往往会生成一个更扁平的直方图,如图 3 所示。

模型的权重直方图,均值为零,介于平坦分布和正态分布之间。

图 3. 由较低的 lambda 值生成的权重直方图。

选择 lambda 值时,目标是在简单性和训练数据拟合之间取得适当的平衡:

  • 如果 lambda 值过高,则模型会非常简单,但是您将面临数据欠拟合的风险。模型将无法从训练数据中获得足够的信息来做出有用的预测。

  • 如果 lambda 值过低,则模型会比较复杂,并且您将面临数据过拟合的风险。您的模型将了解过多训练数据的特殊性,无法泛化到新数据。

理想的 lambda 值生成的模型可以很好地泛化到以前未见过的新数据。遗憾的是,理想的 lambda 值取决于数据,因此您需要手动或自动进行一些 调整。