正则化是指降低模型的复杂性以减少过拟合。
简化正则化
泛化曲线
降低模型的复杂性
- 我们希望尽可能降低模型的复杂性。
- 我们可以将此想法融入到训练时进行的优化中。
- 经验风险最小化:
- 旨在降低训练误差
$$ \text{minimize: } Loss(Data\;|\;Model) $$
降低模型的复杂性
- 我们希望尽可能降低模型的复杂性。
- 我们可以将此想法融入到训练时进行的优化中。
- 结构风险最小化:
- 旨在降低训练误差
- 同时平衡复杂性
$$ \text{minimize: } Loss(Data\;|\;Model) + complexity(Model) $$
正则化
- 如何定义复杂度(模型)?
正则化
- 如何定义复杂度(模型)?
- 首选较小的权重
正则化
- 如何定义复杂度(模型)?
- 首选较小的权重
- 偏离应该会产生成本
- 可以通过 L2 正则化(也称为岭正则化)对这种想法进行编码
- 复杂度(模型)= 权重的平方和
- 降低非常大的权重
- 对于线性模型:首选比较平缓的斜率
- 贝叶斯先验:
- 权重应该以 0 为中心
- 权重应该呈正态分布
L2 正则化的损失函数
$$ Loss(Data|Model) + \lambda \left(w_1^2 + \ldots + w_n^2 \right) $$
\(\text{Where:}\)
\(Loss\text{: Aims for low training error}\)
\(\lambda\text{: Scalar value that controls how weights are balanced}\)
\(w_1^2+\ldots+w_n^2\text{: Square of}\;L_2\;\text{norm}\)