深入了解机器学习 (Descending into ML):检查您的理解情况

均方误差

请看以下两个曲线图:

由 10 个点构成的曲线图。一条线穿过 10 个点中的 6 个。2 个点在线上方 1 个“单位”处;另外 2 个点在线下方 1 个“单位”处。 由 10 个点构成的曲线图。一条线穿过 10 个点中的 8 个。1 个点在线上方 2 个“单位”处;另外 1 个点在线下方 2 个“单位”处。

查看以下选项。

对于以上曲线图中显示的两个数据集,哪个数据集的均方误差 (MSE) 较高
左侧的数据集。
线上的 6 个样本产生的总损失为 0。不在线上的 4 个样本离线并不远,因此即使对偏移求平方值,产生的值仍然很小: $$ MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$$
右侧的数据集。
线上的 8 个样本产生的总损失为 0。不过,尽管只有两个点在线外,但这两个点的离线距离依然是左图中离群点的 2 倍。平方损失进一步加大差异,因此两个点的偏移量产生的损失是一个点的 4 倍。
$$ MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$$