平均二乗誤差
次の 2 つのプロットを考えてみます。
<img "units"="" 1="" 2="" <="" above="" alt="10 ポイントのプロット。8 つのポイントが 1 つのラインに沿って伸びています。および |
以下の選択肢をご確認ください。
上記のプロットで示されている 2 つのデータセットのうち、平均二乗誤差(MSE)が高いのはどちらでしょうか。
左側のデータセット。
回線上の 6 つの例の合計損失は 0 です。行内にない 4 つの例は、それほど離れていないため、オフセットを二乗してもまだ低い値になります。
$$ MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 +
0^2} {10} = 0.4$$
右側のデータセット。
この回線の 8 つの例では、合計で 0 の損失が発生します。ただし、ライン上に位置するポイントは 2 つだけですが、どちらのポイントも左側の図の外れ値から 2 倍離れています。二乗損失はそれらの差を増幅するので、2 のオフセットは 1 のオフセットの 4 倍の損失になります。
$$ MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 +
0^2} {10} = 0.8$$