線形回帰: 損失

損失は モデルの予測がどれだけ間違っているか あります損失は、モデルの予測値と実際の値の間の できます。モデルのトレーニングの目標は、損失を最小化して、 選択されます。

次の画像では、損失をデータから引き出された矢印として可視化できます。 モデルを指します。矢印は、モデルの予測がどれだけの 使用します。

図 9. 損失線はデータポイントを
モデルです。

図 9. 損失は、実際の値から予測値まで測定されます。

損失の距離

統計と ML では、損失は損失が 予測値と正解値が含まれます。損失は値間の距離に着目します。 方向ではありません。たとえば、モデルは 2 と予測したものの、実際の値は 損失が負の $ -3 $($ 2-5=-3 $)であることには関係ありません。 代わりに、値間の距離が $ 3 $ になるようにします。したがって、 損失を計算するメソッドでは符号を除去します。

標識を削除する最も一般的な方法は次の 2 つです。

  • 実際の値と予測値の間の差の絶対値を取り、 できます。
  • 実際の値と予測値の差を 2 乗する

損失の種類

線形回帰には主に 4 種類の損失があります。 表します

損失タイプ 定義 計算式
L1 損失 差の絶対値の和 予測値と正解値の差を測定します。 $ Σ |実際の値 - 予測値 |ドル
平均絶対誤差(MAE) 一連のサンプル全体における L1 損失の平均。 $ \frac{1}{N} ∑ |実際の値 - 予測値 |ドル
L2 損失 差の 2 乗の和 予測値と正解値の差を測定します。 $ Σ(実際の値 - 予測値)^2 $
平均二乗誤差(MSE) 一連のサンプル全体における L2 損失の平均。 $ \frac{1}{N} Σ(実際の値 - 予測値)^2 $

L1 損失と L2 損失の関数の違い (または MAE と MSE の間)は 2 乗です。予測値と正解値の 予測とラベルが大きい場合、二乗すると損失がさらに大きくなります。リリースを 差が小さい(1 未満)場合、2 乗することで損失はさらに小さくなります。

複数のサンプルを一度に処理する場合は、損失を平均化することをおすすめします。 MAE と MSE のどちらを使用した場合でも

損失の計算例

前述の最適な線を使用して、 1 つの例について L2 損失を計算します。取得元: 重みとバイアスの値は次のとおりです。

  • $ \small{重量: -3.6} $
  • $ \small{バイアス: 30} $

重さが 2,370 ポンドの自動車が 1 ガロンあたり 21.5 マイルになるとモデルが予測したが、 1 ガロンあたり 24 マイルの場合、L2 の損失は次のように計算されます。 次のようになります。

計算式 結果
予測

$\small{バイアス + (重み × 特徴値)}$

$\small{30 + (-3.6×2.37)}$

$\small{21.5}$
実際の値 $ \small{ label } $ $ \small{ 24 } $
L2 損失

$ \small{ (予測 - 実際の\値)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

この例では、その単一のデータポイントの L2 損失は 6.25 です。

損失の選択

MAE と MSE のどちらを使用するかは、データセットと 特定の予測を処理したい場合に使用します通常、データセットのほとんどの特徴値 識別しますたとえば、自動車は通常 2000 ~ 5,000 ポンドで、1 ガロンあたり 8〜50 マイルになります。8,000 ポンドの自動車、 燃費が一般的な範囲外で 外れ値とみなされます。

外れ値とは、モデルの予測が実際の値からどれくらいかけ離れているかを示すこともできます。 使用できます。例: 3,000 ポンドの自動車や 1 ガロンあたり 40 マイルの自動車を 一般的な範囲内にありますしかし、1,800 kg の モデルの予測という点では、1 ガロンあたり 40 マイルが外れ値になります。 モデルは、重量 3,000 ポンドの自動車が 18 ~ 20 kg の 1 ガロンあたり 20 マイル。

最適な損失関数を選択する際は、モデルでどのように扱うべきかを考慮する 外れ値。たとえば、MSE はモデルを外れ値に向ける傾向があり、MAE では ありません。L2 の損失では、外れ値に対するペナルティが L1 損失。たとえば、次の画像は、事前トレーニング済みモデルで トレーニングしたモデルを比較します。赤い線は完全な トレーニング済みモデルを定義します。外れ値は次の値に近い MAE でトレーニングされたモデルよりも、MSE でトレーニングされたモデルの方がはるかに

図 10. モデルは外れ値に近づくほど傾いています。

図 10. MSE でトレーニングされたモデルは、モデルを外れ値に近づけます。

図 11. モデルは外れ値からさらに遠くに傾いています。

図 11. MAE でトレーニングされたモデルは外れ値から遠く離れています。

モデルとデータの関係に注目してください。

  • MSE。モデルは外れ値に近いが、ほとんどのほとんどの値から離れている 出力できます。

  • MAE:モデルは外れ値から遠く離れているが、ほとんどの外れ値に近い 出力できます。

理解度をチェックする

次の 2 つのプロットについて考えてみましょう。

10 ポイントのプロット。
      線は 6 つのポイントを通る。2 ポイントは 1 単位
      行の上に重ねて入力します他の 2 つのポイントは、線より 1 単位下にあります。 10 ポイントのプロット。路線が通る
      示されています1 ポイントは 2 単位
      行の上に重ねて入力します他の 1 つのポイントは線より 2 単位下にあります。
上のプロットに示した 2 つのデータセットのうち、どちらを使用するでしょうか。 平均二乗誤差(MSE)が大きい
左側のデータセットは
直線上の 6 つの例では、合計損失は 0 になります。4 つの ここにない例はすぐに外れないため、 オフセットを二乗しても低い値が得られます。 $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
右のデータセットは
直線上の 8 つの例では、合計損失は 0 になります。ただし、 2 つのポイントしか使えません ポイントが外れ値ポイントの 2 倍離れている 表します。二乗損失はこうした差を増幅し オフセットが 2 の場合、オフセットの 4 倍の損失が発生します。 $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$