線性迴歸:損失

損失這個數值指標會說明 模型預測結果的誤差 但實際上損失可評估模型預測與實際資料之間的距離 標籤訓練模型的目的是將損失減至最低,並降低 。

在下圖中,您可以從資料中繪製出損失箭頭,以視覺化方式呈現損失 指向模型箭頭會顯示模型預測距離 才能取得實際值

圖 9:遺失線條會將資料點連結至
模型

圖 9. 損失的計算依據是實際值和預測值。

損失距離

在統計和機器學習中,損失衡量的是 來測量預測與實際值損失的重點在於每個值之間的距離。 而不是方向例如,如果模型預測 2,但實際值 5,我們不想要損失為負 $ -3 $ ($ 2-5=-3 $)。 不過,我們會設法讓這兩個值的距離為 $ 3 $ 美元。因此 請先移除記號。

以下是兩種最常移除符號的方法:

  • 求實際值和 預測結果
  • 將實際值與預測結果之間的差異表示。

損失類型

線性迴歸中 損失主要分為四種類型 下表。

損失類型 定義 方程式
L1 流失 差額的絕對值總和 來測量預測值與實際值之間的差異 $ ∑ |實際\ 值 - 預測\值 |)
平均絕對誤差 (MAE) 一組樣本中的 L1 損失平均值。 $ \frac{1}{N} ∑ |實際\ 值 - 預測\值 |)
L2 流失 平方差總和 來測量預測值與實際值之間的差異 $ ∑(實際值 - 預測值)^2 $
平均平方錯誤 (MSE) 一組樣本中 L2 損失的平均次數。 $ \frac{1}{N} ∑ (實際\值 - 預測\值)^2 $

L1 損失與 L2 損失之間的功能差異 (或介於 MAE 和 MSE 之間) 極度嚴重。如果預測與實際結果之間的差異相當顯著 是「大型預測」和「漂綠」標籤的大型企業 讓損失更大當 極小 (小於 1) 則會讓損失更小

如要一次處理多個樣本,建議您將損失平均 無論使用 MAE 還是 MSE 都沒問題

計算損失範例

使用先前的最佳適配線, 並以單一例子計算 L2 損失。從 我們找出下列權重和偏誤值:

  • $ \small{Weight: -3.6} $
  • $ \small{Bias: 30} $

假設模型預測 2,370 磅的汽車是每加侖 21.5 英里,但 事實上,每一加侖是 24 英里,我們便會將 L2 損失計算為 如下:

方程式 結果
預測

$\small{bias + (體重 * 特徵\值)}$

$\small{30 + (-3.6*2.37)}$

$\small{21.5}$
實際值 $ \small{ label } $ $ \small{ 24 } $
L2 損失

$ \small{ (預測 - 實際\ 值)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

在這個示例中,單一資料點的 L2 損失為 6.25。

選擇損失

決定要使用 MAE 還是 MSE 取決於資料集和您 處理特定預測結果資料集中大部分的特徵值 都屬於另一個範圍舉例來說,汽車通常介於 2000 和 5000 磅,每加侖介於 8 到 50 英里之間。一輛 8,000 磅的汽車 或每加侖 100 英里的汽車,超出一般範圍, 視為異常值

離群值也可以指出模型預測結果與實際資料之間的距離 輕鬆分配獎金例如一輛 3,000 磅的汽車,或是每加侖 40 英里的汽車 在一般範圍內但 3,000 磅 以模型預測結果來說,每加侖 40 英里會是離群值 因為模型會預測 3,000 磅的車輛 每加侖 20 英里。

選擇最佳損失函式時,請考量您希望模型的處理方式 離群值不相上下例如,MSE 將模型移至離群值較高的位置,MAE 則 但實際上並非如此L2 損失會產生比異常值高很多的罰金 L1 損失。舉例來說,下列圖片顯示 以及使用 MSE 訓練的模型紅線代表 訓練模型後,將用來進行預測。離群值更接近 比較以 MSE 訓練的模型 以及透過 MAE 訓練的模型

圖 10:模型會朝離群值增加傾斜。

圖 10. 使用 MSE 訓練的模型會讓模型更接近離群值。

圖 11.模型與離群值遠遠傾斜。

圖 11. 使用 MAE 訓練的模型距離離群值遠遠。

請注意模型與資料之間的關係:

  • MSE。模型與離群值越近,但距離大部分的 其他資料點

  • MAE。模型距離離群值較遠,但與 其他資料點

驗收學習成果

我們用以下兩個圖畫為例:

10 點的圖。
      一條線經過 6 個點。2 分為 1 單位
      線上內容;其他 2 個積分是指線條下方的 1 個單位。 10 點的圖。一條線
      到 8 點之間1 點為 2 部
      線上內容;另一點是下方的 2 點。
上圖顯示兩種資料集的哪一組 是否發生「平均平方誤差」(MSE)
左邊的資料集。
線條中的六個例子導致總損失為 0。四項 有一些例子不會非常遙遠 使其偏移仍然會產生低數值:$MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
右方資料集。
線條上的八個例子總共損失 0。不過 但只有兩點會分隔開來 資料點與離群點的距離為兩倍 如左圖所示平方損失會放大這些差異 因此如果值等於 2,就會產生損失四倍 之一:$MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$