分類:精確度與喚回度

精確度

精確度會嘗試回答下列問題:

結果中,認同比例的正確性比例為何?

精確度的定義如下:

$$\text{Precision} = \frac{TP}{TP+FP}$$

讓我們使用上一節分析滾輪的機器學習模型計算精確度:

真陽性 (TP):1 偽陽性 (FP):1
偽陰性 (FN):8 真陰性 (TN):90
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{1}{1+1} = 0.5$$

我們的模型的精確度為 0.5,換句話說,如果預測的點子為惡意性質,則有 50% 的時間正確無誤。

喚回度

喚回度會嘗試回答下列問題:

正確比例的真實性比例為何?

從數學上來說,喚回度的定義如下:

$$\text{Recall} = \frac{TP}{TP+FN}$$

讓我們為營養部分類器計算喚回度:

真陽性 (TP):1 偽陽性 (FP):1
偽陰性 (FN):8 真陰性 (TN):90
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{1}{1+8} = 0.11$$

我們的模型喚回度為 0.11,換句話說,它可以正確辨識所有 11% 的惡意檢測性。

精確度與喚回度:一戰戰爭

如要完整評估模型的效能,您必須同時檢查精確度和喚回度。遺憾的是,精確度和喚回度通常經常較緊張。也就是說,改善精確度通常會減少喚回度,反之亦然。查看下方的概念圖,其中顯示電子郵件分類模型製作的 30 個預測值。分類閾值右側的類別為「垃圾內容」,而左側則為「非垃圾內容」。

介於 0 到 1.0 之間的數字行,其中放置了 30 個範例。

圖 1. 將電子郵件分類為垃圾郵件或非垃圾郵件。

讓圖 1 根據圖 1 的結果計算精確度和喚回度:

真陽性 (TP):8 偽陽性 (FP):2
偽陰性 (FN):3 真陰性 (TN):17

精確度可評估已標記為垃圾電子郵件且已妥善分類的電子郵件百分比 (也就是圖 1 中門檻的右側右側圓點) 的百分比:

$$\text{Precision} = \frac{TP}{TP + FP} = \frac{8}{8+2} = 0.8$$

喚回度可測量已正確分類的實際垃圾郵件百分比,也就是圖 1 中閾值右邊的綠色點所佔的百分比:

$$\text{Recall} = \frac{TP}{TP + FN} = \frac{8}{8 + 3} = 0.73$$

圖 2 說明瞭增加分類門檻的影響。

同一組範例,但分類門檻稍微提高。30 個示例中的 2 個已重新分類。

圖 2. 提高分類門檻。

偽陽性的數量會減少,但偽陰性會增加。因此,精確度會增加,而喚回度會降低:

真陽性 (TP):7 偽陽性 (FP):1
偽陰性 (FN):4 真陰性 (TN):18
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{7}{7+1} = 0.88$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{7}{7 + 4} = 0.64$$

相反,圖 3 說明瞭減少分類門檻的影響 (從圖 1 的原始位置開始)。

同一組範例,但分類門檻已降低。

圖 3. 降低分類門檻。

偽陽性會增加,偽陰性會降低。因此,精確度會降低,喚回度也會提高:

真陽性 (TP):9 偽陽性 (FP):3
偽陰性 (FN):2 真陰性 (TN):16
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{9}{9+3} = 0.75$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{9}{9 + 2} = 0.82$$

我們開發了同時仰賴精確度和喚回度的各種指標。例如:F1 分數