分類:準確率、喚回度、精確度和相關指標

真陽性和偽陰性可用於計算 評估模型所需的指標哪些評估指標 是否具有實質意義,取決於特定模型和特定工作、成本 不同分類錯誤的結果,以及資料集是否平衡 不平衡。

這個部分的所有指標都是以單一固定門檻計算。 並變更閾值使用者常常在 YouTube 上 最佳化其中一個指標

準確率

準確度是指 以及正確的分類是 數學模式定義為:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

就垃圾郵件分類的例子而言,準確率評估的是 哪些電子郵件正確分類?

一個完美模型不會有偽陽性和零誤報 因此準確率為 1.0 或 100%

這個架構結合了 混淆矩陣 (TP、FP、TN、FN), 兩個類別的範例數量相似 是概略的模型品質指標因此 一般或未指定模型的預設評估指標 執行一般或未指定的工作

不過,當資料集處於平衡狀態時 或是某項錯誤的成本高昂 (FN 或 FP) 因此建議您最佳化 其他指標

針對極差資料集,一個類別很少出現,例如 如果模型預測 100% 的時間會獲得 99% 分 準確度

喚回度或真陽率

真陽率 (TPR),也就是 正確類別為「陽性」 喚回度

喚回度在數學上定義如下:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

偽陰性是指被分類為陰性結果的實際陽性 也就是分母中出現的原因在垃圾郵件分類示例中 喚回度會評估正確歸類為垃圾郵件的垃圾郵件 垃圾內容。這就是召回的另一個名稱是「偵測可能性」的原因: 回答「此服務偵測到的垃圾郵件比例是多少?」 嗎?」

假設有一個完美模型,偽陰性的情形會是零 喚回度 (TPR) 等於 1.0,也就是偵測到 100% 的機率

在不平衡的資料集中,實際正數數非常高 低,例如總共 1 到 2 個範例,喚回度會不夠有意義且較不實用 視為指標

偽陽率

偽陽率 (FPR) 是指所有分類錯誤的實際排除項目所佔比例 ,也稱為誤報的機率。是 數學模式定義為:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

偽陽性是指實際遭分類錯誤的陰性, 第一個字詞在垃圾郵件分類範例中,FPR 會評估 遭誤歸類為垃圾郵件的正常郵件 會偵測出錯誤警示的頻率

一個完美模型不會有偽陽性,因此 FPR 為 0.0 不等於誤報率為 0%

在不平衡的資料集中,實際陰性數非常高 低,FPR 的意義不如 1 到 2 個範例,反而較不實用、較不實用 視為指標

精確度

精確 是模型所有預測結果在 但其實是正面的它在數學上定義如下:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

在垃圾郵件分類的範例中,精確度評估了電子郵件的比例 歸類為垃圾內容,實際上卻是垃圾內容。

假設有個完美的模型,不會有偽陽性的情形 精確度為 1.0

在不平衡的資料集中,實際正數數非常高 低,例如總共 1 到 2 個範例,精確度不具有意義,也較不實用 視為指標

精確度提高隨著偽陽性減少,而喚回度提高 偽陰性越低。但如上一節所述,增加 分類門檻通常會減少偽陽性數量 增加偽陰性數量,而降低門檻則有 就會產生相反效果因此,精確度和喚回度通常會以逆運算法呈現 即便是改善其中一個關係,也會讓其中一個變差。

指標與權衡取捨

您在評估模型時選擇優先採用的指標 選擇門檻時,需視費用、優點和風險而定 特定問題。以垃圾郵件分類的例子來說 應優先喚回度、為所有垃圾郵件命名,或者精確地 嘗試確定有標籤的電子郵件確實是垃圾郵件 平衡點,高於某個最低精確度

指標 指引
準確率

做為模型的粗略指標 平衡資料集的訓練進度/對話。

如果想要提升模型成效,請只與其他指標搭配使用。

請避免使用不平衡的資料集。建議改用其他指標。

喚回度
(真陽率)
偽陰性較大時使用 但成本比偽陽性來得高
偽陽率 偽陽性為時使用 要比偽陰性還要高
精確度 適用時機 準確預測出準確的結果

(選用,進階) F1 分數

F1 分數是調和平均值 ( 例如平均類型) 和精確度

就數學上來說,它的業主是:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

這項指標在兼顧精確度與喚回度的重要性 最好是模型平衡資料集的準確率。精確時 記得兩者都有 1.0 的完美分數,F1 也會有完美的分數 1.0 版。廣義來說,當精確度與喚回度相近時,F1 將 最接近他們的價值如果精確度和喚回度相差甚遠,F1 就會 表示兩者表現較差的指標

練習:隨堂測驗

模型會輸出 5 TP、6 TN、3 FP 和 2 FN。計算喚回度。
0.714 版
喚回度的計算方式為 [\frac{TP}{TP+FN}=\frac{5}{7}]。
0.455
喚回度會考量所有真陽性,不一定所有正確 例如單一語句分類喚回度的公式為 [\frac{TP}{TP+FN}]。
0.625
喚回度會考量所有真陽性,而非所有正向 例如單一語句分類喚回度的公式為 [\frac{TP}{TP+FN}]
模型會輸出 3 TP、4 TN、2 FP 和 1 FN。計算精確度。
0.6
精確度的計算方式為 [\frac{TP}{TP+FP}=\frac{3}{5}]。
0.75
精確度會考量所有陽性分類,而非所有 才能獲得實際正向的影響精確度的公式為 [\frac{TP}{TP+FP}]。
0.429
精確度會考量所有陽性分類,而非所有 正確分類精確度的公式為 [\frac{TP}{TP+FP}]
您正在建構用於檢查昆蟲陷阱相片的二進位分類器 ,以瞭解是否存在危險的入侵物種如果模型偵測到 就能通知該物種的原生生物學家 (昆蟲學家) 將收到通知。提早 對預防這種昆蟲而言至關重要A 罩杯 虛假警報 (偽陽性) 很容易應對:腫瘤學家發現 相片遭到分類錯誤,因此予以標示。假設 請問這個模型應該針對哪一項指標進行最佳化?
喚回度
在此情境中,誤報 (FP) 成本低廉,而 false 負面觀感的成本很高,因此要最大化喚回度,或 偵測。
偽陽率 (FPR)
在這種情況下,誤報 (FP) 成本低廉。而立人生 以免錯失實際正面影響 感覺。
精確度
在此情境中,假警報 (FP) 不會特別重要 所以試著提高陽性分類的正確性 這些錯誤。