分類:準確率、喚回度、精確度和相關指標

真陽性、偽陽性和偽陰性會用於計算多項有用的評估模型指標。哪些評估指標最有意義,取決於特定模型和具體工作、不同分類錯誤的費用,以及資料集是平衡還是不平衡。

本節中的所有指標都是以單一固定門檻計算,並在門檻變更時一併變動。使用者通常會調整門檻,以便最佳化其中一個指標。

準確率

準確率是指所有分類是否正確 (無論為正與負) 所佔的比例。其數學定義如下:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

在垃圾郵件分類範例中,準確率是用來評估所有電子郵件正確分類的比例。

完美的模型不會有偽陽性和偽陰性,因此準確度為 1.0,或 100%。

它結合了混淆矩陣 (TP、FP、TN、FN) 的全部四個結果,以平衡資料集來說,兩個類別中有相似的範例,因此準確率可以做為概略的模型品質測量指標。因此,這通常是執行一般或未指定工作時,用於一般或未指定模型的預設評估指標。

不過,如果資料集不平衡,或是某種錯誤 (FN 或 FP) 的成本高於另一種錯誤,這在大多數實際應用中都會發生,建議改為針對其他指標進行最佳化。

對於極不平衡的資料集 (某個類別出現的機率極低,例如 1%),如果模型 100% 的時間都預測為負類,則模型的準確度會達到 99%,但這類模型毫無用處。

喚回度或真陽率

真陽率 (TPR),或所有實際正類正確歸類為正類的比例,也稱為喚回率

喚回度在數學上定義如下:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

偽陰性是實際的陽性個案,但被誤分類為陰性個案,因此會出現在分母中。在垃圾郵件分類範例中,回憶率是用來評估垃圾郵件中正確歸類為垃圾郵件的比例。所以另一個喚回度的名稱是「偵測可能性」的原因,它可以解答「這個模型偵測到多少比例的垃圾郵件?」這個問題的答案。

假設完美模型的偽陰性為零,則回朔率 (TPR) 為 1.0,也就是 100% 的偵測率。

在實際正例數量極低 (例如總共只有 1 到 2 個例子) 的不平衡資料集中,召回率作為指標就沒有那麼有意義,也沒有那麼實用。

偽陽率

偽陽率 (FPR) 是指所有「誤判」為陽性 (也稱為「誤判機率」) 的實際陰性所佔的比例。其數學定義如下:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

偽陽性是實際的陰性項目,但被錯誤分類,因此會出現在分母中。在垃圾郵件分類範例中,FPR 會評估誤判為垃圾郵件的合法電子郵件比例,或模型的誤報率。

完美的模型不會有偽陽性,因此 FPR 為 0.0,也就是 0% 的誤報率。

在實際負面例項數量非常少的資料集 (例如總共只有 1 到 2 個例項) 中,FPR 就沒有那麼有意義,也不太適合作為評估指標。

精確度

精確度是指模型所有正向分類中,實際為正向的比例。在數學上,它定義如下:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

在垃圾郵件分類範例中,精確度可衡量歸類為垃圾郵件的電子郵件所佔比例

假設完美模型的偽陽性為零,因此精確度為 1.0。

在實際正例數量非常低的資料集 (例如總共只有 1 到 2 個例子) 中,精確度作為指標就沒有那麼有意義和實用。

偽陽性越少,精確度就會提高;偽陰性越少,召回率就會提高。不過,如前文所述,提高分類門檻通常會減少偽陽性數量,並增加偽陰性數量,而降低門檻則會產生相反的效果。因此,精確度和喚回率通常呈現反比關係,也就是說,改善其中一個指標會使另一個指標惡化。

歡迎親自試用:

指標中的 NaN 代表什麼?

除以 0 時會顯示 NaN (「非數字」),而這可能發生在任何指標中。舉例來說,當 TP 和 FP 都為 0 時,精確度的公式分母會是 0,導致 NaN。雖然在某些情況下,NaN 可代表完美成效,且可由 1.0 分數取代,但它也可能來自實際上無用的模型。舉例來說,如果模型從未預測為正面,則 TP 和 FP 會為 0,因此精確度計算結果會為 NaN。

指標與權衡取捨

您在評估模型和選擇閾值時,選擇優先考量的指標,取決於特定問題的成本、效益和風險。在垃圾郵件分類範例中,通常會優先考量喚回率,也就是抓出所有垃圾郵件,或是精確度,也就是盡可能確保標示為垃圾郵件的電子郵件確實為垃圾郵件,或是兩者之間的平衡,也就是在某個最低準確度水準之上。

指標 指引
準確率

可用於衡量平衡資料集的模型訓練進度/收斂情形。

如要評估模型成效,請搭配其他指標使用。

請避免使用不平衡的資料集。建議您改用其他指標。

喚回率
(真陽率)
當偽陰性比偽陽性更昂貴時,請使用此選項。
偽陽率 當偽陽性比偽陰性更昂貴時,請使用此選項。
精確度 只有在必須重視正向的預測結果才能準確時,才使用此選項。

(選用、進階) F1 分數

F1 分數是精確度與喚回度的調和平均數 (一種平均值)。

從數學角度來看,這項值的計算方式如下:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

這項指標可平衡精確度和喚回率的重要性,對於類別不平衡的資料集而言,比準確度更為理想。當精確度和喚回率都達到滿分 1.0 時,F1 也會達到滿分 1.0。更廣義來說,當精確度和喚回率的值相近時,F1 也會接近這兩個值。當精確度和喚回率相差甚遠時,F1 會與較差的指標相似。

練習:檢查您的理解程度

模型輸出 5 個真陽性、6 個真陰性、3 個假陽性和 2 個假陰性。計算回收率。
0.714
Recall 的計算方式為 [\frac{TP}{TP+FN}=\frac{5}{7}]。
0.455
喚回率會考量所有實際的正面結果,而非所有正確的分類。回憶率的公式為 [\frac{TP}{TP+FN}]。
0.625
喚回度會考量所有實際的陽性,而非所有正向分類。喚回度的公式為 [\frac{TP}{TP+FN}]
模型會輸出 3 TP、4 TN、2 FP 和 1 FN。計算精確度。
0.6
精確度計算方式為 [\frac{TP}{TP+FP}=\frac{3}{5}]。
0.75
精確度會考量所有陽性分類,而非所有的真實陽性。精確度的計算公式為 [\frac{TP}{TP+FP}]。
0.429
精確度會考量所有陽性分類,而非所有正確分類。精確度的公式為 [\frac{TP}{TP+FP}]
您要建構二元分類器,檢查昆蟲陷阱的相片,找出是否有危險的入侵種。如果模型偵測到物種,則負責的鑑別學家 (昆蟲學家) 會收到通知。及早發現這種昆蟲是防止惡意行為的關鍵。偽警報 (偽陽性) 很容易處理:一旦昆蟲學家發現相片被誤分類,就會標示為偽警報。假設準確度達到可接受的程度,這項模型應針對哪項指標進行最佳化?
喚回度
在這種情況下,誤報 (FP) 的成本較低,而偽陰性則成本高昂,因此建議您盡可能提高召回率,也就是偵測的機率。
偽陽率 (FPR)
在這種情況下,誤報的成本較低。若為了減少誤報而冒著漏掉實際正例的風險,就沒有意義。
精確度
在這種情況下,誤報 (FP) 並不會造成太大傷害,因此不必特別改善正面分類的正確性。