分類：準確率、喚回度、精確度和相關指標

真陽性、偽陽性、真陰性和偽陰性可用於計算多項實用指標，以評估模型。最有意義的評估指標取決於特定模型和特定工作、不同誤分類的成本，以及資料集是否平衡。

本節中的所有指標都是以單一固定門檻計算，門檻變更時，指標也會隨之變更。使用者通常會調整門檻，以最佳化其中一項指標。

準確率

準確率是指所有分類中正確的比例，無論是正向或負向。數學定義如下：

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

在垃圾郵件分類範例中，準確率會測量所有電子郵件中正確分類的比例。

如果模型完全沒有誤判或疏漏，準確度就是 1.0 或 100%。

因為準確率會納入混淆矩陣中的所有四種結果 (TP、FP、TN、FN)，所以如果資料集平衡，且兩個類別中的範例數量相近，準確率就能做為模型品質的粗略指標。因此，對於執行一般或未指定工作的通用或未指定模型，這項指標通常是預設的評估指標。

不過，如果資料集不平衡，或某種錯誤 (FN 或 FP) 的代價高於另一種錯誤 (大多數實際應用程式都是如此)，最好改為針對其他其中一項指標進行最佳化。

如果資料集嚴重不平衡，某個類別出現的頻率極低 (例如 1%)，即使模型每次都預測為負值，準確率仍可達到 99%，但實際上毫無用處。

注意： 在機器學習 (ML) 中，「召回率」、「精確度」和「準確率」等字詞具有數學定義，可能與這些字詞的常見意義不同，或更具體。

召回率或真陽率

真陽率 (TPR) 是指所有實際正類中，正確分類為正類的比例，也稱為召回率。

召回率的數學定義如下：

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

偽陰性是指實際為正類，但誤判為負類的項目，因此會出現在分母中。以垃圾郵件分類為例，召回率會測量正確分類為垃圾郵件的垃圾郵件比例。因此，召回率的另一個名稱是「偵測機率」，因為它會回答「這個模型偵測到的垃圾郵件比例是多少？」這個問題。

假設模型完全正確，則偽陰性結果為零，因此召回率 (TPR) 為 1.0，也就是說偵測率為 100%。

在實際正向數量極低的失衡資料集中，召回率是比準確度更有意義的指標，因為它衡量的是模型正確識別所有正向例項的能力。以疾病預測等應用程式為例，正確識別陽性病例至關重要。偽陰性結果通常比偽陽性結果更嚴重。如需比較喚回率和準確度指標的具體範例，請參閱喚回率定義中的附註。

偽陽率

偽陽率 (FPR) 是指所有實際為負的樣本中，錯誤分類為正的比例，也稱為誤報機率。數學定義如下：

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

偽陽性是遭誤判的實際負類，因此會出現在分母中。以垃圾郵件分類為例，FPR 會測量遭誤判為垃圾郵件的合法電子郵件比例，也就是模型的誤報率。

如果模型完全正確，偽陽性結果就會是零，因此偽陽率為 0.0，也就是說，誤報率為 0%。

對於不平衡的資料集，FPR 通常是比準確率更具參考價值的指標。不過，如果實際負面結果數量極少，FPR 可能不是理想的選擇，因為這項指標的波動性較高。舉例來說，如果資料集中只有四個實際負值，一個誤分類會導致 FPR 為 25%，而第二個誤分類則會使 FPR 跳升至 50%。在這種情況下，精確度 (下文會說明) 可能會是更穩定的指標，有助於評估偽陽性造成的影響。

精確度

精確度 是指模型所有正向分類中，實際為正向的比例。數學定義如下：

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

在垃圾郵件分類範例中，精確度會衡量歸類為垃圾郵件的電子郵件中，實際為垃圾郵件的比例。

假設模型完美無缺，偽陽性結果為零，因此精確度為 1.0。

在不平衡的資料集中，如果實際正向結果的數量非常少 (例如總共只有 1 到 2 個)，精確度做為指標的意義和實用性就會降低。

偽陽性減少時，精確度會提高；偽陰性減少時，召回率會提高。但如上一節所述，提高分類門檻通常會減少偽陽性，並增加偽陰性，而降低門檻則會產生相反的效果。因此，精確度和召回率通常呈現反向關係，也就是說，其中一項指標的改善會導致另一項指標變差。

親自試試看：

指標中的 NaN 是什麼意思？

如果除以 0，系統會顯示 NaN (非數字)，這可能發生在任何指標。舉例來說，當 TP 和 FP 皆為 0 時，精確度公式的分母為 0，因此結果為 NaN。在某些情況下，NaN 可能表示效能完美，可以替換為 1.0 分數，但也可能來自實際上毫無用處的模型。舉例來說，如果模型從未預測出正值，則 TP 和 FP 皆為 0，因此計算精確度會產生 NaN。

選擇指標和取捨

評估模型和選擇門檻時，您優先考量的指標取決於特定問題的成本、效益和風險。以垃圾郵件分類為例，優先考量召回率 (找出所有垃圾郵件) 或準確率 (確保標示為垃圾郵件的郵件確實是垃圾郵件)，或是在達到最低準確率的情況下，兼顧這兩項指標，通常是合理的做法。

指標	指引
準確率	對於平衡的資料集，可用於大致瞭解模型訓練進度/收斂情形。如要評估模型成效，請務必搭配其他指標使用。避免用於不平衡的資料集。建議改用其他指標。
喚回率 (真陽率)	如果偽陰性造成的損失大於偽陽性，請使用這項指標。
偽陽率	如果偽陽性的代價高於偽陰性，請使用這項指標。
精確度	如果正向預測的準確度非常重要，請使用這項指標。

(選用，進階) F1 分數

F1 分數是精確度和召回率的調和平均數 (一種平均值)。

數學公式如下：

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

這項指標會同時考量精確度和喚回度，對於類別不平衡的資料集，這項指標比準確度更合適。如果精確度和召回率都獲得滿分 1.0，F1 分數也會是滿分 1.0。廣義來說，當精確度和召回率的值相近時，F1 分數也會接近這些值。如果精確度和召回率相差懸殊，F1 分數會與較差的指標相似。

練習：確認理解程度

模型輸出 5 個 TP、6 個 TN、3 個 FP 和 2 個 FN。計算召回率。

0.714

召回率的計算方式如下： \(\frac{TP}{TP+FN}=\frac{5}{7}\)。

0.455

召回率會考量所有實際正向結果，而非所有正確分類。召回率的公式為 \(\frac{TP}{TP+FN}\)。

0.625

召回率會考量所有實際正向結果，而非所有正向分類。召回率的公式為 \(\frac{TP}{TP+FN}\)

模型輸出 3 個 TP、4 個 TN、2 個 FP 和 1 個 FN。計算精確度。

0.6

精確度的計算方式為 \(\frac{TP}{TP+FP}=\frac{3}{5}\)。

0.75

精確度會考量所有正向分類，而非所有實際正向分類。精確度的公式為 \(\frac{TP}{TP+FP}\)。

0.429

精確度會考量所有正向分類，而非所有正確分類。精確度的公式為 \(\frac{TP}{TP+FP}\)

您要建構二元分類器，檢查昆蟲陷阱的相片，判斷是否有危險的入侵物種。如果模型偵測到該物種，值班的昆蟲學家 (昆蟲科學家) 就會收到通知。及早發現這種昆蟲是防止蟲害的關鍵。如果發生誤報 (偽陽性)，處理方式很簡單：昆蟲學家會發現相片分類錯誤，並標示為誤報。假設準確率達到可接受的程度，應以哪項指標為模型最佳化目標？

喚回度

在這個情境中，誤報 (FP) 的成本較低，而偽陰性則成本高昂，因此盡可能提高召回率 (或偵測機率) 是合理的做法。

偽陽率 (FPR)

在這種情況下，誤報 (FP) 的成本較低。如果為了盡量減少誤報而錯過實際的陽性結果，就沒有意義了。

精確度

在這種情況下，誤報 (FP) 並不會造成特別大的危害，因此嘗試提高正向分類的正確性並無意義。

門檻和混淆矩陣 (12 分鐘)

ROC 和 AUC (10 分鐘)

分類：準確率、喚回度、精確度和相關指標 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

準確率

召回率或真陽率

偽陽率

精確度

指標中的 NaN 是什麼意思？

選擇指標和取捨

(選用，進階) F1 分數

練習：確認理解程度

分類：準確率、喚回度、精確度和相關指標