本頁面由 Cloud Translation API 翻譯而成。

分類：準確率、喚回度、精確度和相關指標

真陽性、偽陽性和偽陰性可用於計算評估模型的多項實用指標。最有意義的評估指標取決於特定模型和特定工作、不同錯誤分類的成本，以及資料集是否平衡或不平衡。

本節中的所有指標都是以單一固定門檻計算，並在門檻變更時一併變更。使用者通常會調整閾值，以便最佳化其中一個指標。

準確率

準確率是指所有分類 (無論是正確或錯誤) 正確的比例。其數學定義如下：

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

在垃圾郵件分類範例中，準確度是用來評估所有電子郵件正確分類的比例。

完美的模型不會有偽陽性和偽陰性，因此準確度為 1.0，或 100%。

由於準確度會納入混淆矩陣的所有四種結果 (TP、FP、TN、FN)，因此在平衡資料集的情況下，兩個類別的範例數量相近，準確度可做為粗略評估模型品質的指標。因此，這通常是執行一般或未指定工作時，用於一般或未指定模型的預設評估指標。

不過，如果資料集不平衡，或是某種錯誤 (FN 或 FP) 的成本高於另一種錯誤，這在大多數實際應用中都會發生，建議改為針對其他指標進行最佳化。

對於極不平衡的資料集 (某個類別出現的機率極低，例如 1%)，如果模型 100% 的時間都預測為負類，則準確度會達到 99%，但這類模型毫無用處。

喚回率或真陽率

真陽率 (TPR)，或所有實際正類正確歸類為正類的比例，也稱為喚回率。

回憶的數學定義如下：

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

偽陰性是實際的陽性個案，但被誤分類為陰性個案，因此會出現在分母中。在垃圾郵件分類範例中，回憶率是用來評估垃圾郵件中正確歸類為垃圾郵件的比例。因此，回憶率的另一個名稱是「偵測機率」：它可回答「這個模型偵測到的垃圾郵件有多少比例？」

假設完美模型的偽陰性率為零，則回朔率 (TPR) 為 1.0，也就是 100% 的偵測率。

在實際正例數量極低的不平衡資料集中，喚回率比準確度更有意義，因為它可評估模型正確識別所有正例的能力。對於疾病預測等應用程式而言，正確識別陽性病例至關重要。偽陰性通常會導致比偽陽性更嚴重的後果。如需比較喚回率和準確度指標的具體範例，請參閱喚回率定義中的附註。

偽陽率

偽陽率 (FPR) 是指所有實際陰性項目中錯誤歸類為陽性的比例，也稱為誤報機率。其數學定義如下：

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

偽陽性是實際的陰性項目，但被誤分類，因此會出現在分母中。在垃圾郵件分類範例中，FPR 會評估誤判為垃圾郵件的合法電子郵件比例，或模型的誤報率。

完美的模型偽陽率為零，因此 FPR 為 0.0，也就是 0% 的誤報率。

在實際負面例項數量極低 (例如總共只有 1 到 2 個例項) 的不平衡資料集中，FPR 就沒有太大意義，也不適合作為指標。

精確度

精確度是指模型所有正向分類中，實際為正向分類的比例。其數學定義如下：

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

在垃圾郵件分類範例中，精確度是指實際上為垃圾郵件的電子郵件中，歸類為垃圾郵件的郵件比例。

假設完美模型的偽陽性為零，因此精確度為 1.0。

在實際正例數量極低 (例如總共只有 1 到 2 個例子) 的資料不平衡情況下，精確度就沒有那麼有意義，也不太適合作為指標。

偽陽性越少，精確度就會提高；偽陰性越少，召回率就會提高。不過，如前文所述，提高分類門檻通常會減少偽陽性數量，並增加偽陰性數量，而降低門檻則會產生相反的效果。因此，精確度和喚回率通常呈現反比關係，也就是說，改善其中一個會導致另一個惡化。

歡迎親自試用：

指標中的 NaN 代表什麼？

除以 0 時會顯示 NaN (「非數字」)，這可能會發生在任何指標中。舉例來說，當 TP 和 FP 都為 0 時，精確度的公式分母會是 0，導致 NaN。雖然在某些情況下，NaN 可代表完美效能，且可由 1.0 分數取代，但它也可能來自實際上無用的模型。舉例來說，如果模型從未預測為正面，則 TP 和 FP 為 0，因此精確度計算結果會為 NaN。

選擇指標和權衡

您在評估模型和選擇門檻時，選擇要優先考量的指標，取決於特定問題的成本、效益和風險。在垃圾郵件分類範例中，通常會優先考量喚回率，也就是抓出所有垃圾郵件，或是精確度，也就是盡可能確保標示為垃圾郵件的電子郵件確實為垃圾郵件，或是兩者之間的平衡，也就是在某個最低準確度水準之上。

指標	指引
準確率	可用於衡量平衡資料集的模型訓練進度/收斂情形。如要評估模型成效，請搭配其他指標使用。不建議用於不平衡的資料集。建議您改用其他指標。
喚回率 (真陽率)	當偽陰性比偽陽性更昂貴時，請使用此選項。
偽陽率	當偽陽性比偽陰性更昂貴時，請使用此選項。
精確度	當正面預測結果的準確度非常重要時，請使用此選項。

(選用、進階) F1 分數

F1 分數是精確度與喚回度的調和平均數 (一種平均值)。

從數學角度來看，這項值的計算方式如下：

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

這項指標可平衡精確度和喚回率的重要性，對於類別不平衡的資料集而言，比準確度更為理想。當精確度和召回率都獲得滿分 1.0 時，F1 也會獲得滿分 1.0。更廣義來說，當精確度和召回率的值相近時，F1 也會接近這兩個值。當精確度和召回率相差甚遠時，F1 會與較差的指標相似。

練習：檢查您的理解程度

模型輸出 5 個真陽性、6 個真陰性、3 個假陽性和 2 個假陰性。計算回憶率。

0.714

回憶的計算方式為 \(\frac{TP}{TP+FN}=\frac{5}{7}\)。

0.455

喚回率會考量所有實際的正面結果，而非所有正確的分類。回憶公式為 \(\frac{TP}{TP+FN}\)。

0.625

喚回率會考量所有實際正面案例，而非所有正面分類。回憶率的公式為 \(\frac{TP}{TP+FN}\)

模型輸出 3 個真陽性、4 個真陰性、2 個假陽性和 1 個假陰性。計算精確度。

0.6

精確度的計算方式為 \(\frac{TP}{TP+FP}=\frac{3}{5}\)。

0.75

精確度會考量所有正面分類，而非所有實際正面分類。精確度的公式為 \(\frac{TP}{TP+FP}\)。

0.429

精確度會考量所有陽性分類，而非所有正確分類。精確度的公式為 \(\frac{TP}{TP+FP}\)

您要建構二元分類器，檢查昆蟲陷阱的相片，找出是否有危險的入侵種。如果模型偵測到該物種，會通知值勤的昆蟲學家 (昆蟲科學家)。及早偵測這類蟲害，是防止蟲害蔓延的關鍵。偽警報 (偽陽性) 很容易處理：一旦昆蟲學家發現相片被誤分類，就會標示為偽警報。假設準確度達到可接受的程度，這個模型應針對哪項指標進行最佳化？

喚回度

在這種情況下，誤報 (FP) 的成本較低，而偽陰性則成本高昂，因此建議您盡可能提高召回率，也就是偵測的可能性。

偽陽率 (FPR)

在這種情況下，誤報的成本較低。試圖減少這些風險，但可能會錯過實際的正面結果，這並不合理。

精確度

在這種情況下，誤報 (FP) 並不會造成太大傷害，因此不必特別改善正面分類的正確性。

門檻和混淆矩陣 (12 分鐘)

ROC 和 AUC (10 分鐘)