真陽性和偽陰性可用於計算 評估模型所需的指標哪些評估指標 是否具有實質意義,取決於特定模型和特定工作、成本 不同分類錯誤的結果,以及資料集是否平衡 不平衡。
這個部分的所有指標都是以單一固定門檻計算。 並變更閾值使用者常常在 YouTube 上 最佳化其中一個指標
準確率
準確度是指 以及正確的分類是 數學模式定義為:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
就垃圾郵件分類的例子而言,準確率評估的是 哪些電子郵件正確分類?
一個完美模型不會有偽陽性和零誤報 因此準確率為 1.0 或 100%
這個架構結合了 混淆矩陣 (TP、FP、TN、FN), 兩個類別的範例數量相似 是概略的模型品質指標因此 一般或未指定模型的預設評估指標 執行一般或未指定的工作
不過,當資料集是不一致的 或是某項錯誤的成本高昂 (FN 或 FP) 因此建議您最佳化 其他指標
針對極差資料集,一個類別很少出現,例如 如果模型預測 100% 的時間會獲得 99% 分 準確度
喚回度或真陽率
真陽率 (TPR),也就是 正確類別為「陽性」 喚回度。
喚回度在數學上定義如下:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
偽陰性是指被分類為陰性結果的實際陽性 也就是分母中出現的原因在垃圾郵件分類示例中 喚回度會評估正確歸類為垃圾郵件的垃圾郵件 垃圾內容。這就是召回的另一個名稱是「偵測可能性」的原因: 回答「此服務偵測到的垃圾郵件比例是多少?」 嗎?」
假設有一個完美模型,偽陰性的情形會是零 喚回度 (TPR) 等於 1.0,也就是偵測到 100% 的機率
在不平衡的資料集中,實際正數數非常高 低,例如總共 1 到 2 個範例,喚回度會不夠有意義且較不實用 視為指標
偽陽率
偽陽率 (FPR) 是指所有分類錯誤的實際排除項目所佔比例 ,也稱為誤報的機率。是 數學模式定義為:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
偽陽性是指實際遭分類錯誤的陰性, 第一個字詞在垃圾郵件分類範例中,FPR 會評估 遭誤歸類為垃圾郵件的正常電子郵件 會偵測出錯誤警示的頻率
一個完美模型不會有偽陽性,因此 FPR 為 0.0 不等於誤報率為 0%
在不平衡的資料集中,實際陰性數非常高 低,FPR 的意義不如 1 到 2 個範例,反而較不實用、較不實用 視為指標
精確度
精確 是模型所有預測結果在 但其實是正面的它在數學上定義如下:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
在垃圾郵件分類的範例中,精確度評估了電子郵件的比例 歸類為垃圾內容,實際上卻是垃圾內容。
假設有個完美的模型,不會有偽陽性的情形 精確度為 1.0
在不平衡的資料集中,實際正數數非常高 低,例如總共 1 到 2 個範例,精確度不具有意義,也較不實用 視為指標
精確度提高隨著偽陽性減少,而喚回度提高 偽陰性越低。但如上一節所述,增加 分類門檻通常會減少偽陽性數量 增加偽陰性數量,而降低門檻則有 就會產生相反效果因此,精確度和喚回度通常會以逆運算法呈現 即便是改善其中一個關係,也會讓其中一個變差。
親自試試:
這些指標代表 NaN 是什麼意思?
NaN 或「不是數字」除以 0 的時候,就可能會發生 查看以上任何指標舉例來說,當 TP 和 FP 皆為 0 時, 精確度公式的分母為 0,因此得出 NaN。雖然 在某些情況下,NN 代表成效相當完美,而且可能會 但 1.0 的分數可能也來自 毫無用處例如,從未預測為陽性的模型會有 0 TP 和 0 FP,因此計算其精確度會導致 NaN。
指標與權衡取捨
您在評估模型時選擇優先採用的指標 選擇門檻時,費用、優點和風險 特定問題。以垃圾郵件分類的例子來說 應優先喚回度、為所有垃圾郵件命名,或者精確地 嘗試確定有標籤的電子郵件確實是垃圾郵件 平衡點,高於某個最低精確度
指標 | 指引 |
---|---|
準確率 | 做為模型的粗略指標 平衡資料集的訓練進度/對話。 如果想要提升模型成效,請只與其他指標搭配使用。 請避免使用不平衡的資料集。建議改用其他指標。 |
喚回度 (真陽率) |
偽陰性較大時使用 但成本比偽陽性來得高 |
偽陽率 | 偽陽性為時使用 要比偽陰性還要高 |
精確度 | 適用時機 準確預測出準確的結果 |
(選用,進階) F1 分數
F1 分數是調和平均值 ( 例如平均類型) 和精確度
就數學上來說,它的業主是:
這項指標在兼顧精確度與喚回度的重要性 最好是模型平衡資料集的準確率。精確時 記得兩者都有 1.0 的完美分數,F1 也會有完美的分數 1.0 版。廣義來說,當精確度與喚回度相近時,F1 將 最接近他們的價值如果精確度和喚回度相差甚遠,F1 就會 表示兩者表現較差的指標