「準確率」是用來評估分類模型的一項指標。非正式地,準確率是指模型中預測結果的正確比例。正式上來說,準確率定義如下:
以二元分類來說,準確率也可以以正數和負數來計算,如下所示:
其中 TP = True Positives、TN = True 負值,FP = False 正面,以及 FN = 偽陰性。
讓我們為下列模型分類準確率為 100 的「惡意性」(正類) 或「benign」(負面類別) 的準確率:
真陽性 (TP):
|
偽陽性 (FP):
|
偽陰性 (FN):
|
真陰性 (TN):
|
準確率達 0.91 或 91% (共有 110 個正確樣本,共 91 個)。這意味著我們的口腔分類器非常擅長找出不失真的問題,對吧?
事實上,讓我們進一步分析正數和負向,以深入瞭解模型的效能。
在這 100 份腫瘤示例中,有 91 份是良性 (90 TN 和 1 FP ),9 則是不惡意的 (1 TP 和 8 FN)。
在 91 個良性腫瘤中,模型將 90 正確識別為良性。太好了!但是,在 9 個卵巢的親友中,模型只會將 1 視為正確的題材,結果雖然讓人難以置信,因為 9 名孕婦中有 8 人未經診斷!
雖然 91% 的準確率在乍看之下可能還不錯,但另一個穩定分類模型換句話說,如果模型的預測性特徵沒有零量凸顯性,結果就特別重要。
單獨使用準確率時,當您使用類別不平衡資料集 (如這類資料集) 有正向和負面標籤的數量之間存在顯著差異時,不必說完整故事。
在下一節中,我們會查看兩個更完善的指標,用於評估類別的不平衡問題:精確度和喚回度。