使用指標評估模型

偵錯機器學習模型看似困難,但模型指標會顯示起始位置。以下各節將說明如何使用指標來評估成效。

使用模型指標評估品質

為了評估模型品質,常用的指標如下:

如需解讀這些指標的指引,請參閱機器學習當機內容的連結內容。如需特定問題的其他指引,請參閱下表。

問題 評估品質
迴歸 除了減少絕對平均正方形錯誤 (MSE) 以外,請減少標籤值的 MSE 值。舉例來說,如果您預測兩項商品的平均價格為 5 和 100,在這兩種情況下,假設 MSE 值為 5。在第一個案例中,MSE 是指平均價格的 100%,這顯然是個重大錯誤。在第二個案例中,MSE 的平均價格為平均價格的 5%,這是相當合理的錯誤。
多類別分類 如要預測少量類別,請分別查看每個類別的指標。針對許多類別進行預測時,您可以對每個類別的指標進行平均,以追蹤整體分類指標。或者,您也可以根據自己的需求,排定特定品質目標的優先順序。舉例來說,如要為圖片中的物件分類,則您可以優先考慮其他物件的優先順序。

查看重要資料切片的指標

使用高品質的模型後,模型的資料子集效能可能不佳。舉例來說,您的獨角獸預測器必須在薩哈拉沙漠和紐約市,以及任何時段都能正確預測。但是,撒哈拉沙漠的訓練資料較少。因此,您想要追蹤撒哈拉沙漠的模型品質。這類資料的子集,例如對應至撒哈拉沙漠的子集,稱為「資料片段」。您應分開監控效能特別重要或模型效能低落的資料片段。

根據您對資料的瞭解找出合適的資料片段。接著,請比較資料片段的模型指標與整個資料集的指標。檢查模型在所有資料片段中的效能,有助於移除偏誤。詳情請參閱「公平性:評估偏誤」。

使用實際指標

模型指標不一定能評估模型的實際影響。舉例來說,您可以變更超參數並增加 AUC,但這項變更對使用者體驗有何影響?如要評估實際影響,您必須定義個別指標。例如,您可以調查看到獨角獸外觀預測的使用者,確認他們是否看到獨角獸。評估實際影響可能有助於比較不同模型疊代的品質。