評估成效

您如何判斷這項實作成果是否值得?您應該何時開始慶祝:模型進入實際工作環境並完成第一項預測,還是在量化業務指標開始朝正確的方向前進後?

開始專案之前,請務必確定成效指標,並就交付項目達成共識。您必須定義及追蹤以下兩種指標:

  • 業務指標:量化業務成效的指標,例如收益、點閱率或使用者人數。

  • 模型指標。量化模型品質的指標,例如均方誤差精確度喚回度

業務指標

業務指標最重要。也就是採用機器學習技術的原因 是為了提升業務績效

從可量化的產品或業務指標著手。指標應盡可能精細且聚焦。以下列舉幾個可量化且可量化的業務指標範例:

  • 降低 30% 的資料中心每月電費。
  • 將產品建議收益提高 12%。
  • 將點閱率提高 9%。
  • 將選擇接受問卷調查的客戶情緒提高 20%。
  • 將網頁停留時間增加 4%。

追蹤業務指標

如果您並未追蹤要改善的業務指標,請先實作基礎架構。如果您目前並未評估點閱率,那麼設定可提高點閱率 15% 的目標並不合理。

更重要的是,請確認您針對問題評估的是合適的指標。舉例來說,如果更重要的指標可能是透過推薦功能獲得的收益,您就不用費時撰寫檢測設備來追蹤點閱率。

隨著專案進行,您將瞭解目標成效指標實際上是否為實際目標。在某些情況下,您可能會根據定義的成效指標,判斷專案成敗。

模型指標

何時應將模型導入實際工作環境?當 AUC 位於特定值時?當模型達到特定 F1 分數時?這個問題的答案取決於您要解決的問題類型,以及您對於改善業務指標所需要的預測品質。

在決定要利用哪些指標評估模型時,請考慮以下幾點:

  • 決定單一指標進行最佳化。例如,分類模型可根據各種指標 (AUCAUC-PR 等) 來評估。當不同的指標偏好使用不同模型時,要選擇最佳模型可能並不容易。因此,您應同意單一指標來評估模型。

  • 決定要達成的可接受性目標。接受度目標與模型評估指標不同這類模型是指模型須符合的目標 才是可接受的用途舉例來說,可接受性目標可以是「輸出錯誤低於 0.1%」或「前五大類別的喚回度大於 97%」。

舉例來說,假設二元分類模型偵測到詐欺交易。其最佳化指標可能是喚回度,但可接受性目標可能是精確度。換句話說,我們會優先處理喚回度 (在大多數情況下正確識別詐欺行為),同時希望精確度維持在特定值或高於特定值 (識別真實的詐欺交易)。

模型指標和業務指標之間的連結

基本上,您要開發的模型會鼓勵預測品質與您的業務指標相關。出色的模型指標並不一定表示業務指標的改善。您的團隊可能開發具有驚人指標的模型,但模型的預測可能無法改善業務指標。

如果您對模型的預測品質感到滿意,請嘗試決定模型指標對業務指標的影響。一般來說,團隊會將模型部署至 1% 的使用者,然後監控業務指標。

舉例來說,假設您的團隊開發模型來預測客戶流失情形,藉此增加收益。理論上,如果您可以預測客戶是否可能離開平台,則能鼓勵他們繼續留在平台。

您的團隊建立預測品質達 95% 的模型,並對少數使用者進行測試。不過收益不會增加。反觀客戶流失以下列舉一些可能的原因:

  • 預測時間不夠早,無法提供可做為行動依據。這個模型只能預測客戶會在七天內流失,而後者不足以提供獎勵,無法將客戶留在平台上。

  • 功能不完整。也許其他因素導致客戶流失 不在訓練資料集內

  • 門檻不足。模型的預測品質可能需要 97% 以上,才能發揮效用。

這個簡單的範例強調了兩點:

  • 請務必執行早期使用者測試,以證明及瞭解模型指標與業務指標之間的關聯。
  • 良好的模型指標並不保證業務指標一定可以獲得改善。

生成式 AI

評估生成式 AI 的輸出內容往往是一項獨特的挑戰。在許多情況下,例如開放式或創意輸出內容,往往比評估傳統機器學習輸出內容困難。

LLM 可以透過多種指標進行評估及評估。視您的用途而定,決定要使用哪些指標評估模型。詳情請參閱 評估 LLM 簡介

注意事項

不要將模型成效與業務成效混淆。換句話說,即使模型有不良指標,並不保證業務一定能獲得成功。

許多技術純熟的工程師都能運用出色的指標建立模型,訓練足夠的模型通常不是問題。而是模型並未改善業務指標。機器學習專案可能因為業務指標和模型指標之間不一致而發動失敗。

隨堂測驗