本頁面由 Cloud Translation API 翻譯而成。

評估成效

您如何判斷這項實作成果是否值得？您應該何時開始慶祝：模型進入實際工作環境並完成第一項預測，還是在量化業務指標開始朝正確的方向前進後？

開始專案之前，請務必確定成效指標，並就交付項目達成共識。您必須定義及追蹤以下兩種指標：

業務指標

業務指標最重要。也就是採用機器學習技術的原因是為了提升業務績效

從可量化的產品或業務指標著手。指標應盡可能精細且聚焦。以下列舉幾個可量化且可量化的業務指標範例：

如果您並未追蹤要改善的業務指標，請先實作基礎架構。如果您目前並未評估點閱率，那麼設定可提高點閱率 15% 的目標並不合理。

更重要的是，請確認您針對問題評估的是合適的指標。舉例來說，如果更重要的指標可能是透過推薦功能獲得的收益，您就不用費時撰寫檢測設備來追蹤點閱率。

隨著專案進行，您將瞭解目標成效指標實際上是否為實際目標。在某些情況下，您可能會根據定義的成效指標，判斷專案成敗。

何時應將模型導入實際工作環境？當 AUC 位於特定值時？當模型達到特定 F1 分數時？這個問題的答案取決於您要解決的問題類型，以及您對於改善業務指標所需要的預測品質。

在決定要利用哪些指標評估模型時，請考慮以下幾點：

決定單一指標進行最佳化。例如，分類模型可根據各種指標 (AUC、AUC-PR 等) 來評估。當不同的指標偏好使用不同模型時，要選擇最佳模型可能並不容易。因此，您應同意單一指標來評估模型。
決定要達成的可接受性目標。接受度目標與模型評估指標不同這類模型是指模型須符合的目標才是可接受的用途舉例來說，可接受性目標可以是「輸出錯誤低於 0.1%」或「前五大類別的喚回度大於 97%」。

舉例來說，假設二元分類模型偵測到詐欺交易。其最佳化指標可能是喚回度，但可接受性目標可能是精確度。換句話說，我們會優先處理喚回度 (在大多數情況下正確識別詐欺行為)，同時希望精確度維持在特定值或高於特定值 (識別真實的詐欺交易)。

基本上，您要開發的模型會鼓勵預測品質與您的業務指標相關。出色的模型指標並不一定表示業務指標的改善。您的團隊可能開發具有驚人指標的模型，但模型的預測可能無法改善業務指標。

如果您對模型的預測品質感到滿意，請嘗試決定模型指標對業務指標的影響。一般來說，團隊會將模型部署至 1% 的使用者，然後監控業務指標。

舉例來說，假設您的團隊開發模型來預測客戶流失情形，藉此增加收益。理論上，如果您可以預測客戶是否可能離開平台，則能鼓勵他們繼續留在平台。

您的團隊建立預測品質達 95% 的模型，並對少數使用者進行測試。不過收益不會增加。反觀客戶流失以下列舉一些可能的原因：

這個簡單的範例強調了兩點：

評估生成式 AI 的輸出內容往往是一項獨特的挑戰。在許多情況下，例如開放式或創意輸出內容，往往比評估傳統機器學習輸出內容困難。

LLM 可以透過多種指標進行評估及評估。視您的用途而定，決定要使用哪些指標評估模型。詳情請參閱評估 LLM 簡介。

不要將模型成效與業務成效混淆。換句話說，即使模型有不良指標，並不保證業務一定能獲得成功。

許多技術純熟的工程師都能運用出色的指標建立模型，訓練足夠的模型通常不是問題。而是模型並未改善業務指標。機器學習專案可能因為業務指標和模型指標之間不一致而發動失敗。