成果の測定

ML の実装が労力に見合うものだったかどうかを判断するにはどうすればよいでしょうか?モデルが本番環境に移行して最初の予測を行った直後、または定量的なビジネス指標が正しい方向に動き始めた後でのみ、祝うべきでしょうか?

プロジェクトを開始する前に、成功指標を定義し、成果物について合意することが重要です。次の 2 種類の指標を定義して追跡する必要があります。

  • ビジネス指標。収益、クリック率、ユーザー数など、ビジネス パフォーマンスを定量化するための指標。

  • モデルの指標。モデルの品質を定量化するための指標(二乗平均平方根誤差、適合率、再現率など)。

ビジネス指標

ビジネス指標が最も重要です。ビジネスの改善が ML を使用する理由です。

定量化可能なプロダクト指標またはビジネス指標から始めます。指標は、できるだけ粒度が細かく、焦点を絞ったものにする必要があります。以下に、焦点を絞った測定可能なビジネス指標の例を示します。

  • データセンターの毎月の電気代を 30% 削減します。
  • 商品レコメンデーションによる収益を 12% 増加させる。
  • クリック率が 9% 向上します。
  • オプトイン アンケートの顧客感情を 20% 向上させる。
  • ページ滞在時間を 4% 増加させます。

ビジネス指標のトラッキング

改善したいビジネス指標をトラッキングしていない場合は、まずそのためのインフラストラクチャを実装します。クリック率を 15% 向上させるという目標を設定しても、クリック率を測定していない場合は意味がありません。

最も重要なのは、問題に適した指標を測定することです。たとえば、より重要な指標がレコメンデーションによる収益である場合は、クリック率をトラッキングするためのインストルメンテーションの作成に時間を費やさないでください。

プロジェクトが進むにつれて、目標の成功指標が実際に現実的な目標であるかどうかがわかります。場合によっては、定義された成功指標に基づいて、プロジェクトが実現可能でないと判断することもあります。

モデルの指標

モデルを本番環境に導入するタイミングはいつですか?AUC が特定の値になったとき。モデルが特定の F1 スコアに達したとき。この質問の答えは、解決する問題の種類と、ビジネス指標を改善するために必要な予測の品質によって異なります。

モデルの評価に使用する指標を決定する際は、次の点を考慮してください。

  • 最適化する単一の指標を決定します。たとえば、分類モデルはさまざまな指標(AUCAUC-PR など)に対して評価できます。異なる指標が異なるモデルを推奨している場合、最適なモデルを選択するのは難しいことがあります。そのため、モデルの評価に使用する単一の指標について合意します。

  • 達成すべき許容目標を決定します。許容目標は、モデル評価指標とは異なります。これは、モデルが目的のユースケースで許容されるために満たす必要のある目標を指します。たとえば、許容目標は「誤った出力が 0.1% 未満」や「上位 5 つのカテゴリの再現率が 97% を超える」などです。

たとえば、バイナリ分類モデルが不正な取引を検出するとします。最適化指標は再現率、許容目標は適合率になる可能性があります。つまり、再現率(ほとんどの場合に不正行為を正しく特定する)を優先しつつ、適合率(実際の不正な取引を特定する)を特定の値以上に維持したいということです。

モデル指標とビジネス指標の関係

基本的には、予測の品質がビジネス指標と因果関係で結びついているモデルを開発しようとしています。優れたモデル指標は、必ずしもビジネス指標の改善を意味するものではありません。チームが優れた指標を持つモデルを開発しても、モデルの予測がビジネス指標の改善に結びつかないことがあります。

モデルの予測品質に満足したら、モデルの指標がビジネス指標にどのように影響するかを判断します。通常、チームはユーザーの 1% にモデルをデプロイし、ビジネス指標をモニタリングします。

たとえば、顧客の離反を予測して収益を増やすモデルをチームが開発するとします。理論的には、顧客がプラットフォームを離れる可能性が高いかどうかを予測できれば、顧客にプラットフォームに留まるよう促すことができます。

チームは 95% の予測品質のモデルを作成し、少数のユーザー サンプルでテストします。ただし、収益は増加しません。顧客離れが実際に増加します。考えられる原因は次のとおりです。

  • 予測が早すぎて、アクションを起こすことができない。モデルは 7 日以内の顧客離反しか予測できないため、顧客をプラットフォームに留めるためのインセンティブを十分に早く提供できません。

  • 不完全な機能。トレーニング データセットに含まれていない他の要因が顧客の離反に影響している可能性があります。

  • しきい値が十分に高くない。モデルが有用であるためには、予測品質が 97% 以上である必要がある場合があります。

この簡単な例では、次の 2 つのポイントが強調されています。

  • モデルの指標とビジネス指標の関連性を証明(および理解)するために、早期のユーザー テストを実施することが重要です。
  • モデル指標が優れていても、ビジネス指標が改善されるとは限りません。

生成 AI

生成 AI の出力を評価するには、固有の課題があります。多くの場合、自由回答形式やクリエイティブな出力など、従来の ML 出力を評価するよりも困難です。

LLM は、さまざまな指標に対して測定および評価できます。モデルの評価に使用する指標は、ユースケースによって異なります。

留意点

モデルの成功とビジネスの成功を混同しないでください。つまり、指標が優れているモデルがビジネスの成功を保証するわけではありません。

多くの熟練したエンジニアは、優れた指標を持つモデルを作成できます。通常、十分なモデルのトレーニングは問題になりません。モデルがビジネス指標を改善しないということです。ビジネス指標とモデル指標の不一致により、ML プロジェクトが失敗する可能性があります。

理解度チェック

明確なビジネス上の問題があり、LLM をカスタマー サポート エージェントとして使用するための明確なソリューションがある。ソリューションが成功したかどうかを測定するには、どうすればよいですか?
サポート スタッフの介入を必要とする解決済みのサポートケースの数が 72% から 50% に減少します。
正解です。これは、追跡可能な定量的なビジネス指標です。
LLM の評価指標が常に高い。
モデル指標が良好であっても、ビジネス指標が改善されるとは限りません。
初期のユーザー テストからのフィードバックは非常に好意的です。
初期のユーザー フィードバックは、通常、定量的というより定性的です。成功を測定するための定量化可能なビジネス指標を決定する必要があります。