成果の測定

ML 実装が労力に見合ったものかどうかを判断するにはどうすればよいでしょうか。モデルが本番環境に移行して最初の予測を提供した直後ですか、それとも定量的なビジネス指標が正しい方向に変化し始めた直後ですか。

プロジェクトを開始する前に、成功指標を定義し、成果物に同意することが重要です。次の 2 種類の指標を定義して追跡する必要があります。

  • ビジネス指標。収益、クリック率、ユーザー数など、ビジネス パフォーマンスを定量化するための指標。

  • モデルの指標。モデルの品質を定量化するための指標二乗平均平方根誤差適合率再現率など)。

ビジネス指標

ビジネス指標は最も重要なものです。ML を利用するのはそのためです ビジネスを改善したいからです

まず、定量化可能な商品またはビジネスの指標から始めます。指標はできるだけ細かく焦点を絞ったものである必要があります。次に、焦点を絞った定量化可能なビジネス指標の例を示します。

  • データセンターの毎月の電気代を 30% 削減。
  • 商品のレコメンデーションによる収益が 12% 増加。
  • クリック率が 9% 向上する。
  • オプトイン アンケートによる顧客の感情を 20% 高める。
  • ページ滞在時間を 4% 伸ばす。

ビジネス指標のトラッキング

改善したいビジネス指標をトラッキングしていない場合は、まずそのようにインフラストラクチャを実装する必要があります。クリック率を現在測定していない場合、クリック率を 15% 増加させるという目標の設定は理にかなっています。

さらに重要な点は、問題に適した指標を測定していることを確認することです。たとえば、より重要な指標がレコメンデーションからの収益である可能性がある場合は、クリック率を追跡するための計測の作成に時間を費やさないでください。

プロジェクトが進むにつれて、成功指標の目標値が実際に現実的な目標であるかどうかがわかります。場合によっては、定義された成功指標からプロジェクトを実行できないと判断することもあります。

モデルの指標

モデルをいつ本番環境に投入すべきかAUC が特定の値の場合、モデルが特定の F1 スコアに達したら、この質問に対する答えは、解決する問題の種類と、ビジネス指標の改善が必要と思われる予測の品質によって異なります。

モデルを評価する指標を決定する際は、次の点を考慮してください。

  • 最適化する指標を 1 つ決定する。たとえば、分類モデルは、さまざまな指標(AUCAUC-PR など)に対して評価できます。最適なモデルを選択するのは、さまざまな指標がそれぞれ異なるモデルを選ぶ場合、困難な場合があります。そのため モデルの評価基準とする 単一の指標に合意します

  • 達成すべき許容性目標を決定する。許容性の目標は、モデル評価の指標とは異なります。ユースケースで許容されると見なされるために モデルが満たす必要がある目標を指しますたとえば、許容性の目標は、「正しくない出力が 0.1% 未満」や「上位 5 つのカテゴリの再現率が 97% を超えている」などです。

たとえば、バイナリ分類モデルで不正な取引を検出するとします。最適化指標は再現率であるのに対し、許容性の目標は適合率である可能性があります。言い換えれば、再現率(ほとんどの場合は不正行為を正しく識別する)を優先する一方で、精度は特定の値以上を維持すること(実際の不正なトランザクションを識別すること)を優先します。

モデル指標とビジネス指標の関係

基本的には、予測品質がビジネス指標と因果関係を持つモデルを開発しようとします。モデル指標が優れているからといって ビジネス指標が改善されるとは限りません優れた指標を持つモデルを開発しても、モデルの予測でビジネス指標を改善できない場合があります。

モデルの予測品質が満足のいくものになったら、モデルの指標がビジネス指標にどのように影響するかを判断します。通常、チームは 1% のユーザーにモデルをデプロイしてから、ビジネス指標をモニタリングします。

たとえば、チームが顧客のチャーンを予測して収益を増やすモデルを開発したとします。理論上は、顧客がプラットフォームの利用をやめるかどうかを予測できれば、利用を継続するよう促すことができます。

チームが、予測品質が 95% のモデルを作成し、少数のユーザーサンプルでテストします。しかし、収益は増えません。実際には顧客のチャーンが 増加します考えられる原因は次のとおりです。

  • 予測が早期に発生し、実行可能なわけではありません。このモデルは、7 日以内にのみ顧客のチャーンを予測できます。これは、プラットフォームに顧客を維持するためのインセンティブを提供するのに十分ではありません。

  • 機能が不完全である。トレーニングデータセットに含まれていなかった 他の要因が顧客離れの原因になっているかもしれません

  • しきい値が十分高くない。モデルが有効であるためには、予測品質が 97% 以上である必要がある場合があります。

この簡単な例では、2 つのポイントを強調しています。

  • 早期のユーザーテストを実施して、モデルの指標とビジネス指標とのつながりを証明(および理解)することが重要です。
  • 優れたモデル指標は、ビジネス指標の改善を保証するものではありません。

生成 AI

生成 AI の出力の評価には、特有の課題が伴います。多くの場合、自由な出力や創造的な出力など、従来の ML の出力を評価するよりも困難です。

LLM は、さまざまな指標に照らして測定、評価できます。モデルを評価する指標の決定は、ユースケースによって異なります。詳細については、 LLM の評価の概要をご覧ください。

留意点

モデルの成功とビジネスの成功を混同しないでください。つまり 際立った指標を持つモデルは ビジネスの成功を保証するものではありません

熟練したエンジニアの多くが、優れた指標を持つモデルを作成できます。通常、十分なモデルをトレーニングすることは問題ではありません。モデルによってビジネス指標が 改善されないという意味ですML プロジェクトは、ビジネス指標とモデル指標の不整合が原因で失敗する可能性があります。

理解度をチェックする