このページは Cloud Translation API によって翻訳されました。

ML 問題の枠組みの構成

予測モデルか予測モデルのいずれかを使用して ML や生成 AI のアプローチを採用している場合、問題を ML の用語で組み立てることができます。次のタスクを実行して、問題を ML の観点で捉えます。

理想的な結果とモデルの目標を定義します。
モデルの出力を特定する。
成功指標を定義する。

理想的な結果とモデルの目標を定義する

ML モデルに関係なく、理想的な結果は何ですか。つまり、どのようなタスクに同じ目標を定めるで定義したステートメントを。

行うべきことを明示的に定義することで、モデルの目標を理想的な結果に結び付ける指示を与えます。次の表に、理想的な結果と、モデルの目標は次のとおりです。

アプリ	理想的な結果	モデルの目標
天気アプリ	地域の降水量を 6 時間単位で計算します。	特定の地域の 6 時間の降水量を予測する。
ファッションアプリ	さまざまなデザインのシャツを生成します。	テキストと画像から、3 種類のシャツのデザインを生成します。テキストはスタイルと色を示し、画像はシャツ（T シャツ、ボタンアップ、ポロ）。
動画アプリ	役に立つ動画をおすすめする。	ユーザーが動画をクリックするかどうかを予測します。
メールアプリ	スパムを検出する。	メールが迷惑メールであるかどうかを予測します。
金融アプリ	複数のニュース提供元の財務情報を要約します。	分析の結果に基づいて、主要な金融動向を 50 語の要約で生成確認できます
地図アプリ	移動時間を計算します。	2 点間の移動にかかる時間を予測する。
バンキングアプリ	不正な取引を特定する。	カード所有者によって取引が行われたかどうかを予測します。
ダイニングアプリ	レストランのメニューで料理を識別する。	レストランのタイプを予測します。
e コマースアプリ	会社の製品に関するカスタマーサポートの返信を生成する。	感情分析と組織の質問文を使用して、返信を生成する説明します。

必要な出力を特定する

どのモデルタイプを選択するかは、インフラストラクチャの具体的なコンテキストと制約によって困難です。モデルの出力は、予測します。したがって、最初に回答する質問は、「問題を解決するためにどのようなアウトプットが必要か？」

何かを分類したり、数値の予測を行ったりする必要がある場合は、予測 ML を使用します。新しいコンテンツを生成したり、出力を生成したりする必要がある場合生成 AI を使用するでしょう。

次の表に、予測 ML と生成 AI の出力を示します。

**表 1.** 予測 ML
	ML システム	出力例
分類	バイナリ	メールを迷惑メールまたは迷惑メール以外に分類。
	マルチクラスの単一ラベル	画像内の動物を分類します。
	マルチクラスマルチラベル	画像内のすべての動物を分類します。
数値	一次元回帰	動画の視聴回数を予測します。
数値	多次元回帰	血圧、心拍数、コレステロール値を予測し、できます。

**表 2.** 生成 AI
モデルタイプ	出力例
テキスト	記事を要約します。ユーザーのクチコミに返信する。ドキュメントを英語から標準中国語に翻訳します。商品の説明を作成します。法的文書を分析する。
画像	マーケティング画像を作成する。写真に視覚効果を適用できます。製品デザインのバリエーションを生成する。
オーディオ	特定のアクセントで会話を生成します。特定のジャンルの短い楽曲を生成します。たとえば、ジャズ。
動画	リアルな動画を生成できます。動画映像を分析し、視覚効果を適用する。
マルチモーダル	テキストキャプション付きの動画など、複数の種類の出力を生成する。

分類

分類モデル 入力データが属するカテゴリを予測します。たとえば、入力データが A、B、C のいずれかに分類します

分類モデルによる予測が行われています。

図 1. 予測を行う分類モデル。

アプリは、モデルの予測に基づいて決定を下すことがあります。たとえば予測がカテゴリ A ならば X を行う。予測がカテゴリ B の場合 do、Y、予測がカテゴリ C の場合は Z を行います。場合によっては予測はがアプリの出力です。

商品コードはモデルの出力を使用して判断します。

図 2. 分類モデルの出力を製品コード内で使用して、決定を下します。

回帰

回帰モデルは、数値を返します

回帰モデルで予測を行います。

図 3. 数値予測を行う回帰モデル。

アプリは、モデルの予測に基づいて決定を下すことがあります。たとえば予測が範囲 A 内にあり、X を行う。予測が範囲内にある場合 B、Y を行います。予測が範囲 C に該当する場合は、Z を行います。場合によって、アプリの出力です。

製品コードはモデルの出力を使用して判断します。

図 4. 回帰モデルの出力を製品コードで使用してします。

次のシナリオを考えてみます。

キャッシュに保存する動画が表示されます。言い換えると、モデルがトレーニング動画の人気が出ると予測した場合、すぐにユーザーに配信する必要がある。宛先より効果的でコストのかかるキャッシュを使用します。その他の動画については別のキャッシュを使用しますキャッシュ保存の条件は次のとおりです。

動画の視聴回数が 50 回以上になると予測された場合、作成します。
動画の視聴回数が 30 ～ 50 回になると予測される場合は、低価格の作成します。
視聴回数が 30 回未満と予測される場合、動画をご覧ください。

あなたは、予測を行うので、回帰モデルが正しいアプローチだと考えます。数値（表示回数）です。ただし、回帰をトレーニングするときは、モデルに対して、同じ内容の 28 と 32 の予測の loss 視聴回数が 30 回の動画を対象に指定できます。言い換えれば、アプリの開発にかなりの時間を要しても、では、予測が 28 と 32 の場合は、両方の同等です

トレーニング中のモデルとその損失の評価。

図 5. 回帰モデルをトレーニングする。

回帰モデルでは、プロダクトで定義されたしきい値が認識されません。そのため、アプリケーションのわずかな違いによって、動作が使用する場合は、事前トレーニング済み回帰モデルの使用します。

このシナリオでは、分類モデルによって正しい動作が生成されます分類モデルでは 32 よりも 28 です。ある意味、分類モデルはデフォルトでしきい値を生成します。

このシナリオでは、2 つの重要なポイントを強調しています。

決定を予測します。可能であれば、アプリが実行する決定を要点をまとめますこの動画の例では、分類モデルによって分類したカテゴリが「キャッシュなし」の場合、"格安あります。「高価なキャッシュ」などですアプリの動作をモデルから隠すことで、アプリが誤った動作を起こす原因になります
問題の制約を理解する。アプリの依存関係が基づいて、それらのしきい値が固定または動的のいずれかです
- 動的しきい値: しきい値が動的な場合は、回帰モデルを使用するしきい値の制限もアプリのコードで設定します。これにより、モデルの妥当性を保ちながらしきい値を更新する説明します。
- 固定しきい値: しきい値が固定されている場合は、分類モデルを使用するしきい値制限に基づいてデータセットにラベル付けします
一般に、ほとんどのキャッシュのプロビジョニングは動的であり、しきい値は変化します。学習します。これは明らかにキャッシュの問題であるため、回帰モデルが最適な選択ですただし多くの問題では決定されるため、分類モデルが最適なソリューションになります。

別の例を見てみましょう。作成する天気アプリには、今後 6 時間の降水量をユーザーに知らせるのが理想的ですラベル precipitation_amount. を予測する回帰モデルを使用できます。

理想的な結果	理想的なラベル
お住まいの地域の降水量をユーザーに伝えましょうわかります	`precipitation_amount`

天気情報アプリの例では、ラベルが理想的な結果に直接対処しています。ただし、場合によっては、両者の間に 1 対 1 の関係がラベルが生成されます。たとえば、動画アプリでは、役立つ動画をおすすめしています。ただし、このデータセットには「 useful_to_user.

理想的な結果	理想的なラベル
役に立つ動画をおすすめする。	`?`

そのため、プロキシラベルを見つける必要があります。

プロキシラベル

プロキシラベル: データセットに含まれないラベルだけを抽出できます。プロキシラベルは、予測対象を直接測定できます動画アプリでは、ユーザーがその動画が役に立つかどうかを測定する。もし、データセットに useful 特徴があり、ユーザーが見つけたすべての動画をマークしたただし、このデータセットには含まれていないため、Google Cloud の有用性の代わりになるからです。

有用性を表すプロキシラベルは、ユーザーが共有または高評価するかどうかです。できます。

理想的な結果	プロキシラベル
役に立つ動画をおすすめする。	`shared OR liked`

プロキシラベルは必要なデータを直接測定できないため、慎重に使用する生成します。たとえば、次の表は潜在的な問題の概要を示しています。 有益な動画をおすすめするのプロキシラベル:

プロキシラベル	問題
ユーザーが「高評価」をクリックするかどうかを予測します] ボタンを離します。	ほとんどのユーザーは「高評価」をクリックしません。
動画の人気が出るかどうかを予測する。	パーソナライズされていません。人気の動画は好みでないユーザーもいます。
ユーザーが動画を共有するかどうかを予測します。	動画を共有しないユーザーもいます。動画を共有する理由好まれないことを示します。
ユーザーが再生をクリックするかどうかを予測します。	クリックベイトを最大化する。
視聴者が動画を視聴する時間を予測します。	短い動画よりも長い動画を差分で優先します。
ユーザーが動画を再視聴する回数を予測します。	「再視聴したくなる」動画を好みます。再視聴できない動画ジャンルで視聴できない動画の割合。

プロキシラベルは、理想的な結果を完全に置き換えることはできません。すべての人は潜在的な問題がありますテスト環境で問題が最も少ないものを選んで構築できます

理解度をチェックする

ある会社が、健康&ウェルビーイングアプリに ML を使用して向上しますプロキシラベルを使用して、目標を達成できるか？

はい。プロキシラベルを見つける必要があります。次のようなカテゴリ幸福度を直接測定することはできません。代わりに、費やした時間など、他の特徴に関して近似される毎週のエクササイズ、または趣味や友人と過ごす時間。

いいえ。プロキシラベルを使用する必要はありません。幸福、ウェルビーイング直接測定できます

生成

ほとんどの場合、独自の生成モデルのトレーニングは行いません。これは、独自の生成モデルを膨大なトレーニングデータと計算リソースが必要です。代わりに事前トレーニング済みの生成モデルをカスタマイズします。生成モデルを取得して、必要な出力を生成するには、次のいずれか 1 つ以上を使用する必要があります。手法：

抽出。新しい P-MAX キャンペーンを大規模なモデルの小さいバージョンを 1 つ作成し、使用するモデルを比較します生成モデルは通常、巨大で、相当なリソース（メモリや。抽出を使用すると、より小規模でリソース消費量が抑えられる大規模なモデルの性能を近似できます。
ファインチューニングまたは パラメータ効率チューニング。特定のタスクに対するモデルのパフォーマンスを改善するには、トレーニングする出力タイプの例を含むデータセットでモデルをトレーニングする。指定します。
プロンプトエンジニアリング。宛先モデルに特定のタスクを実行させるか、特定の形式で出力を生成する場合、出力の形式を指定するかの説明になります。つまり、プロンプトにタスクの実行方法を自然言語で指示できる出力の例を示しています。

たとえば、記事を短く要約したい場合は、次のとおりです。
```
Produce 100-word summaries for each article.
```
モデルに特定の読解レベルのテキストを生成させたい場合は、次のように入力します。
```
All the output should be at a reading level for a 12-year-old.
```
モデルから特定の形式で出力を生成したい場合は、出力の形式を指定します（例: 「するか、タスクのデモを行うこともできます。例を与えてあげる。たとえば、次のように入力します。
```
Translate words from English to Spanish.

English: Car
Spanish: Auto

English: Airplane
Spanish: Avión

English: Home
Spanish:______
```

抽出とファインチューニングにより、モデルの パラメータ。プロンプトエンジニアリングモデルのパラメータは更新されませんその代わり、プロンプトエンジニアリングは、プロンプトのコンテキストから目的の出力を生成する方法を学習する。

場合によっては テストデータセットを使用して、生成モデルの出力を既知の値と比較します。たとえば、モデルの要約は人間が生成した要約とモデルの要約の品質を評価します

生成 AI を使用して予測 ML を実装することもできます。分類や回帰のようなものですたとえば、自然言語に対する深い知識から、 大規模言語モデル（LLM） 予測 ML よりも優れたテキスト分類タスクが頻繁に実行される特定のタスク向けにトレーニングできます。

成功指標を定義する

ML が実装されているかどうかを判断するために使用する指標を定義する成功です。成功指標では、エンゲージメントや表示される動画の視聴など、ユーザーが適切な行動を取れるようにする便利です。成功指標はモデルの評価指標とは異なります accuracy、 precision、 再現率 AUC。

たとえば、天気アプリの成功と失敗の指標は次のように定義できます。次のとおりです。

成功	ユーザーは [雨の降る？]50% 高い確率で大幅に向上しました
失敗	ユーザーは [雨の降る？]最大 100 個おすすめします

動画アプリの指標は、次のように定義されます。

成功	ユーザーのサイト滞在時間は平均 20% 長くなっています。
失敗	ユーザーがサイトに時間を費やす時間は平均で以前より減っています。

意欲的な成功指標を定義することをおすすめします。野心的な願望はギャップを引き起こす可能性がある成功か失敗かは関係ありませんたとえば平均して 24 時間 365 日というサイト滞在時間が以前と比べて 10% 増加したのは成功でも失敗でもない。定義されていないギャップは重要ではありません。

重要なのは、モデルが近づく能力、つまり成功の定義です。たとえば、モデルの予測結果を次の質問を考えてみましょう。モデルを改善しても達成基準にどれだけ近いかたとえば、予測された単語が成功基準に近づくことはありません。たとえ完璧なモデルであっても定義します。一方、モデルの評価指標は低いものの、成功基準に近づきます。つまり、モデルを改善することで、成功に近づきます

モデルに価値があるかどうかを判断する際に考慮すべき要素改善:

不十分だが、続行する。このモデルは、時間の経過とともに大幅に改善される可能性があります。
十分に理解して続行:このモデルは、本番環境での改善の余地があります。
これで十分だが、これ以上改善できない。モデルが本番環境にある考えてみましょう
不十分で、今後もそうならないでしょう。このモデルは、トレーニングを一切行わずに済むようになります

モデルの改善を決定する際には、リソースの増加、たとえばエンジニアリング時間やコンピューティング費用など行います。

成功と失敗の指標を定義したら、次は成功と失敗の測定しますたとえば 6 つのステップで成功指標を測定できます。システム導入後数日、6 週間、6 か月のいずれかです。

失敗の指標を分析する際は、システムが失敗した理由を特定しようとします。対象モデルはユーザーがクリックする動画を予測しますがクリックベイトタイトルが推奨され始めると、減少します天気情報アプリの例では、モデルは正確な予測を雨が降るでしょうが、地域が大きすぎます。

理解度をチェックする

ファッション会社が、洋服の売り上げを伸ばしたいと考えています。ML を使用してどの服を製造するかを決めます彼らは、ファッションの種類を判断するためにモデルをトレーニングします。変更後モデルをトレーニングしたら、それをカタログに適用し、考えています

この問題を ML の用語でどのように組み立てればよいでしょうか。

理想的な結果: 製造する製品を決定します。

モデルの目標: どの衣服が含まれるかを予測します。考えています

モデル出力: バイナリ分類、in_fashion not_in_fashion

成功指標: 洋服の 70% 以上を販売するできます。

理想的な結果: 注文する生地と備品の量を決定します。

モデルの目標: 製造する各商品の数量を予測します。

モデル出力: バイナリ分類、make do_not_make

成功指標: 洋服の 70% 以上を販売するできます。

最終的な目標は、どれだけの生地と消耗品をできます。アイテムを製造する必要があるかどうかを判断するため。したがって、間違った目標に取り組んでいる

問題を理解する

モデルの実装