問題を理解する

この問題を理解するには、次の操作を行います。

  • 開発またはリファクタリングしているプロダクトの目標を明記します。
  • その目標が予測 ML を使用して最適に解決されるかどうかを判断する。 生成 AI、非 ML ソリューションのいずれかです。
  • モデルのトレーニングに必要なデータがあることを確認します。 説明しました

目標を述べる

まず、ML 以外の用語で目標を説明します。目標は、 「何を達成したいのか」という問いを

次の表は、架空のアプリの目標を明確に示しています。

アプリケーション 目標
天気アプリ 地域の降水量を 6 時間単位で計算します。
ファッション アプリ さまざまなデザインのシャツを生成します。
動画アプリ 役に立つ動画をおすすめする。
メールアプリ スパムを検出する。
金融アプリ 複数のニュース提供元の財務情報を要約します。
地図アプリ 移動時間を計算します。
バンキング アプリ 不正な取引を特定する。
ダイニング アプリ レストランのメニューで料理を識別する。
e コマースアプリ 役立つ回答を使ってレビューに返信しましょう。

ML の明確なユースケース

ML はすべての問題に適用できる普遍的なツールだと考える人もいます。イン ML は特定の問題のみに適した特別なツールです。マイページ よりシンプルな非 ML ソリューションがあっても、複雑な ML ソリューションを実装したくない 機能します。

ML システムは大きく 2 つのカテゴリに分類できます。 予測 ML生成 AI。次の 主な特性を次の表に示します。

入力 出力 トレーニング手法
予測 ML テキスト
画像
音声
動画
数値
予測を行います。たとえば、入力シーケンスの 明日の雨が降る可能性を推測したり、 予測するということです。 通常、出力は現実と照らし合わせて検証できます。 教師あり学習では通常、トレーニングに 強化学習モデルを使用して、トレーニング できます。
生成 AI テキスト
画像
音声
動画
数値
ユーザーの意図に基づいて出力を生成します。次に例を示します。 記事の要約や音声クリップや短い動画の作成などです 通常、大規模言語モデルのトレーニングには、多くのラベルなしデータが使用されます。 欠損データを補うこともできます。このモデルは 「空欄を埋めるタスク」として構成できるタスクの場合は 特定のタスク用にラベル付きデータでトレーニングし、 あります。

ML が適切であることを確認するには、まず ML 以外の ソリューションが最適化されますML 以外のソリューションを実装していない場合は、 モデルを使って手動で問題を解く ヒューリスティック

ML 以外のソリューションは、ML が優れたパフォーマンスであるかどうかを 適切なユースケースを特定することですデータを比較するときは アプローチです。

  • 品質。ML ソリューションはどの程度優れていると思いますか?もし ML ソリューションが小さな改善にすぎないと 考えている場合 現在のソリューションが最適なソリューションになります

  • 費用とメンテナンス。どちらのモデルも ML ソリューションの 短期と長期、場合によっては、新しいサブネットを ML の実装に必要なコンピューティング リソースと時間を確保できます。次のことを検討してください。

    • ML ソリューションで費用の増加を正当化できるかなお、 大規模なシステムで改善されたときは、費用の正当化と、 メンテナンスの負担を軽減できます。
    • ソリューションにはどの程度のメンテナンスが必要か。多くの場合、ML は 専用の長期的なメンテナンスが必要です。
    • トレーニングや採用をサポートするリソースがあるか ML の専門知識を持つ人材を 確保するにはどうすればよいでしょうか

理解度をチェックする

ML 以外のソリューションやヒューリスティックを用意することが重要なのはなぜですか。 どうすればよいでしょうか
ML 以外のソリューションは、ML ソリューションを測定するベンチマークです。
ML 以外のソリューションは、ML ソリューションにかかる費用を判断するのに役立ちます。

予測 ML とデータ

データは予測 ML の原動力です。社会を良くする 予測を使用する場合は、 予測機能を備えた特徴を含む あります。データには次の特性が必要です。

  • 豊富。より関連性が高く有用な例を、 データセットを使用する方がよい 理解できます

  • 整合性と信頼性。一貫性と信頼性を備えたデータを より良いモデルが生成されますたとえば ML ベースの気象観測データでは 同じ信頼性の高い基盤から長年にわたって収集されたデータを利用し、 あります。

  • 信頼できる。データの取得元を把握します。データは プロダクトのログなど、信頼できるソースからの 他のソースからの出力など、あまり多くの分析情報がないソースからの どうでしょうか

  • 利用可能。予測時にすべての入力を利用できることを 確認します。トレーニング中に特定の特徴値を取得するのが それらの特徴をデータセットから除外します。

  • 正解です。大規模なデータセットの場合、 ラベルの値は正しくありません。 ごく一部のラベルが正しくない場合、モデルは 予測の精度は低くなります

  • 代表者:データセットは、実際のデータセットを 考えています言い換えれば、データセットは、 現実世界のイベント、ユーザー行動、現象 モデル化します代表的なデータセットでないとトレーニングすると、パフォーマンスが低下する可能性がある モデルに実世界を予測するよう求められたとき

必要なデータを必要な形式で取得できない場合は、 学習します。

予測能力

モデルで適切な予測を行うには、データセットの特徴が 予測力です特徴とラベルの相関関係が高いほど、 重要です

一部の機能は、他の機能よりも予測能力が高くなります。たとえば、 気象データセット(cloud_coveragetemperature、 雨の予報は「moon_phase」よりも「dew_point」の方が適切です。 day_of_week。動画アプリの例では、1 つのアプリで たとえば、video_descriptionlengthviews などは、 ユーザーが見たい動画を見つけられます

注意すべき点は、コンテキストや 役立ちます。たとえば、動画アプリでは、upload_date のような機能があります。 一般的に、ラベルとの相関が弱い可能性があります。ただし、 upload_date は、ゲーム動画のサブドメインと強い相関関係がある可能性があります。 できます。

予測能力を持つ特徴の判別には時間がかかる可能性がある プロセスです特徴量の予測能力を手動で調べるには、 追加することだけです。特定の特徴の検索と検出を アルゴリズムを使用して、予測能力を ピアソン相関 調整された相互情報(AMI)、 および Shapley 値、 予測力を分析するための数値的評価を提供します feature.

理解度をチェックする

データセットを分析するときに考慮すべき 3 つの主要な属性は何ですか? 何をお探しですか?
現実世界を代表する。
正しい値が含まれている。
特徴量にはラベルに対する予測能力がある。
ローカルマシンに読み込むのに十分なサイズ。
さまざまな予測不能なソースから収集されます。

データセットの分析と準備に関する詳しいガイダンスについては、 ML のためのデータ準備と特徴量エンジニアリング

予測とアクションの比較

予測をモデルに変えることができなければ、予測に意味はありません。 役立ちます。つまり、プロダクトは 必要があります。

たとえば、ユーザーが動画に役立つと感じるかどうかを予測するモデルは、 役立つ動画をおすすめするアプリに提供します。予測を行うモデルは、 天気情報アプリにフィードするかどうかを判断できます。

理解度をチェックする

次のシナリオに基づいて、ML を使用することが最適かどうかを判断します 問題にアプローチできます

大規模な組織のエンジニアリング チームは、インフラストラクチャの管理を担当しています。 通話の着信。

目標: 保留待ちの待ち時間を発信者に知らせること 現在の通話の音量を変更できます。

今はまだ解決策は見つかっていませんが 現在の 電話に出た従業員数で 保留にしている顧客の数 10 分掛けますただし、 2 分で解決するお客様もいます 45 分以上かかる場合もあります。

このようなヒューリスティックでは、正確な数値を得られない可能性があります。。 次の列を含むデータセットを作成できます。 number_of_callcenter_phones さん、user_issue さん、 time_to_resolvecall_timetime_on_hold

ML を使用する。エンジニアリング チームの目標が明確に定義されている。相手の ヒューリスティックだけでは不十分ですデータセットが表示されます。 time_on_hold というラベルの予測特徴量を使用することになります。
ML を使用しない。目標は明確に定義されていますが 最初に ML 以外のソリューションを実装して 最適化する必要がありますまた、 予測能力を持つ特徴量がデータセットに十分でないようです。