AutoML: スタートガイド

AutoML の使用を検討している場合 AutoML がどのように使用されるかについて いくつかの機能を紹介しますこのセクションでは 説明し、AutoML の仕組みを確認し、そのプロセスが プロジェクトで AutoML を使い始める前に行う必要がある内容について説明します。

AutoML ツール

AutoML のツールは、次の 2 つの主要カテゴリに分類されます。

  • コーディングが不要なツールは通常、ウェブ アプリケーションの形をとる ユーザー インターフェースからテストを設定、実施して、 データに最適なモデルを 構築できます
  • API および CLI ツールは高度な自動化機能を提供するが、それよりも多くの機能が必要 プログラミングと ML の専門知識が(場合によっては大幅に)必要になることもあります。

コーディングが必要な AutoML ツールは、 ノーコード ツールですが、使いづらい可能性もあります。このモジュールでは モデル開発のノーコード オプションについて学びましたが、API と CLI については カスタマイズされた自動化が必要な場合に役立ちます。

AutoML ワークフロー

一般的な ML ワークフローを見ていきましょう。 AutoMLワークフローの大まかな手順は、このコースの カスタムトレーニング主な違いは、AutoML が一部のタスクを自動的に処理する点です。

問題の定義

ML ワークフローの最初のステップは、問題を定義することです。 使用するツールが、トレーニング プロセスでの 達成するのに役立ちますほとんどの AutoML ツールは、教師ありさまざまな 入力データ型などがあります

問題の枠組みについて詳しくは、このモジュールのコースリソース Introduction to Machine Learning Problem Framing

Data gathering

AutoML ツールを使い始める前に、データを収集する必要があります 1 つのデータソースに統合しますプロダクトのドキュメントで、 ツールがサポートしている要素: データソース、データセットのデータ型、サイズ 表します。

データの準備

データの準備は AutoML ツールが役立ちますが、 ツールはすべて自動的に実行されるため、あらかじめなんらかの処理を データをこのツールにインポートできますAutoML のデータの準備は、 必要な操作を簡単に特定できます。詳細情報 方法については、「データの準備」をご覧ください。 できます。

データの準備について詳しくは、このモジュールの 数値データを操作して および カテゴリデータを 説明します。

AutoML トレーニング用のデータをインポートする前に、次の作業を完了しておく必要があります。 手順:

  • データにラベルを付ける

    データセット内のすべてのサンプルには、ラベルが必要です。

  • データのクリーニングと書式設定

    実世界のデータは乱雑になる傾向があるため、使用する前にデータをクリーニングしておく できます。AutoML を使用する場合でも、モデルに最適な処理を 問題を特定しましたこれにはデータ探索や 最善の結果を得る前に AutoML を複数回実行する 可能性があります

  • 特徴変換を実行する

    一部の AutoML ツールは、特定の特徴変換を自動的に処理します。しかし、もし 使用しているツールが、必要な特徴変換をサポートしていない、または サポートされていない場合は、変換処理を先に行わなければならない場合がある できます。

モデル開発(ノーコード AutoML を使用)

トレーニング中に AutoML が代わりに作業を行います。ただし、Google Chat の テストを構成する必要がありますAutoML トレーニング モデルを設定する 通常、次の大まかな手順を指定する必要があります。

  1. データをインポートする

    データをインポートするには、データソースを指定します。インポート時 各データ値にセマンティック データ型が割り当てられます。

  2. データを分析する

    通常、AutoML プロダクトには、事前にデータセットを分析 学習しますベスト プラクティスとして、これらの分析ツールを使用することをおすすめします。 AutoML の実行を開始する前に、データを理解して検証する方法について学びます。

  3. データを絞り込む

    AutoML ツールは通常、データの調整と調整に役立つメカニズムを備えており、 トレーニング前と比較します次のタスクを完了することをおすすめします データを絞り込むことができます。

    • セマンティック チェック: インポート時に、AutoML ツールは セマンティック型が適切なものになりますが、これらは単なる推測です。 すべての対象物に指定されたタイプを確認し、変更してください。 誤って割り当てられていた場合です

      たとえば、郵便番号が郵便番号の列に数値として保存されていて、 おすすめしますほとんどの AutoML システムは、このデータを 表します。郵便番号とユーザー セマンティック型をカテゴリ変数ではなく、 連続する値よりも小さくなります

    • 変換: 一部のツールではデータをカスタマイズできます いくつか見ていきましょう。場合によっては データセットに予測特徴がある場合に、 AutoML ツールでは対応しにくい方法で変換または組み合わせられている 判断できます

      たとえば、予測に使用している住宅データセットについて考えてみましょう。 住宅のセール価格予測値を表す特徴があるとします。 description というハウス リスティングの説明を入力し、 このデータを使用して description_length。一部の AutoML システムでは、カスタム 必要があります。この例では、LENGTH 関数を使用して、 次のような新しい説明文の長さの特徴を生成します。 LENGTH(description)

  4. AutoML 実行パラメータを構成する

    トレーニング テストを実施する前の最後のステップでは、いくつかの 構成設定を指定して、モデルのトレーニング方法をツールに指示します。 各 AutoML ツールには独自の構成オプションのセットがありますが、 ここでは、Google Cloud で必要となる重要な構成タスクの complete:

    • 解決する ML の問題タイプを選択してください。たとえば、 どうすればよいでしょうか
    • データセット内でラベルとする列を選択します。
    • モデルのトレーニングに使用する特徴のセットを選択します。
    • モデル検索で AutoML が考慮する一連の ML アルゴリズムを選択します。
    • 最適なモデルを選択するために AutoML が使用する評価指標を選択してください。

AutoML テストを構成したら、トレーニングを開始できます あります。トレーニングが完了するまでしばらく時間がかかる場合があります(時間単位)。

モデルの評価

トレーニングが完了したら、AutoML 実行ツールを使用して結果を確認できます。 次のことが可能になります。

  • 特徴の重要度の指標を調査して、特徴を評価する。
  • 使用されているアーキテクチャとハイパーパラメータを確認して、モデルを理解する 必要があります。
  • 測定中に収集されたプロットと指標を使用してトップレベルのモデル性能を評価する 出力モデルをトレーニングします

プロダクション

このモジュールでは説明しませんが、一部の AutoML システムが モデルをテストしてデプロイします

モデルの再トレーニング

新しいデータでモデルの再トレーニングが必要になる場合があります。これは、 AutoML トレーニングの実行を評価する、またはモデルが本番環境に移行した後に あります。いずれにしても、AutoML システムは再トレーニングに役立ちます。そうではない AutoML の実行後にデータを再度確認し、 改善されたデータセットです

次のステップ

お疲れさまでした。以上で、このモジュールは終了です。

さまざまな MLCC モジュールを受講することをおすすめします。 好きなペースや興味で進めることができます。推奨される順序に従う場合は 次のモジュールに進みましょう。 ML の公平性