理解度を確認する

次の質問は、ML の基本コンセプトの理解を固めるのに役立ちます。

予測能力

教師あり ML モデルは、ラベル付きサンプルを含むデータセットを使用してトレーニングされます。このモデルは、特徴からラベルを予測する方法を学習します。ただし データセット内のすべての特徴量に 予測能力があるわけではありません場合によっては、少数の特徴のみがラベルの予測因子として機能します。以下のデータセットでは、価格をラベルとして使用し、残りの列を特徴として使用します。

ラベル付けされた自動車属性の例。

自動車価格の最大の予測因子と考えられる特徴を 3 つ選択してください。
Make_model、year、miles。
車のメーカー、モデル、年、走行距離は、価格に関する最も強力な予測因子である可能性が高いです。
色、高さ、make_model。
車高と色は、車の価格を決定する強い要因ではありません。
Miles、gearbox、make_model。
ギアボックスは価格の主な予測因子ではありません。
Tire_size、wheel_base、year。
タイヤサイズとホイールベースは、自動車価格を決定する強力な要因ではありません。

教師ありの学習と教師なし学習

問題に応じて、教師ありアプローチまたは教師なしアプローチのいずれかを使用します。たとえば、予測する値やカテゴリが事前にわかっている場合は、教師あり学習を使用します。ただし、データセットに関連するサンプルのセグメントまたはグループが含まれているかどうかを確認するには、教師なし学習を使用します。

オンライン ショッピング ウェブサイトのユーザーのデータセットがあり、そのデータセットに次の列が含まれているとします。

顧客属性の行の画像。

サイトにアクセスするユーザーのタイプを把握するために、教師あり学習と教師なし学習のどちらを使用しますか?
教師なし学習。
関連する顧客のグループをモデルでクラスタ化するため、教師なし学習を使用します。モデルによってユーザーをクラスタ化したら、クラスタごとに独自の名前を作成します(例: 割引を求める人、ディール ハンター、サーファー、ロイヤル、ワンダラー)。
ユーザーがどのクラスに属するかを予測しようとしているため、教師あり学習。
教師あり学習では、データセットに予測対象のラベルが含まれている必要があります。このデータセットには、ユーザーのカテゴリを参照するラベルがありません。

住宅のエネルギー使用量データセットに次の列があるとします。

家属性の行の画像。

新築の住宅の 1 年間に使用されるキロワット時を予測するには、どの ML を使用しますか。
教師あり学習。
教師あり学習はラベル付きサンプルでトレーニングします。このデータセットでは、モデルに予測させる値である「年間使用キロワット時間」がラベルになります。特徴は、「平方映像」、「場所」、「製造年」などです。
教師なし学習。
教師なし学習では、ラベルのないサンプルを使用します。この例では、モデルに予測させる値である「年間使用キロワット時間」がラベルになります。

次の列を含むフライト データセットがあるとします。

フライトデータの行の画像。

コーチの乗車券の費用を予測する場合、回帰と分類のどちらを使用しますか。
回帰
回帰モデルの出力は数値です。
分類
分類モデルの出力は離散値(通常は単語)です。この場合、コーチ乗車券のコストは数値です。
このデータセットに基づいて分類モデルをトレーニングし、コーチ チケットの費用を「高」、「平均」、「低」に分類できますか。
はい。ただし、最初に coach_ticket_cost 列の数値をカテゴリ値に変換する必要があります。
データセットから分類モデルを作成できます。手順は次のとおりです。
  1. 出発空港から目的地の空港までの平均チケット料金を求める。
  2. 「高」、「平均」、「低」を構成するしきい値を決定します。
  3. 予測された費用をしきい値と比較し、値が該当するカテゴリを出力します。
いいえ。分類モデルを作成することはできません。coach_ticket_cost 値はカテゴリではなく数値です。
わずかな作業で、分類モデルを作成できます。
いいえ。分類モデルは、spamnot_spam のように 2 つのカテゴリのみを予測します。このモデルは 3 つのカテゴリを予測する必要があります。
分類モデルは、複数のカテゴリを予測できます。これらはマルチクラス分類モデルと呼ばれます。

トレーニングと評価

モデルをトレーニングした後、ラベル付きサンプルを含むデータセットを使用してモデルを評価し、モデルの予測値をラベルの実際の値と比較します。

質問に最も適切なものを 2 つ選択してください。

モデルの予測がかなり外れている場合、モデルの予測を改善するにはどうすればよいでしょうか。
モデルを再トレーニングしますが、ラベルの予測力が最も強いと思われる特徴のみを使用します。
特徴量が少なくても予測能力が高いモデルを再トレーニングすることで、より優れた予測を行うモデルを生成できます。
予測がかなり外れているモデルは修正できません。
予測がオフになっているモデルを修正することは可能です。ほとんどのモデルでは、有用な予測を行うまでトレーニングを複数回行う必要があります。
より大規模で多様なデータセットを使用してモデルを再トレーニングする。
サンプル数が多く、値の範囲が広いデータセットでトレーニングされたモデルは、特徴量とラベルの関係をより適切に一般化したソリューションを使用できるため、予測の精度が向上します。
別のトレーニング アプローチを試す。たとえば、教師ありアプローチを使用する場合は、教師なしアプローチを試してください。
別のトレーニング アプローチでは、より良い予測は得られません。

これで、ML の取り組みの次のステップに進む準備が整いました。

  • People + AI Guidebooks。ML の使用に関する Google 社員、業界の専門家、学術研究による一連の方法、ベスト プラクティス、例をお探しの場合。

  • 問題のフレーム処理。ML モデルを作成し、その過程でよくある問題を回避するための、フィールド テスト済みのアプローチをお探しの場合。

  • 機械学習集中講座ML をより深く学習するための、詳細で実践的なアプローチの準備ができている場合。