(教師あり)機械学習とは簡潔に説明すると、次のようになります。
- ML システムでは、入力を組み合わせることで、これまで経験したことのないデータについて有用な予測を生成する方法を学びます。
機械学習に関する基本的な用語を見ていきましょう。
ラベル
ラベルは、私たちが予測しているもので、単純な線形回帰における y
変数です。ラベルには、将来の小麦の価格、写真に表示される動物の種類、音声クリップの意味など、さまざまなものがあります。
機能
特徴は、入力変数(単純な線形回帰の x
変数)です。単純な機械学習プロジェクトでは 1 つの特徴を使用できますが、より高度な機械学習プロジェクトでは、次のような数百万の特徴を使用できます。
\[\\{x_1, x_2, ... x_N\\}\]
スパム検出の例では、特徴には次のものが含まれます。
- メール テキスト内の単語
- 送信者のアドレス
- メールが送信された時刻
- email に、1 つの奇妙なトリックを含むフレーズが含まれています。
例
例は、データの特定のインスタンス、つまり x です。(太字の x は、それがベクトルであることを示します。)例は次の 2 つのカテゴリに分類されます。
- ラベル付き例
- ラベルのない例
ラベル付きサンプルには、特徴とラベルの両方が含まれます。これは次のことを意味します。
labeled examples: {features, label}: (x, y)
ラベル付けされた例を使用して、モデルをトレーニングします。スパム検出の例では、ラベル付けされた例は、ユーザーが「スパム」または「スパムではない」と明示的にマークした個々のメールです。
たとえば、次の表は、カリフォルニア州の住宅価格に関する情報を含むデータセットからラベル付けされた 5 つの例を示しています。
手持ちメディア 年齢(機能) |
totalRooms (機能) |
totalBedrooms (機能) |
medianHouseValue (ラベル) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
ラベルのないサンプルには特徴が含まれますが、ラベルは含まれません。これは次のことを意味します。
unlabeled examples: {features, ?}: (x, ?)
同じ住宅用データセットからラベルのない 3 つの例を次に示します。medianHouseValue
は除きます。
手持ちメディア 年齢(機能) |
totalRooms (機能) |
totalBedrooms (機能) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
ラベル付けされた例を使用してモデルをトレーニングしたら、そのモデルを使用して、ラベルのないサンプルでラベルを予測します。迷惑メール検出ツールにおけるラベル未設定の例は、人間がまだラベルを付けていない新しいメールです。
モデル
モデルでは、特徴とラベルの関係を定義します。たとえば、スパム検出モデルでは、特定の特徴を「スパム」と強く関連付けることがあります。モデルのライフサイクルの 2 つのフェーズを取り上げます。
トレーニングとは、モデルを作成または学習することを意味します。つまり、サンプルにラベルが付けられたモデルを表示し、モデルが特徴とラベルの関係を徐々に学習できるようにします。
推論とは、ラベルなしの例にトレーニング済みモデルを適用することを意味します。つまり、トレーニング済みのモデルを使用して有用な予測を行います(
y'
)。たとえば、推論中に、新しいラベルのないサンプルについてmedianHouseValue
を予測できます。
回帰と分類
回帰モデルは連続値を予測します。たとえば、回帰モデルは次のような疑問に答える予測をします。
カリフォルニア州の住宅の価値はいくらですか?
ユーザーが広告をクリックする可能性はどのくらいですか。
分類モデルは、個別の値を予測します。たとえば、分類モデルは、次のような質問に答える予測を行います。
特定のメールが迷惑メールかどうか。
これは、犬、猫、ハムスターの画像ですか?