数値データ: モデルが特徴ベクトルを使用してデータを取り込む方法

ここまでは、モデルは予測データに直接作用し、 行の数が示されます。実際には、モデルによって取り込まれるデータは若干異なります。

たとえば、データセットに 5 つの列があるが、そのうちの 2 つしかないとします。 列(bd)はモデルの特徴です。処理時 モデルは単純にフィールドのコンテンツを 2 つのセル(3b と 3d)を次のようにハイライト表示しました。

図 1. データセットからサンプルを直接取り込むモデル。
            行 3 の列 b と d がハイライト表示されます。
図 1. モデルがサンプルをどのように取得するかを正確には定義していません。

実際、モデルは浮動小数点値の配列を取り込みます。 特徴ベクトル。このように考えれば 特徴ベクトルの浮動小数点値として、1 つの例を構成する

図 2. 特徴ベクトルはデータセットと
            モデルです。
図 2. 真実に近くなりますが、現実的ではありません。

しかし、特徴ベクトルがデータセットの未加工の値を使用することはめったにありません。 代わりに、通常はデータセットの値を表現に変換する必要があります。 モデルに学習させることができますより現実的な数字は、 次のようになります。

図 3. 特徴ベクトルには、次の 2 つの浮動小数点値が含まれます。
            0.13 と 0.47 です。より現実的な特徴ベクトル。
図 3. より現実的な特徴ベクトル。

別のデータセットからトレーニングしても、モデルはより良い予測を 変更された値よりもデータセットの実際の値を比較できるでしょうか。 驚くべきことに、答えはノーです。

未加工のデータセット値をトレーニング可能として表現する最適な方法を決定する必要がある 特徴ベクトルの分布が変化します このプロセスを 特徴量エンジニアリング ML に不可欠な要素です 最も一般的な特徴量エンジニアリング手法は次のとおりです。

  • 正規化: 変換 数値を標準範囲に変換します
  • ビニング(別名) bucketing): 数値を変換する 範囲のバケットに分けることができます。

このユニットでは、正規化とビニングについて説明します。次のユニットは カテゴリデータの操作 データ アナリストが 例: 前処理 文字列などの数値以外のデータを浮動小数点値に変換する

特徴ベクトルの値は浮動小数点値にする必要があります。しかし、多くの 性質は、自然に文字列またはその他の非数値です。その結果 特徴量エンジニアリングの大部分は 非数値を 数値で表しますこれについては、後のモジュールで多く取り上げます。