ここまでは、モデルは予測データに直接作用し、 行の数が示されます。実際には、モデルによって取り込まれるデータは若干異なります。
たとえば、データセットに 5 つの列があるが、そのうちの 2 つしかないとします。
列(b
と d
)はモデルの特徴です。処理時
モデルは単純にフィールドのコンテンツを
2 つのセル(3b と 3d)を次のようにハイライト表示しました。
実際、モデルは浮動小数点値の配列を取り込みます。 特徴ベクトル。このように考えれば 特徴ベクトルの浮動小数点値として、1 つの例を構成する
しかし、特徴ベクトルがデータセットの未加工の値を使用することはめったにありません。 代わりに、通常はデータセットの値を表現に変換する必要があります。 モデルに学習させることができますより現実的な数字は、 次のようになります。
別のデータセットからトレーニングしても、モデルはより良い予測を 変更された値よりもデータセットの実際の値を比較できるでしょうか。 驚くべきことに、答えはノーです。
未加工のデータセット値をトレーニング可能として表現する最適な方法を決定する必要がある 特徴ベクトルの分布が変化します このプロセスを 特徴量エンジニアリング ML に不可欠な要素です 最も一般的な特徴量エンジニアリング手法は次のとおりです。
このユニットでは、正規化とビニングについて説明します。次のユニットは カテゴリデータの操作 データ アナリストが 例: 前処理 文字列などの数値以外のデータを浮動小数点値に変換する
特徴ベクトルの値は浮動小数点値にする必要があります。しかし、多くの 性質は、自然に文字列またはその他の非数値です。その結果 特徴量エンジニアリングの大部分は 非数値を 数値で表しますこれについては、後のモジュールで多く取り上げます。