機械学習モデルは、浮動小数点値でのみトレーニングできます。ただし、多くのデータセットの特徴は、本来は浮動小数点値ではありません。そのため、機械学習の重要な部分の一つは、浮動小数点以外の特徴量を浮動小数点表現に変換することです。
たとえば、street names
が特徴であるとします。ほとんどの道路名は文字列です(「Broadway」や「Vilakazi」など)。モデルは「Broadway」でトレーニングできないため、「Broadway」を浮動小数点数に変換する必要があります。カテゴリデータ モジュールでは、この方法について説明しています。
また、ほとんどの浮動小数点特徴も変換する必要があります。この変換プロセスは正規化と呼ばれ、浮動小数点数を制限付きの範囲に変換してモデル トレーニングを改善します。数値データ モジュールで、その方法について説明します。
データが多すぎる場合はサンプリングする
組織によっては、豊富なデータが利用できる場合があります。 データセットにサンプルが多すぎる場合は、トレーニング用のサンプルのサブセットを選択する必要があります。可能であれば、モデルの予測に最も関連性の高いサブセットを選択します。
PII を含むフィルタの例
優れたデータセットでは、個人を特定できる情報(PII)を含む例は除外されます。このポリシーはプライバシーの保護に役立ちますが、モデルに影響する可能性があります。
これらのトピックについて詳しくは、コースの後半の「安全とプライバシー」モジュールをご覧ください。