データセット: データの変換

ML モデルは浮動小数点値でのみトレーニングできます。 ただし、データセットの多くの特徴量は、元々浮動小数点値ではありません。 したがって、ML の重要な部分の一つは、ビジネスを変革し、 非浮動小数点特徴を浮動小数点表現に変換します。

たとえば、street names が特徴であるとします。ほとんどの道路名 「Broadway」などの「Vilakazi」といいます。 このモデルは「ブロードウェイ」でトレーニングできないため、「ブロードウェイ」を変換する必要があります 変換されますカテゴリデータ モジュール その方法について説明します。

さらに、ほとんどの浮動小数点特徴も変換する必要があります。 この変換プロセスは、 正規化、 浮動小数点数を制約された範囲にマッピングすることでモデルのトレーニングが改善されます。 数値データ モジュール その方法について説明します。

データが多すぎる場合のサンプリングデータ

大量のデータに恵まれた組織もあります。 データセットに含まれるサンプルが多すぎる場合は、サブセットを選択する必要があります。 トレーニング用サンプルがたくさんあります。可能な場合は、最も優先度が高いサブセットを いくつかのポイントを学習できます

PII を含むフィルタの例

適切なデータセットでは、個人を特定できる情報を含む例は省略されている (PII)。このポリシーはプライバシーの保護に役立ちますが、モデルに影響を与える可能性があります。

これらのトピックの詳細については、本コース後半の「安全性とプライバシー」モジュールをご覧ください。