データセット: データの変換
機械学習モデルは、浮動小数点値でのみトレーニングできます。ただし、多くのデータセットの特徴は、本来は浮動小数点値ではありません。そのため、機械学習の重要な部分の一つは、浮動小数点以外の特徴量を浮動小数点表現に変換することです。
たとえば、street names
が特徴であるとします。ほとんどの道路名は文字列です(「Broadway」や「Vilakazi」など)。モデルは「Broadway」でトレーニングできないため、「Broadway」を浮動小数点数に変換する必要があります。カテゴリデータ モジュールでは、この方法について説明しています。
また、ほとんどの浮動小数点特徴も変換する必要があります。この変換プロセスは正規化と呼ばれ、浮動小数点数を制限付きの範囲に変換してモデル トレーニングを改善します。数値データ モジュールで、その方法について説明します。
データが多すぎる場合はサンプリングする
組織によっては、豊富なデータが利用できる場合があります。
データセットにサンプルが多すぎる場合は、トレーニング用のサンプルのサブセットを選択する必要があります。可能であれば、モデルの予測に最も関連性の高いサブセットを選択します。
PII を含むフィルタの例
優れたデータセットでは、個人を特定できる情報(PII)を含む例は除外されます。このポリシーはプライバシーの保護に役立ちますが、モデルに影響する可能性があります。
これらのトピックについて詳しくは、コースの後半の「安全とプライバシー」モジュールをご覧ください。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2024-11-14 UTC。
[null,null,["最終更新日 2024-11-14 UTC。"],[[["Machine learning models require all data, including features like street names, to be transformed into numerical (floating-point) representations for training."],["Normalization is crucial for optimizing model training by converting existing floating-point features to a specific range."],["When dealing with large datasets, selecting a relevant subset of data for training is essential for model performance."],["Protecting user privacy by excluding Personally Identifiable Information (PII) from datasets is a critical consideration."]]],[]]