このページは Cloud Translation API によって翻訳されました。

データセット: データの変換

機械学習モデルは、浮動小数点値でのみトレーニングできます。ただし、多くのデータセットの特徴は、本来は浮動小数点値ではありません。そのため、機械学習の重要な部分の一つは、浮動小数点以外の特徴量を浮動小数点表現に変換することです。

たとえば、street names が特徴であるとします。ほとんどの道路名は文字列です（「Broadway」や「Vilakazi」など）。モデルは「Broadway」でトレーニングできないため、「Broadway」を浮動小数点数に変換する必要があります。カテゴリデータモジュールでは、この方法について説明しています。

また、ほとんどの浮動小数点特徴も変換する必要があります。この変換プロセスは正規化と呼ばれ、浮動小数点数を制限付きの範囲に変換してモデルトレーニングを改善します。数値データモジュールで、その方法について説明します。

データが多すぎる場合はサンプリングする

組織によっては、豊富なデータが利用できる場合があります。データセットにサンプルが多すぎる場合は、トレーニング用のサンプルのサブセットを選択する必要があります。可能であれば、モデルの予測に最も関連性の高いサブセットを選択します。

PII を含むフィルタの例

優れたデータセットでは、個人を特定できる情報（PII）を含む例は除外されます。このポリシーはプライバシーの保護に役立ちますが、モデルに影響する可能性があります。

これらのトピックについて詳しくは、コースの後半の「安全とプライバシー」モジュールをご覧ください。

元のデータセットを分割する（10 分）

一般化（5 分）

データセット: データの変換 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

データが多すぎる場合はサンプリングする

PII を含むフィルタの例

データセット: データの変換