資料集：轉換資料

機器學習模型只能訓練浮點值。不過，許多資料集功能並非自然的浮點值。因此，機器學習的一項重要部分，就是將非浮點特徵轉換為浮點表示法。

舉例來說，假設 street names 是某個功能。大部分的街道名稱都是字串，例如「Broadway」或「Vilakazi」。模型無法在「Broadway」上訓練，因此您必須將「Broadway」轉換為浮點數。類別資料模組會說明如何進行這項操作。

此外，您也應轉換大多數浮點功能。這項轉換程序稱為「正規化」，可將浮點數轉換為受限範圍，進而改善模型訓練。數值資料模組會說明如何執行這項操作。

當資料量過多時，請取樣資料

有些機構擁有大量資料。如果資料集包含太多範例，您必須選取範例子集進行訓練。盡可能選取與模型預測結果最相關的子集。

優質資料集會省略含有個人識別資訊 (PII) 的示例。這項政策有助於保護隱私權，但可能會影響模型。

如要進一步瞭解這些主題，請參閱課程後續的「安全性與隱私權」單元。