資料集:轉換資料

機器學習模型只能訓練浮點值。不過,許多資料集功能並非自然的浮點值。因此,機器學習的一項重要部分,就是將非浮點特徵轉換為浮點表示法。

舉例來說,假設 street names 是某個功能。大部分的街道名稱都是字串,例如「Broadway」或「Vilakazi」。模型無法在「Broadway」上訓練,因此您必須將「Broadway」轉換為浮點數。類別資料模組會說明如何進行這項操作。

此外,您也應轉換大多數浮點功能。這項轉換程序稱為「正規化」,可將浮點數轉換為受限範圍,進而改善模型訓練。數值資料模組會說明如何執行這項操作。

當資料量過多時,請取樣資料

有些機構擁有大量資料。 如果資料集包含太多範例,您必須選取範例子集進行訓練。盡可能選取與模型預測結果最相關的子集。

含有個人識別資訊的篩選器範例

優質資料集會省略含有個人識別資訊 (PII) 的示例。這項政策有助於保護隱私權,但可能會影響模型。

如要進一步瞭解這些主題,請參閱課程後續的「安全性與隱私權」單元。