資料集:轉換資料
機器學習模型只能訓練浮點值。不過,許多資料集功能並非自然的浮點值。因此,機器學習的一項重要部分,就是將非浮點特徵轉換為浮點表示法。
舉例來說,假設 street names
是某個功能。大部分的街道名稱都是字串,例如「Broadway」或「Vilakazi」。模型無法在「Broadway」上訓練,因此您必須將「Broadway」轉換為浮點數。類別資料模組會說明如何進行這項操作。
此外,您也應轉換大多數浮點功能。這項轉換程序稱為「正規化」,可將浮點數轉換為受限範圍,進而改善模型訓練。數值資料模組會說明如何執行這項操作。
當資料量過多時,請取樣資料
有些機構擁有大量資料。
如果資料集包含太多範例,您必須選取範例子集進行訓練。盡可能選取與模型預測結果最相關的子集。
含有個人識別資訊的篩選器範例
優質資料集會省略含有個人識別資訊 (PII) 的示例。這項政策有助於保護隱私權,但可能會影響模型。
如要進一步瞭解這些主題,請參閱課程後續的「安全性與隱私權」單元。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2024-11-14 (世界標準時間)。
[null,null,["上次更新時間:2024-11-14 (世界標準時間)。"],[[["Machine learning models require all data, including features like street names, to be transformed into numerical (floating-point) representations for training."],["Normalization is crucial for optimizing model training by converting existing floating-point features to a specific range."],["When dealing with large datasets, selecting a relevant subset of data for training is essential for model performance."],["Protecting user privacy by excluding Personally Identifiable Information (PII) from datasets is a critical consideration."]]],[]]