資料集:轉換資料

機器學習模型只能針對浮點值進行訓練。 不過,許多資料集特徵都「並非」自然的浮點值。 因此,機器學習的一個重要環節是 和非浮點特徵到浮點表示法

舉例來說,假設 street names 是功能。大部分街道名稱 是字串,例如「Broadway」或「Vilakazi」; 您的模型無法用「Broadway」訓練,因此您必須轉換「Broadway」 或浮點數類別資料 模組 說明相關做法。

此外,您甚至必須轉換大部分浮點地圖項目。 這項轉換程序稱為 正規化,會將 達到限制範圍的浮點數,可改善模型訓練成效。 數值資料 模組 說明相關做法。

樣本資料 (當資料過多時)

有些機構面對著大量的資料。 當資料集包含的範例過多時,您必須選取子集 一些訓練樣本盡可能選取 與模型預測結果相關

篩選含有個人識別資訊的示例

良好資料集省略了個人識別資訊的範例 (個人識別資訊)這項政策有助於保護隱私權,但可能會影響模型。

如要進一步瞭解這些主題,請參閱本課程後面的「安全性與隱私權」單元。