機器學習模型只能針對浮點值進行訓練。 不過,許多資料集特徵都「並非」自然的浮點值。 因此,機器學習的一個重要環節是 和非浮點特徵到浮點表示法
舉例來說,假設 street names
是功能。大部分街道名稱
是字串,例如「Broadway」或「Vilakazi」;
您的模型無法用「Broadway」訓練,因此您必須轉換「Broadway」
或浮點數類別資料
模組
說明相關做法。
此外,您甚至必須轉換大部分浮點地圖項目。 這項轉換程序稱為 正規化,會將 達到限制範圍的浮點數,可改善模型訓練成效。 數值資料 模組 說明相關做法。
樣本資料 (當資料過多時)
有些機構面對著大量的資料。 當資料集包含的範例過多時,您必須選取子集 一些訓練樣本盡可能選取 與模型預測結果相關
篩選含有個人識別資訊的示例
良好資料集省略了個人識別資訊的範例 (個人識別資訊)這項政策有助於保護隱私權,但可能會影響模型。
如要進一步瞭解這些主題,請參閱本課程後面的「安全性與隱私權」單元。