使用類別資料

類別資料包含 一組可能的值。例如:

  • 國家公園內的不同物種
  • 特定城市的街道名稱
  • 電子郵件是否為垃圾郵件
  • 房屋外牆的色彩上色
  • 繫結數,詳情請參閱使用數值 資料資料模組

數字也可以是類別型資料

數字資料 可以是有意義的乘數。舉例來說,假設 可根據房屋面積預測房屋價值 請注意,用來評估房價的實用模型,通常仰賴 數百種功能在所有其他條件都相同的情況下,有 200 正方形的房子 公尺應該大約是 100 平方英尺的兩棟住宅 公尺。

通常,您應表示含有整數值的特徵, 而非數值資料舉例來說 程式碼特徵,其中數值為整數。如果您代表 也就是以數值方式呈現特徵,而非類別 找出數值關係 換取不同的郵遞區號也就是說,您會要求模型 將郵遞區號 20004 視為郵遞區號的兩倍 (或一半) 10002。以郵遞區號表示郵遞區號後,模型就 分別為每個郵遞區號加權。

編碼

編碼是指將類別或其他資料轉換成數值向量 以便訓練模型這種轉換是必要的,因為模型可以 只能在浮點值上訓練無法訓練 "dog""maple"。本單元會說明 處理類別型資料的編碼方法