代表權

機器學習模型無法直接查看、聆聽或解讀輸入範例,相反地,您必須建立資料的「表示法」,為模型提供資料的重點特質。也就是說,如要訓練模型,必須選擇最適合代表資料的一組特徵。

代表權

做法是將左側向量的每個部分對應至右側的地圖項目向量。

原始資料會透過稱為特徵工程的程序對應至特徵向量。
直接從原始資料複製的功能示例
無法直接從原始資料複製的字串功能 (街道名稱) 示例
對應字串值 (
  • 字典將每個街道名稱對應至 {0, ...,V-1} 的整數
  • 現在,以 <i> 表示上述單熱向量

特徵值在資料集內顯示的次數應多於零次。

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

功能應具有明確、明顯的意義。

user_age:23

user_age:123456789

特徵不應採用「魔術」的值

(改用 Watch_time_is_defined 等其他布林值功能)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

功能的定義不會隨時間改變。

(請注意依賴其他機器學習系統!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

分佈不應含有極端離群值

理想情況下,所有特徵都轉換到相近的範圍,例如 (-1、1) 或 (0, 5)。

發布離群值和發布值 (有上限) 的分佈情形
這張圖表顯示分佈情形,並按照地點呈現適配曲線
這張圖表顯示分佈情形,並按照地點呈現適配曲線
  • 建立多個布林值特徵,每個片段會對應至新的專屬地圖項目
  • 讓模型為每個特徵分塊儲存不同的值

瞭解您的資料

  • 視覺化:繪製直方圖,由高至低排序。
  • 偵錯:例子重複嗎?缺少值嗎?離群值?資料與資訊主頁一致嗎?訓練和驗證資料是否類似?
  • 監控:特徵分位數,一段時間內有哪些範例?