機器學習模型無法直接查看、聆聽或解讀輸入範例,相反地,您必須建立資料的「表示法」,為模型提供資料的重點特質。也就是說,如要訓練模型,必須選擇最適合代表資料的一組特徵。
代表權
從原始資料到功能
做法是將左側向量的每個部分對應至右側的地圖項目向量。
從原始資料到功能
從原始資料到功能
從原始資料到功能
- 字典將每個街道名稱對應至 {0, ...,V-1} 的整數
- 現在,以 <i> 表示上述單熱向量
優質地圖項目的屬性
特徵值在資料集內顯示的次數應多於零次。
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
優質地圖項目的屬性
功能應具有明確、明顯的意義。
user_age:23
user_age:123456789
優質地圖項目的屬性
特徵不應採用「魔術」的值
(改用 Watch_time_is_defined 等其他布林值功能)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
優質地圖項目的屬性
功能的定義不會隨時間改變。
(請注意依賴其他機器學習系統!)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
優質地圖項目的屬性
分佈不應含有極端離群值
理想情況下,所有特徵都轉換到相近的範圍,例如 (-1、1) 或 (0, 5)。
命運特技
命運特技
- 建立多個布林值特徵,每個片段會對應至新的專屬地圖項目
- 讓模型為每個特徵分塊儲存不同的值
良好習慣
瞭解您的資料
- 視覺化:繪製直方圖,由高至低排序。
- 偵錯:例子重複嗎?缺少值嗎?離群值?資料與資訊主頁一致嗎?訓練和驗證資料是否類似?
- 監控:特徵分位數,一段時間內有哪些範例?