本單元已探討如何將原始資料對應至合適的 「特徵向量」。 好的數值特徵會 才符合本節所述性質。
名稱明確
每項特徵都應該有明確、合理且明顯的意義, 專案。舉例來說,下列特徵值的意義是 令人困惑:
不建議使用
House_age:851472000
相對地,下列功能名稱和值則更清楚:
建議
House_age_years:27
訓練前的檢查或測試
雖然本單元投入了大量時間
離群值,主題是
至少要能買一次在某些情況下,資料錯誤
(不是設計不良的工程選項) 會導致值不清楚。例如:
下列user_age_in_years
來自未提供檢查的來源
適當的值:
不建議使用
user_age_in_years:224
但使用者可以年滿 24 歲:
建議
user_age_in_years:24
檢查資料!
易識
「神奇價值」是刻意連續的
而不是每個特徵的分數舉例來說,假設有一個名為 watch_time_in_seconds
的持續特徵
可包含 0 到 30 之間的任何浮點值,但代表不存在
並加上魔法值 -1:
不建議使用
Watch_time_in_seconds:-1
watch_time_in_seconds
為 -1 時,會強制模型嘗試
重點在於回溯觀看電影。產生的模型
預測結果可能不盡理想
更好的技巧是另外建立一個布林值功能,以指出
是否 watch_time_in_seconds
值。例如:
建議
Watch_time_in_seconds:4.82
is_watch_time_in_seconds_defined=TrueWatch_time_in_seconds:0
is_watch_time_in_seconds_defined=False
現在請考慮獨立 數值特徵,其值必須屬於一組有限的值。在本 代表缺少該值時,請使用 沒有限制透過離散特徵,模型會學習不同的權重 ,包括缺少特徵的原始權重。