數值資料:良好數值特徵的品質

本單元已探討如何將原始資料對應至合適的 「特徵向量。 好的數值特徵會 才符合本節所述性質。

名稱明確

每項特徵都應該有明確、合理且明顯的意義, 專案。舉例來說,下列特徵值的意義是 令人困惑:

不建議使用

House_age:851472000

相對地,下列功能名稱和值則更清楚:

建議

House_age_years:27

訓練前的檢查或測試

雖然本單元投入了大量時間 離群值,主題是 至少要能買一次在某些情況下,資料錯誤 (不是設計不良的工程選項) 會導致值不清楚。例如: 下列user_age_in_years來自未提供檢查的來源 適當的值:

不建議使用

user_age_in_years:224

但使用者可以年滿 24 歲:

建議

user_age_in_years:24

檢查資料!

易識

「神奇價值」是刻意連續的 而不是每個特徵的分數舉例來說,假設有一個名為 watch_time_in_seconds 的持續特徵 可包含 0 到 30 之間的任何浮點值,但代表不存在 並加上魔法值 -1:

不建議使用

Watch_time_in_seconds:-1

watch_time_in_seconds 為 -1 時,會強制模型嘗試 重點在於回溯觀看電影。產生的模型 預測結果可能不盡理想

更好的技巧是另外建立一個布林值功能,以指出 是否 watch_time_in_seconds 值。例如:

建議

Watch_time_in_seconds:4.82
is_watch_time_in_seconds_defined=True

Watch_time_in_seconds:0
is_watch_time_in_seconds_defined=False

現在請考慮獨立 數值特徵,其值必須屬於一組有限的值。在本 代表缺少該值時,請使用 沒有限制透過離散特徵,模型會學習不同的權重 ,包括缺少特徵的原始權重。