本单元探索了如何将原始数据映射到 特征向量。 好的数值特征会共享 质量。
名称明确
每个特征都应具有清晰、合理且明显的意义, 项目。例如,以下特征值的含义为 混淆:
不建议
House_age:851472000
相比之下,以下功能名称和值就要清晰得多了:
建议
。 <ph type="x-smartling-placeholder">house_age_years:27
训练前检查或测试
尽管本单元花费了大量时间
离群值,主题是
这一点非常重要。在某些情况下
(而不是糟糕的工程选择)会导致不明确的值。例如:
以下user_age_in_years
来自未经检查的来源
适当的值:
不建议
user_age_in_years:224
但是,人们可能是 24 岁:
建议
user_age_in_years:24
请检查您的数据!
合理
“神奇的值”这种连续性
功能。例如,假设一个名为 watch_time_in_seconds
的连续特征
可以存储 0 到 30 之间的任何浮点值,但表示缺失
特殊值 -1:
不建议
watch_time_in_seconds:-1
watch_time_in_seconds
为 -1 会迫使模型尝试
了解过去观看电影的意义。生成的模型将
可能无法做出良好的预测。
一种更好的方法是创建一个单独的布尔值特征,指示
watch_time_in_seconds
值。例如:
建议
watch_time_in_seconds:4.82
is_watch_time_in_seconds_defined=Truewatch_time_in_seconds:0
is_watch_time_in_seconds_defined=False
现在考虑离散 数值特征,其值必须属于一组有限值。在本课中, 例如,当某个值缺失时, 有限集。对于离散特征,模型会学习不同的权重 包括缺失特征的原始权重。