数值数据:良好数值特征的特性

本单元探索了如何将原始数据映射到 特征向量。 好的数值特征会共享 质量。

名称明确

每个特征都应具有清晰、合理且明显的意义, 项目。例如,以下特征值的含义为 混淆:

不建议

House_age:851472000

相比之下,以下功能名称和值就要清晰得多了:

建议

house_age_years:27

。 <ph type="x-smartling-placeholder">

训练前检查或测试

尽管本单元花费了大量时间 离群值,主题是 这一点非常重要。在某些情况下 (而不是糟糕的工程选择)会导致不明确的值。例如: 以下user_age_in_years来自未经检查的来源 适当的值:

不建议

user_age_in_years:224

但是,人们可能是 24 岁:

建议

user_age_in_years:24

请检查您的数据!

合理

“神奇的值”这种连续性 功能。例如,假设一个名为 watch_time_in_seconds 的连续特征 可以存储 0 到 30 之间的任何浮点值,但表示缺失 特殊值 -1:

不建议

watch_time_in_seconds:-1

watch_time_in_seconds 为 -1 会迫使模型尝试 了解过去观看电影的意义。生成的模型将 可能无法做出良好的预测。

一种更好的方法是创建一个单独的布尔值特征,指示 watch_time_in_seconds 值。例如:

建议

watch_time_in_seconds:4.82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds:0
is_watch_time_in_seconds_defined=False

现在考虑离散 数值特征,其值必须属于一组有限值。在本课中, 例如,当某个值缺失时, 有限集。对于离散特征,模型会学习不同的权重 包括缺失特征的原始权重。