表示法

机器学习模型无法直接查看、听到或感知输入样本。 相反,您必须创建数据表示,为模型提供了解数据关键特性的有用有利视角。也就是说,为了训练模型,您必须选择最能代表数据的特征集。

表示法

其理念是将左侧的各个部分映射到右侧的特征向量中的一个或多个字段。

原始数据通过一个称为特征工程的过程映射到特征向量。
可直接从原始数据复制的地图项示例
无法直接从原始数据复制的字符串特征(街道名称)示例
映射字符串值 (
  • 通过字典将每个街道名称映射到 {0, ...,V-1} 中的整数
  • 现在将上面的独热矢量表示为 <i>

特征值应以非零值在数据集中多次出现。

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

特征应具有清晰、明显的含义。

user_age:23

user_age:123456789

特征不应采用“神奇”的值

(改用其他布尔值特征,例如 watch_time_is_definition!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

特征的定义不应随时间而改变。

(注意对其他机器学习系统的依赖!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

分布不应包含极端离群值

理想情况下,所有特征都转换为相似范围,例如 (-1, 1) 或 (0, 5)。

包含离群值的分布和带上限的分布
显示包含基于位置的拟合曲线的分布的图表
显示包含基于位置的拟合曲线的分布的图表
  • 创建几个布尔值分箱,每个分箱映射到新的唯一特征
  • 允许模型为每个分箱拟合不同的值

了解您的数据

  • 可视化:绘制直方图,从最普遍到最不常见。
  • 调试:重复样本?缺少值?离群值?数据与信息中心是否一致?训练数据和验证数据相似?
  • 监控:特征分位数、样本数量随时间的变化情况?