联接数据日志

组建训练集时,有时必须联接多个数据源。

日志类型

您可能使用以下任一种输入数据:

  • 事务日志
  • 属性数据
  • 汇总统计信息

事务日志会记录特定事件。例如,事务日志可能会记录进行查询的 IP 地址以及发出查询的日期和时间。事务性事件对应于特定事件。

属性数据包含信息快照。例如:

  • 用户受众特征
  • 查询时的搜索记录

特性数据并非特定于某个事件或时刻,但仍然可用于进行预测。对于不与特定事件相关的预测任务(例如,预测用户流失,这涉及到一个时间范围,而不是单个时刻),特性数据可能是唯一的数据类型。

特性数据和事务日志相关。例如,您可以通过汇总多个事务日志来创建汇总类型的统计信息,从而创建一类属性数据。在这种情况下,您可以查看许多事务日志,以便为用户创建单个特性。

汇总统计信息用于根据多个事务日志创建一个特性。例如:

  • 用户查询频率
  • 特定广告的平均点击率

联接日志源

每种类型的日志往往位于不同的位置。为机器学习模型收集数据时,您必须将不同的来源联接起来才能创建数据集。一些示例:

  • 利用事务日志中的用户 ID 和时间戳,在事件发生时查找用户属性。
  • 使用交易时间戳选择查询时的搜索记录。

预测数据源 - 在线与离线

机器学习速成课程中,您了解了在线与离线服务。您的选择会对系统收集数据的方式产生以下影响:

  • 在线 - 延迟是一个问题,因此您的系统必须快速生成输入。
  • 离线 - 您可能没有计算限制,因此可以像训练数据生成那样执行类似的复杂操作。

例如,经常需要从其他系统查询属性数据,这可能会造成延迟问题。同样,即时计算的统计信息也很昂贵。如果延迟时间是阻碍因素,一种可能的原因是预计算这些统计信息。