识别标签和来源

直接标签与派生标签

如果标签定义明确,则机器学习会更容易。最佳标签是您要预测的内容的直接标签。例如,如果您要预测用户是否为泰勒·斯威夫特的粉丝,则直接标签为“用户是泰勒·斯威夫特的粉丝”。

更为简单的粉丝测试可能是,用户是否在 YouTube 上看过 Taylor Swift 的视频。“用户已在 YouTube 上观看过 Taylor Swift 视频”是衍生标签,因为它不会直接衡量您想要预测的内容。这个派生标签是否是一个可靠的指标,表明用户喜欢 Taylor Swift?模型只能发挥派生标签与所需预测之间的联系。

标签来源

模型的输出可以是事件,也可以是特性。这会导致出现两种类型的标签:

  • 事件的直接标签,例如“用户是否点击了顶部的搜索结果?”
  • 属性的直接标签,例如“广告客户在下周会支出超过 X 美元吗?”

事件的直接标签

对于事件,直接标签通常简单明了,因为您可以在事件期间记录用户行为,以用作标签。标记事件时,请思考以下问题:

  • 您的日志结构是怎样的?
  • 在您的日志中,哪些事件会被视为“事件”?

例如,系统是否记录了用户点击搜索结果或执行了搜索?如果您拥有点击日志,请注意,如果没有点击,您绝不会看到展示。您需要的是事件是展示次数的日志,以便涵盖用户看到热门搜索结果的所有情况。

属性的直接标签

假设您的标签是“广告客户在下周的支出将超过 X 美元。”通常,您会使用前几天的数据来预测后续几天会发生的情况。例如,下图显示了预测后续 10 天的训练数据 10 天:

日历会突出显示 10 天的屏蔽设置,然后紧接着显示 7 天的屏蔽设置。
该模型使用 10 天数据块中的数据预测 7 天数据块。

请务必考虑季节性或周期性影响;例如,广告客户在周末的支出可能会增加。因此,您可能更倾向于使用 14 天的时间范围,或将日期用作特征,以便模型可以了解每年的效果。

直接标签需要过往行为的日志

请注意,在前面的情况下,我们需要有关真实结果的数据。无论是广告客户支出了多少费用,还是用户观看了 Taylor Swift 的视频,我们都需要通过历史数据来使用监督式机器学习。机器学习根据过去发生的情况进行预测,因此,如果您过去没有日志,则需要获取日志。

如果您没有要记录的数据,该怎么办?

也许您的商品尚不存在,因此您没有任何可记录的数据。在这种情况下,您可以执行以下一项或多项操作:

  • 使用启发法进行首次启动,然后根据记录的数据训练系统。
  • 使用类似问题的日志来引导您的系统。
  • 使用人工评分者通过完成任务来生成数据。

为什么要使用人工标签数据?

使用人工加标签的数据有其优缺点。

优点

  • 人工审核者可以执行各种各样的任务。
  • 数据迫使您必须定义明确的问题。

缺点

  • 某些网域的数据流量费用较高。
  • 优质的数据通常需要多次迭代。

提高质量

始终检查人工审核者的工作内容。例如,为您自己标记 1000 个样本,并查看结果与评分者的匹配程度。(自行给数据加标签也是了解数据的绝佳方法。)如果存在差异,则不要认为您的评分是正确的,尤其是在涉及价值判断时。如果人工评分者引入了错误,请考虑添加说明并帮助他们,然后重试。

无论您如何获取数据,手动查看数据都是不错的做法。Andrej Karpathy 在 ImageNet 上进行了此操作,并撰写了关于该体验的文章