数据集:标签

本部分重点介绍标签

直接标签与代理标签

请考虑以下两种不同类型的标签:

  • 直接标签,即与模型尝试进行的预测完全相同的标签。也就是说,模型尝试进行的预测正是以数据集中的列的形式呈现的。例如,对于用于预测某人是否拥有自行车的二元分类模型,名为 bicycle owner 的列就是直接标签。
  • 代理标签:与模型尝试进行的预测类似(但不完全相同)的标签。例如,订阅《Bicycle Bizarre》杂志的用户可能(但不一定)拥有自行车。

直接标签通常比代理标签更好。如果您的数据集提供了可能的直接标签,您可能应该使用它。不过,直接标签通常不可用。

代理标签始终是一种折衷方案,是对直接标签的近似估计,并不完美。不过,有些代理标签的近似值足够接近,因此非常有用。使用代理标签的模型的有效性取决于代理标签与预测之间的关联。

回想一下,每个标签都必须在特征向量中表示为浮点数(因为机器学习从根本上讲只是数学运算的巨大集合)。有时,存在直接标签,但无法轻松地在特征向量中表示为浮点数。在这种情况下,请使用代理标签。

练习:检查您的理解情况

贵公司希望实现以下目标:

向自行车所有者邮寄优惠券(“用旧自行车折抵新自行车,立减 15%”)。

因此,您的模型必须执行以下操作:

预测哪些人拥有自行车。

很遗憾,该数据集不包含名为 bike owner 的列。不过,该数据集确实包含一个名为 recently bought a bicycle 的列。

对于此模型,recently bought a bicycle 是合适的代理标签还是不合适的代理标签?
良好的代理标签
recently bought a bicycle 列是一个相对较好的代理标签。毕竟,现在购买自行车的大多数人已经拥有自行车。不过,与所有代理标签一样,即使是效果非常好的代理标签,recently bought a bicycle 也无法做到尽善尽美。毕竟,购买商品的人员并不一定是使用(或拥有)该商品的人员。 例如,人们有时会购买自行车作为礼物。
代理标签不当
与所有代理标签一样,recently bought a bicycle 并不完美(有些自行车是作为礼物购买的,并赠送给他人)。不过,recently bought a bicycle 仍然是判断某人是否拥有自行车的相对较好的指标。

人工生成的数据

有些数据是人工生成的;也就是说,一项或多项信息会由一人或多人检查,并提供一个值(通常是标签)。例如,一位或多位气象学家可以检查天空照片并识别云彩类型。

或者,某些数据是自动生成的。也就是说,软件(可能是另一个机器学习模型)会确定该值。例如,机器学习模型可以检查天空图片并自动识别云彩类型。

本部分将探讨由人生成的数据的优缺点。

优势

  • 人工评价员可以执行各种任务,即使是复杂的机器学习模型也可能难以胜任。
  • 该流程会迫使数据集所有者制定清晰且一致的标准。

缺点

  • 您通常需要向人工评价者支付费用,因此由人工生成的数据可能很昂贵。
  • 人非圣贤,难免有错。因此,多个人工评分员可能需要评估同一数据。

仔细思考以下问题,以确定您的需求:

  • 评价者需要具备怎样的技能?(例如,评价者必须懂特定语言吗?您是否需要对话或自然语言处理应用的语言学家?)
  • 您需要多少个标记示例?您需要多久才能收到?
  • 您的预算是多少?

请务必仔细检查人工评分员的评分。例如,自行标记 1,000 个示例,然后看看您的结果与其他评分者的结果有多一致。如果出现差异,请勿假定您的评分是正确的,尤其是涉及价值判断时。如果人工评分员出现了错误,不妨考虑添加一些说明来帮助他们,然后重试。