本部分重点介绍标签。
直接标签与代理标签
考虑两种不同的标签:
- 直接标签,即与模型尝试做出的预测完全相同的标签。也就是说,模型尝试做出的预测恰好以列的形式存在于数据集中。例如,名为
bicycle owner
的列将是二元分类模型的直接标签,该模型用于预测某人是否拥有自行车。 - 代理标签,即与模型尝试做出的预测相似但不完全相同的标签。例如,订阅《Bicycle Bizarre》杂志的人可能(但不一定)拥有自行车。
直接标签通常比代理标签更好。如果您的数据集提供了可能的直接标签,您可能应该使用它。不过,直接标签通常不可用。
代理标签始终是一种折衷方案,是对直接标签的不完美近似。不过,有些代理标签的近似程度足以发挥作用。使用代理标签的模型的效果取决于代理标签与预测之间的关联。
请注意,每个标签都必须以特征向量中的浮点数表示(因为机器学习从根本上来说只是大量数学运算的组合)。有时,存在直接标签,但无法轻松地将其表示为特征向量中的浮点数。在这种情况下,请使用代理标签。
练习:检查您的理解情况
贵公司希望执行以下操作:
向自行车车主邮寄优惠券(“购买新自行车头盔可享 15% 折扣”)。
因此,您的模型必须执行以下操作:
预测哪些人拥有自行车。
很遗憾,该数据集不包含名为 bike owner
的列。
不过,该数据集确实包含一个名为 recently bought a bicycle
的列。
recently bought a bicycle
是一个好的代理标签还是一个差的代理标签?recently bought a bicycle
是一个相对较好的代理标签。毕竟,现在购买自行车的人大多已经拥有自行车。不过,与所有代理标签(即使是非常好的代理标签)一样,recently bought a
bicycle
并不完美。毕竟,购买商品的人并不总是使用(或拥有)该商品的人。
例如,人们有时会购买自行车作为礼物。recently bought a bicycle
并不完美(有些自行车是作为礼物购买并送给别人的)。不过,recently bought a bicycle
仍然是表明某人拥有自行车的相对较好的指标。人工生成的数据
有些数据是人工生成的,也就是说,一个或多个人检查某些信息并提供一个值(通常是标签)。例如,一位或多位气象学家可以检查天空照片并识别云的类型。
或者,某些数据是自动生成的。也就是说,由软件(可能是另一个机器学习模型)确定该值。例如,机器学习模型可以检查天空图片并自动识别云类型。
本部分探讨了人工生成数据的优势和劣势。
优势
- 人工评估者可以执行各种任务,即使是复杂的机器学习模型也可能难以完成这些任务。
- 此流程可促使数据集所有者制定清晰一致的标准。
缺点
- 您通常需要向人工评估者付费,因此人工生成的数据可能很昂贵。
- 人非圣贤,孰能无过。因此,可能需要多个人工评估者来评估同一数据。
请仔细思考以下问题,以确定您的需求:
- 评分员必须具备哪些技能?(例如,评分员是否必须会说某种特定语言?您是否需要语言学家来处理对话或 NLP 应用?)
- 您需要多少个已加标签的示例?您多久之后需要这些商品?
- 您的预算是多少?
务必要仔细检查人工评估员。例如,您可以自行为 1,000 个示例添加标签,然后查看您的结果与其他评估者的结果是否一致。 如果出现差异,请不要认为您的评分是正确的,尤其是在涉及价值判断时。如果人工评估员引入了错误,请考虑添加说明来帮助他们,然后重试。