本部分重点介绍标签。
直接标签与代理标签
请考虑以下两种不同类型的标签:
- 直接标签,即与模型尝试进行的预测完全相同的标签。也就是说,模型尝试进行的预测正是以数据集中的列的形式呈现的。例如,对于用于预测某人是否拥有自行车的二元分类模型,名为
bicycle owner
的列就是直接标签。 - 代理标签:与模型尝试进行的预测类似(但不完全相同)的标签。例如,订阅《Bicycle Bizarre》杂志的用户可能(但不一定)拥有自行车。
直接标签通常比代理标签更好。如果您的数据集提供了可能的直接标签,您可能应该使用它。不过,直接标签通常不可用。
代理标签始终是一种折衷方案,是对直接标签的近似估计,并不完美。不过,有些代理标签的近似值足够接近,因此非常有用。使用代理标签的模型的有效性取决于代理标签与预测之间的关联。
回想一下,每个标签都必须在特征向量中表示为浮点数(因为机器学习从根本上讲只是数学运算的巨大集合)。有时,存在直接标签,但无法轻松地在特征向量中表示为浮点数。在这种情况下,请使用代理标签。
练习:检查您的理解情况
贵公司希望实现以下目标:
向自行车所有者邮寄优惠券(“用旧自行车折抵新自行车,立减 15%”)。
因此,您的模型必须执行以下操作:
预测哪些人拥有自行车。
很遗憾,该数据集不包含名为 bike owner
的列。不过,该数据集确实包含一个名为 recently bought a bicycle
的列。
recently bought a bicycle
是合适的代理标签还是不合适的代理标签?人工生成的数据
有些数据是人工生成的;也就是说,一项或多项信息会由一人或多人检查,并提供一个值(通常是标签)。例如,一位或多位气象学家可以检查天空照片并识别云彩类型。
或者,某些数据是自动生成的。也就是说,软件(可能是另一个机器学习模型)会确定该值。例如,机器学习模型可以检查天空图片并自动识别云彩类型。
本部分将探讨由人生成的数据的优缺点。
优势
- 人工评价员可以执行各种任务,即使是复杂的机器学习模型也可能难以胜任。
- 该流程会迫使数据集所有者制定清晰且一致的标准。
缺点
- 您通常需要向人工评价者支付费用,因此由人工生成的数据可能很昂贵。
- 人非圣贤,难免有错。因此,多个人工评分员可能需要评估同一数据。
仔细思考以下问题,以确定您的需求:
- 评价者需要具备怎样的技能?(例如,评价者必须懂特定语言吗?您是否需要对话或自然语言处理应用的语言学家?)
- 您需要多少个标记示例?您需要多久才能收到?
- 您的预算是多少?
请务必仔细检查人工评分员的评分。例如,自行标记 1,000 个示例,然后看看您的结果与其他评分者的结果有多一致。如果出现差异,请勿假定您的评分是正确的,尤其是涉及价值判断时。如果人工评分员出现了错误,不妨考虑添加一些说明来帮助他们,然后重试。