本部分将重点介绍标签。
直接标签与代理标签
考虑使用两种不同类型的标签:
- 直接标签:与您的模型预测结果完全相同的标签
也就是说,模型尝试进行的预测
在您的数据集中显示为一列。
例如,名为
bicycle owner
的列是 一种二元分类模型,用于预测一个人是否拥有 一辆自行车 - 代理标签:是指一些相似的标签, 与模型尝试进行的预测不完全相同。 例如,订阅《Bicycle Bizarre》杂志的用户 可能(但并非绝对)拥有一辆自行车。
直接标签通常优于代理标签。如果您的数据集 提供了一个可能的直接标签,您应该使用它。 不过,直接标签通常不可用。
代理标签始终是一种折衷方案, 直接标签。不过,有些代理标签非常接近近似值 才是有用的。使用代理标签的模型只有在 建立新的关联。
回想一下,每个标签都必须表示为一个浮点数 在特征向量中 (因为机器学习本质上只是 操作)。有时,直接标签存在,但无法轻松表示为 特征向量中的浮点数。在这种情况下,请使用代理标签。
练习:检查您的理解情况
贵公司希望实现以下目标:
邮寄优惠券(“旧自行车以旧换新折抵金额” (新自行车八五折”)发布给自行车所有者。
因此,您的模型必须执行以下操作:
预测谁拥有自行车。
遗憾的是,该数据集不包含名为 bike owner
的列。
但是,该数据集包含名为 recently bought a bicycle
的列。
recently bought a bicycle
”适合用作代理标签吗
或者此模型的代理标签不佳?recently bought a bicycle
列是
相对较好的代理标签毕竟,大多数人
现在,购买自行车的广告主然而,像所有
即使是非常好的代理标签,recently bought a
bicycle
也不是完美的。毕竟,购买
某项不一定是该内容的使用(或拥有)的人。
例如,人们有时会购买自行车作为礼物。recently bought a bicycle
(有些自行车会作为礼物赠送给他人,
等)。不过,recently bought a bicycle
但仍然能很好地表明
自行车。人工生成的数据
有些数据是人工生成的;也就是说,一个或多个人对某些 信息并提供一个值(通常用于标签)。例如: 就会有一位或多位气象学家检查天空的照片 云类型
或者,有些数据是自动生成的。也就是说, (可能是另一个机器学习模型)来确定这个值。例如, 机器学习模型可以检查星空照片并自动识别 云类型
本部分探讨了人工生成的数据的优缺点。
优势
- 人工审核者可以执行多种任务,即使是高级审核人员, 机器学习模型可能不太容易。
- 这个过程会迫使数据集的所有者制定清晰的 一致的标准。
缺点
- 您通常需要向人工审核者付费,因此人工生成的数据的成本可能会很高。
- 出错是人类。因此,多个人工审核者可能不得不 相同的数据。
请仔细思考以下问题,确定您的需求:
- 评分者的技能必须如何?(例如,标注者必须 某种语言?您是否需要语言专家来进行对话或 NLP 应用?)
- 您需要多少个有标签样本?您多久之后需要这些信息?
- 你的预算是多少?
始终仔细检查人工审核者。例如,标签为 1000 examples 看看您的结果与其他评分者的评分情况相比如何结果。 如果出现差异,请不要假设您的评分是正确的, 尤其是在涉及价值判断的情况下。如果人工审核者引入了 建议您添加说明来帮助用户,然后重试。
。