数据集:标签

本部分将重点介绍标签

直接标签与代理标签

请考虑使用两种不同类型的标签:

  • 直接标签,即与您的模型的预测结果完全相同的标签 也就是说,模型尝试进行的预测 以列的形式准确呈现在您的数据集中。 例如,名为 bicycle owner 的列是 一种二元分类模型,用于预测一个人是否拥有 一辆自行车
  • 代理标签:是指一些相似的标签, 与模型尝试进行的预测不完全相同。 例如,订阅《Bicycle Bizarre》杂志的用户 可能(但并非绝对)拥有一辆自行车。

直接标签通常优于代理标签。如果您的数据集 提供了一个可能的直接标签,您应该使用它。 不过,直接标签通常不可用。

代理标签始终是一种折衷方案, 直接标签。不过,有些代理标签非常接近近似值 才是有用的。使用代理标签的模型只有在 建立新的关联。

回想一下,每个标签都必须表示为一个浮点数 在特征向量中 (因为机器学习本质上只是 操作)。有时,直接标签存在,但无法轻松表示为 特征向量中的浮点数。在这种情况下,请使用代理标签。

练习:检查您的理解情况

贵公司希望实现以下目标:

邮寄优惠券(“旧自行车以旧换新折抵金额” (新自行车八五折”)发布给自行车所有者。

因此,您的模型必须执行以下操作:

预测谁拥有一辆自行车。

遗憾的是,该数据集不包含名为 bike owner 的列。 但是,该数据集包含名为 recently bought a bicycle 的列。

recently bought a bicycle”适合用作代理标签吗 或者此模型的代理标签不佳?
良好的代理标签
recently bought a bicycle 列是 相对较好的代理标签毕竟,大多数人 现在,购买自行车的广告主然而,像所有 即使非常好的代理标签,recently bought a bicycle 也不是完美的。毕竟,购买 某项不一定是该内容的使用(或拥有)的人。 例如,人们有时会购买自行车作为礼物。
代理标签不佳
与所有代理标签一样,recently bought a bicycle (有些自行车会作为礼物赠送给他人, 其他)。不过,recently bought a bicycle 但仍然能很好地表明 自行车。

人工生成的数据

有些数据是人工生成的;也就是说,一个或多个人对某些 信息并提供一个值(通常用于标签)。例如: 就会有一位或多位气象学家检查天空的照片 云类型

或者,有些数据是自动生成的。也就是说, (可能是另一个机器学习模型)来确定这个值。例如, 机器学习模型可以检查星空照片并自动识别 云类型

本部分探讨了人工生成数据的优缺点。

优势

  • 人工审核者可以执行多种任务,即使是高级审核人员, 机器学习模型可能不太容易。
  • 这个过程会迫使数据集的所有者制定清晰的 一致的标准。

缺点

  • 您通常需要向人工审核者付费,因此人工生成的数据的成本可能会很高。
  • 出错是人类。因此,多个人工审核者可能不得不 相同的数据。

请仔细思考以下问题,确定您的需求:

  • 评分者的技能必须如何?(例如,标注者必须 某种语言?您是否需要语言专家来进行对话或 NLP 应用?)
  • 您需要多少个有标签样本?您多久之后需要这些信息?
  • 你的预算是多少?

始终仔细检查人工审核者。例如,标签为 1000 examples 看看您的结果与其他评分者的评分情况相比如何结果。 如果出现差异,请不要假设您的评分是正确的, 尤其是在涉及价值判断的情况下。如果人工审核者引入了 建议您添加说明来帮助用户,然后重试。