数据集：标签

本部分重点介绍标签。

直接标签与代理标签

考虑两种不同的标签：

直接标签，即与模型尝试做出的预测完全相同的标签。也就是说，模型尝试做出的预测恰好以列的形式存在于数据集中。例如，名为 bicycle owner 的列将是二元分类模型的直接标签，该模型用于预测某人是否拥有自行车。
代理标签，即与模型尝试做出的预测相似但不完全相同的标签。例如，订阅《Bicycle Bizarre》杂志的人可能（但不一定）拥有自行车。

直接标签通常比代理标签更好。如果您的数据集提供了可能的直接标签，您可能应该使用它。不过，直接标签通常无法使用。

代理标签始终是一种折衷方案，是对直接标签的不完美近似。不过，有些代理标签的近似程度足以发挥作用。使用代理标签的模型的效果取决于代理标签与预测之间的关联。

请注意，每个标签都必须表示为浮点数，类似于特征向量（因为机器学习从根本上来说只是一系列数学运算）。有时，存在直接标签，但无法轻松表示为浮点数。在这种情况下，请使用代理标签。

贵公司希望执行以下操作：

向自行车车主邮寄优惠券（“购买新自行车头盔可享 15% 折扣”）。

因此，您的模型必须执行以下操作：

预测哪些人拥有自行车。

很遗憾，该数据集不包含名为 bike owner 的列。不过，该数据集确实包含一个名为 recently bought a bicycle 的列。

对于此模型，recently bought a bicycle 是一个好的代理标签还是一个差的代理标签？

良好的代理标签

列 recently bought a bicycle 是一个相对较好的代理标签。毕竟，现在购买自行车的人大多已经拥有自行车。不过，与所有代理标签（即使是非常好的代理标签）一样，

recently bought a
            bicycle

并不完美。毕竟，购买商品的人并不总是使用（或拥有）该商品的人。例如，人们有时会购买自行车作为礼物。

代理标签不当

与所有代理标签一样，recently bought a bicycle 并不完美（有些自行车是作为礼物购买并送给别人的）。不过，recently bought a bicycle 仍然是表明某人拥有自行车的相对较好的指标。

有些数据是人工生成的，也就是说，一个或多个人检查某些信息并提供一个值（通常是标签）。例如，一位或多位气象学家可以检查天空照片并识别云的类型。

或者，某些数据是自动生成的。也就是说，由软件（可能是另一个机器学习模型）确定该值。例如，机器学习模型可以检查天空图片并自动识别云类型。

本部分探讨了人工生成数据的优势和劣势。

优势

缺点

请仔细考虑以下问题，以确定您的需求：

务必仔细检查人工评估员的评估结果。例如，您可以自行为 1,000 个示例添加标签，然后查看您的结果与其他评估者的结果是否一致。如果出现差异，请不要认为您的评分是正确的，尤其是在涉及价值判断时。如果人工评估员引入了错误，请考虑添加说明来帮助他们，然后重试。

无论您以何种方式获取数据，手动查看数据都是一项很好的练习。Andrej Karpathy 在 ImageNet 上进行了这项实验，并撰写了相关文章。

模型可以基于自动生成的标签和人工生成的标签的混合数据进行训练。不过，对于大多数模型而言，额外的一组人工生成的标签（可能会过时）通常不值得付出额外的复杂性和维护成本。不过，有时人工生成的标签可以提供自动生成的标签中没有的额外信息。