数值数据通常由科学仪器或 自动化衡量。另一方面,分类数据 按人类分类或机器学习 (ML) 模型分类。谁决定 以及他们做出这些决定的方式,都会影响 数据的可靠性和实用性
人工审核者
人工标记的数据通常称为黄金标签, 与机器标注的数据相比,它被认为更适合用于训练模型, 因为数据质量相对较高。
这并不一定意味着由人工标签添加的任何数据集都具有很高的 质量。人为错误、偏见和恶意 或数据清理和处理期间。检查是否存在 训练之前。
任何两个人都可以为同一样本以不同方式标记。区别 人工评分者之间这称为 评分者间 协议。 您可以从中了解发表自己的看法, 每个样本有多个评分者,并衡量评分者间的一致性。
机器评分者
机器标记的数据,其中类别由一个或多个 通常称为白银标签。 机器标注的数据在质量方面可能会有很大差异。不仅检查准确性 以及违反常识、现实和意图的行为。对于 例如,如果计算机视觉模型 将吉娃娃当作松饼 或者是将松饼的照片显示为吉娃娃,使用加标签的数据进行训练的模型 质量较低
与之类似,当 0.0 为 0.0 时,将中性字词评分为 -0.25 的情感分析器 可能对所有字词都带有额外的负偏差 数据中实际并不存在的特征过度敏感毒性检测器 可能会错误地将许多中性表述标记为恶意言论。试着了解 提取数据中机器标签和注释的质量和偏见, 进行训练。
高维度
分类数据往往会生成高维特征向量;即 特征向量。 高维度会增加训练费用,并使训练更具针对性 难度也很大。因此,机器学习专家通常会想方设法 维度的变化。
对于自然语言数据,降维的主要方法是 将特征向量转换为嵌入向量。本单元的 Embeddings 模块 学习本课程。