数值数据通常由科学仪器或自动化测量记录。另一方面,分类数据通常按人类或机器学习 (ML) 模型进行分类。决定类别和标签的人员以及他们做出这些决定的方式会影响这些数据的可靠性和实用性。
人工评分员
由人工手动标记的数据通常称为标准答案,由于数据质量相对较高,因此在训练模型时,标准答案数据比机器标记的数据更受欢迎。
这并不一定意味着任何一组人工标记的数据都是高质量的。人为错误、偏见和恶意行为可能会在数据收集时或数据清理和处理过程中引入。请在训练前检查是否存在这些问题。
任何两个人对同一示例的标签可能都不一样。人工评价者之间评价结果的差异称为评价者间一致性。您可以为每个示例使用多名评估员,并衡量评估员之间的一致性,从而了解评估员意见的差异。
机器评分者
机器标记的数据(类别由一个或多个分类模型自动确定)通常称为银标签。机器标注的数据在质量方面可能会有很大差异。不仅要检查准确性和偏见,还要检查是否违反常识、现实和意图。例如,如果计算机视觉模型将一张柴犬照片误标为杯状小松糕,或者将一张杯状小松糕照片误标为柴犬,那么基于这些标记数据训练的模型质量会较低。
同样,如果情感分析器将中性词语评分为 -0.25(0.0 是中性值),则可能会对所有词语评分时额外加入数据中实际上不存在的负偏差。过于敏感的毒性检测器可能会错误地将许多中性陈述标记为毒性内容。在对数据进行训练之前,请先了解数据中机器标签和注释的质量和偏差。
高维度
分类数据往往会产生高维特征向量,即包含大量元素的特征向量。高维度会增加训练费用,并增加训练难度。因此,机器学习专家通常会寻找在训练之前减少维度数量的方法。
对于自然语言数据,降维的主要方法是将特征向量转换为嵌入向量。本课程稍后的“嵌入”模块中将对此进行讨论。