机器学习术语表:指标

本页包含“指标”术语表中的术语。如需查看所有术语表术语,请点击此处

#fundamentals
#Metric

正确分类预测的数量除以预测总数。具体来说:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

例如,如果模型做出了 40 次正确预测和 10 次错误预测,则其准确性为:

Accuracy=4040 + 10=80%

二元分类为不同类别的正确预测错误预测提供了特定名称。因此,二元分类的准确率公式如下:

Accuracy=TP+TNTP+TN+FP+FN

其中:

  • TP 是真正例(正确预测)的数量。
  • TN 是真负例(正确预测)的数量。
  • FP 是假正例(错误预测)的数量。
  • FN 是假负例(错误预测)的数量。

比较准确率与精确率召回率

虽然在某些情况下,准确性是一个有价值的指标,但在其他情况下,准确性却会严重误导。值得注意的是,准确率通常不适用于评估处理分类不平衡数据集的分类模型。

例如,假设某个亚热带城市每年只下雪 25 天。由于无降雪天数(负类)远远多于降雪天数(正类),因此该城市的降雪数据集类别不平衡。假设有一个二元分类模型,该模型应该预测每天是否会下雪,但每天都只是预测“不会下雪”。此模型的准确性很高,但没有预测能力。下表总结了过去一个世纪的预测结果:

类别 数字
TP 0
TN 36499
FP 0
FN 25

因此,此模型的准确性为:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

虽然准确率为 99.93% 看起来非常出色,但该模型实际上没有预测能力。

在评估在类别不平衡的数据集上训练的模型时,精确率召回率通常比准确率更有用。


如需了解详情,请参阅机器学习速成课程中的分类:准确率、召回率、精确率和相关指标

PR 曲线下的面积

#Metric

请参阅 PR AUC(PR 曲线下面积)

ROC 曲线下面积

#Metric

请参阅 AUC(ROC 曲线下面积)

AUC(ROC 曲线下面积)

#fundamentals
#Metric

介于 0.0 到 1.0 之间的数值,表示二元分类模型将正类别负类别区分开的能力。AUC 越接近 1.0,模型区分不同类别的能力就越强。

例如,下图显示了一个分类器模型,该模型可以完美地将正类别(绿色椭圆形)与负类别(紫色矩形)区分开来。这个不切实际的完美模型的 AUC 为 1.0:

一个数轴,一侧有 8 个正例,另一侧有 9 个负例。

相反,下图显示了生成随机结果的分类器模型的结果。此模型的 AUC 为 0.5:

包含 6 个正例和 6 个负例的数轴。
          示例的顺序为正例、负例、正例、负例、正例、负例、正例、负例、正例、负例、正例、负例。

是的,上一个模型的 AUC 为 0.5,而不是 0.0。

大多数模型介于这两种极端情况之间。例如,以下模型可以将正例与负例区分开来,因此其 AUC 介于 0.5 到 1.0 之间:

包含 6 个正例和 6 个负例的数轴。
          示例序列为负例、负例、负例、负例、正例、负例、正例、正例、负例、正例、正例、正例。

AUC 会忽略您为分类阈值设置的任何值。相反,AUC 会考虑所有可能的分类阈值。

AUC 表示 ROC 曲线下的面积。例如,完美区分正例和负例的模型的 ROC 曲线如下所示:

直角坐标图。x 轴为假正例率;y 轴为真正例率。图表从 0,0 开始,一直向上到 0,1,然后一直向右到 1,1。

AUC 是上图中灰色区域的面积。在这种不寻常的情况下,面积只需将灰色区域的长度 (1.0) 乘以灰色区域的宽度 (1.0) 即可得出。因此,1.0 与 1.0 的乘积的 AUC 值恰好为 1.0,这是可能获得的最高 AUC 得分。

反之,完全无法区分类别的分类器的 ROC 曲线如下所示。此灰色区域的面积为 0.5。

直角坐标图。x 轴为假正例率;y 轴为真正例率。图表从 0,0 开始,斜向延伸到 1,1。

更典型的 ROC 曲线大致如下所示:

直角坐标图。x 轴为假正例率;y 轴为真正例率。图表从 0,0 开始,沿不规则弧线到达 1,0。

手动计算此曲线下方的面积非常费劲,因此通常由程序计算大多数 AUC 值。


AUC 是指:对于随机选择的正类别样本确实为正类别,以及随机选择的负类别样本为正类别,分类器更确信前者的概率。


如需了解详情,请参阅机器学习速成课程中的分类:ROC 和 AUC

在 k 个结果中的平均精确率

#language
#Metric

用于汇总模型在生成排名结果(例如编号的图书推荐列表)的单个问题上的表现的指标。k 的平均精确率是指每个相关结果的 k 个结果的平均精确率值的平均值。因此,k 时的平均精确率的计算公式为:

average precision at k=1nni=1precision at k for each relevant item

其中:

  • n 是列表中相关项的数量。

k 个样本时的召回率相对。

假设向大语言模型提出以下查询:

List the 6 funniest movies of all time in order.

大语言模型会返回以下列表:

  1. The General
  2. 《Mean Girls》
  3. Platoon
  4. 《伴娘》
  5. Citizen Kane
  6. 这是 Spinal Tap
返回的列表中有四部电影非常有趣(即相关),但两部电影是剧情片(不相关)。下表详细介绍了结果:
位置 电影 相关吗? 特定 k 值的精确率
1 The General 1.0
2 《Mean Girls》 1.0
3 Platoon 不相关
4 《伴娘》 0.75
5 Citizen Kane 不相关
6 这是 Spinal Tap 0.67

相关结果的数量为 4。因此,您可以按如下方式计算 6 时的平均精确率:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67) average precision at 6=~0.85

B

baseline

#Metric

一种模型,用作比较另一个模型(通常是更复杂的模型)效果时的参考点。例如,逻辑回归模型可以作为深度模型的良好基准。

对于特定问题,基准有助于模型开发者量化新模型必须达到的最低预期性能,以便新模型发挥作用。

C

费用

#Metric

损失的含义相同。

反事实公平性

#fairness
#Metric

一种公平性指标,用于检查分类器是否会对某个个体和与其在一个或多个敏感属性方面相同的另一个个体产生相同的结果。评估分类器的反事实公平性是发现模型中潜在偏差来源的一种方法。

如需了解详情,请参阅以下任一内容:

交叉熵

#Metric

对数损失多类分类问题的泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅困惑度

累积分布函数 (CDF)

#Metric

用于定义小于或等于目标值的样本的频率的函数。例如,考虑连续值的正态分布。通过 CDF,您可以了解大约 50% 的样本应小于或等于平均值,大约 84% 的样本应小于或等于平均值加一标准差。

D

人口统计均等

#fairness
#Metric

公平性指标:如果模型的分类结果不依赖于给定的敏感属性,则满足此指标。

例如,如果小人国和巨人国的人均申请了格鲁布杜布里大学,那么只要被录取的小人国学生所占的比例与被录取的巨人国学生所占的比例相同,就实现了受众特征均等,无论哪一群体的平均资质高低。

机会均等机会均等相比,该属性允许总体分类结果取决于敏感属性,但不允许特定指定标准答案标签的分类结果取决于敏感属性。如需查看探索在针对受众特征差异进行优化时所需做出的权衡的直观图表,请参阅“通过更智能的机器学习避免歧视”一文。

如需了解详情,请参阅机器学习速成课程中的公平性:人口统计学差异

E

挖掘机距离 (EMD)

#Metric

衡量两个分布的相对相似程度的指标。Earth Mover 距离越小,分布越相似。

编辑距离

#language
#Metric

衡量两个文本字符串之间的相似程度。在机器学习中,编辑距离非常有用,原因如下:

  • 修改距离很容易计算。
  • 编辑距离可以比较已知相似的两个字符串。
  • 编辑距离可以确定不同字符串与给定字符串的相似程度。

编辑距离有多个定义,每个定义都使用不同的字符串运算。如需查看示例,请参阅 Levenshtein 距离

经验累积分布函数 (eCDF 或 EDF)

#Metric

基于真实数据集的经验测量累积分布函数。沿 x 轴的任意一点处的函数值是数据集中小于或等于指定值的观察结果的比例。

#df
#Metric

信息论中,熵是对概率分布不可预测程度的描述。或者,熵也定义为每个示例包含的信息量。当随机变量的所有值都具有相同的概率时,分布具有可能的最大熵。

具有两个可能值“0”和“1”的集合的熵(例如,二元分类问题中的标签)的公式如下:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是“1”示例的比例。
  • q 是“0”示例的比例。请注意,q = (1 - p)
  • log 通常为 log2。在本例中,熵单位为比特。

例如,假设情况如下:

  • 100 个示例包含值“1”
  • 300 个示例包含值“0”

因此,熵值为:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每例 0.81 比特

完全平衡的集合(例如,200 个“0”和 200 个“1”)的每个示例的熵为 1.0 位。随着集合的不平衡程度增加,其熵会趋近于 0.0。

决策树中,熵有助于制定信息增益,以帮助分屏器在分类决策树增长过程中选择条件

与以下内容比较熵:

熵通常称为 Shannon 熵

如需了解详情,请参阅“决策森林”课程中的适用于包含数值特征的二元分类的完全分屏器

机会均等

#fairness
#Metric

一种公平性指标,用于评估模型是否能对敏感属性的所有值都同样准确地预测出理想结果。换句话说,如果模型的理想结果是正类别,则目标是让所有组的真正例率相同。

机会均等与机会均等相关,这要求所有群组的真正例率假正例率都相同。

假设 Glubbdubdrib 大学同时招收小人国和巨人国学生,并为他们开设了严格的数学课程。小人国的中学提供丰富的数学课程,绝大多数学生都符合大学课程的条件。布罗比冈的中学根本不开设数学课程,因此符合条件的学生要少得多。如果符合条件的学生无论是利立浦特人还是布罗比登人,都同样有可能被录取,则在针对国籍(利立浦特人或布罗比登人)的首选标签“已录取”方面,就满足了机会均等性要求。

例如,假设 100 名小人国居民和 100 名巨人国居民申请了 Glubbdubdrib 大学,录取决定如下:

表 1. 小人申请者(90% 符合条件)

  符合资格 不合格
已录取 45 3
已拒绝 45 7
总计 90 10
符合条件且被录取的学生所占百分比:45/90 = 50%
不符合条件且被拒绝的学生所占百分比:7/10 = 70%
被录取的利立浦特学生总所占百分比:(45+3)/100 = 48%

 

表 2. 巨人族申请者(10% 符合条件):

  符合资格 不合格
已录取 5 9
已拒绝 5 81
总计 10 90
被录取的符合条件的学生所占百分比:5/10 = 50%
被拒的不符合条件的学生所占百分比:81/90 = 90%
被录取的 Brobdingnagian 学生总所占百分比:(5+9)/100 = 14%

上述示例满足了对符合条件的学生提供平等录取机会的要求,因为符合条件的利立浦特人和布罗比登人都有 50% 的机会被录取。

虽然机会均等性已满足,但以下两个公平性指标未满足:

  • 人口统计均等:利立浦特人和布罗比登人被大学录取的比例不同;48% 的利立浦特人学生被录取,但只有 14% 的布罗比登人学生被录取。
  • 机会均等:虽然符合条件的利立浦特学生和布罗比登冈学生都有相同的录取机会,但未满足“不符合条件的利立浦特学生和布罗比登冈学生都有相同的被拒机会”这一额外约束条件。不符合条件的利立浦特人被拒绝的几率为 70%,而不符合条件的布罗比登人被拒绝的几率为 90%。

如需了解详情,请参阅机器学习速成课程中的公平性:机会均等

平局赔率

#fairness
#Metric

一种公平性指标,用于评估模型是否针对敏感属性的所有值,对正类负类(而不仅仅是其中一个类)都同样准确地预测了结果。换句话说,所有组的真正例率假负例率都应相同。

机会均等与机会均等相关,后者仅关注单个类别(正例或负例)的错误率。

例如,假设 Glubbdubdrib 大学同时招收小人国和巨人国学生,并为他们开设了严格的数学课程。小人国的中学提供丰富的数学课程,绝大多数学生都符合大学课程的资格要求。布罗比冈的中学根本不开设数学课程,因此符合条件的学生数量要少得多。只要符合以下条件,就满足机会均等要求:无论申请人是小人国居民还是巨人国居民,只要符合条件,就同样有可能被录取,如果不符合条件,就同样有可能被拒绝。

假设 100 名小人和 100 名巨人申请了 Glubbdubdrib 大学,录取决定如下:

表 3. 小人申请者(90% 符合条件)

  符合资格 不合格
已录取 45 2
已拒绝 45 8
总计 90 10
被录取的符合条件的学生所占百分比:45/90 = 50%
被拒的不符合条件的学生所占百分比:8/10 = 80%
被录取的利立浦特学生总所占百分比:(45+2)/100 = 47%

 

表 4. 巨人族申请者(10% 符合条件):

  符合资格 不合格
已录取 5 18
已拒绝 5 72
总计 10 90
被录取的符合条件的学生所占百分比:5/10 = 50%
被拒的不符合条件的学生所占百分比:72/90 = 80%
被录取的 Brobdingnagian 学生总所占百分比:(5+18)/100 = 23%

由于符合条件的利立浦特学生和布罗比冈学生都有 50% 的机会被录取,而不符合条件的利立浦特学生和布罗比冈学生都有 80% 的机会被拒绝,因此满足机会均等要求。

“监督学习中的机会均等”一文中对“机会均等”进行了正式定义:“如果 Ŷ 和 A 在条件为 Y 时相互独立,则预测器 Ŷ 相对于受保护属性 A 和结果 Y 满足机会均等。”

evals

#language
#generativeAI
#Metric

主要用作 LLM 评估的缩写。更广泛地说,evals 是任何形式的评估的缩写。

evaluation

#language
#generativeAI
#Metric

衡量模型质量或比较不同模型的过程。

如需评估监督式机器学习模型,您通常需要根据验证集测试集对其进行评判。评估 LLM 通常涉及更广泛的质量和安全评估。

F

F1

#Metric

一种“汇总”二元分类指标,同时依赖于精确率召回率。公式如下:

F1=2 * precision * recallprecision + recall

假设精确率和召回率具有以下值:

  • precision = 0.6
  • recall = 0.4

您可以按如下方式计算 F1

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

当精确率和召回率非常接近时(如上例所示),F1 接近它们的平均值。当精确率和召回率差异很大时,F1 会更接近较低的值。例如:

  • precision = 0.9
  • recall = 0.1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

公平指标

#fairness
#Metric

对“公平性”的可衡量数学定义。 一些常用的公平性指标包括:

许多公平性指标是互斥的;请参阅公平性指标互不相容

假负例 (FN)

#fundamentals
#Metric

被模型错误地预测为负类别的样本。例如,模型预测某封电子邮件不是垃圾邮件(负类别),但该电子邮件实际上是垃圾邮件

假负例率

#Metric

模型错误预测为负类别的实际正例所占的比例。以下公式用于计算假正例率:

false negative rate=false negativesfalse negatives+true positives

如需了解详情,请参阅机器学习速成课程中的阈值和混淆矩阵

假正例 (FP)

#fundamentals
#Metric

被模型错误地预测为正类别的样本。例如,模型预测某封电子邮件是垃圾邮件(正类别),但该电子邮件实际上不是垃圾邮件

如需了解详情,请参阅机器学习速成课程中的阈值和混淆矩阵

假正例率 (FPR)

#fundamentals
#Metric

模型错误预测为正类别的实际负例示例所占的比例。以下公式用于计算假正例率:

false positive rate=false positivesfalse positives+true negatives

假正例率是 ROC 曲线的 x 轴。

如需了解详情,请参阅机器学习速成课程中的分类:ROC 和 AUC

特征重要性

#df
#Metric

变量重要性的含义相同。

成功比例

#generativeAI
#Metric

用于评估机器学习模型的生成的文本的指标。 成功率是“成功”的生成文本输出数除以生成文本输出总数。例如,如果大语言模型生成了 10 个代码块,其中 5 个成功,则成功率为 50%。

虽然成功率在统计学中广泛适用,但在机器学习中,此指标主要用于衡量可验证的任务(例如代码生成或数学问题)。

G

基尼不纯度

#df
#Metric

类似的指标。分屏器使用从基尼不纯度或熵派生的值来组合条件,以便对决策树进行分类。信息增益派生自熵。从基尼不纯度派生出来的指标没有普遍接受的等同术语;不过,这个未命名指标与信息增益一样重要。

Gini 杂质也称为 Gini 系数,或简称 Gini

Gini 不纯度是指将来自同一分布的新数据误分类的概率。具有两个可能值“0”和“1”的集合的基尼不纯度(例如,二元分类问题中的标签)可按以下公式计算:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

其中:

  • I 是基尼不纯度。
  • p 是“1”示例的比例。
  • q 是“0”示例的比例。请注意,q = 1-p

例如,请考虑以下数据集:

  • 100 个标签(占数据集的 0.25)包含值“1”
  • 300 个标签(占数据集的 0.75)包含值“0”

因此,基尼不纯度为:

  • p = 0.25
  • q = 0.75
  • I = 1 - (0.252 + 0.752) = 0.375

因此,同一数据集中的随机标签被错误分类的概率为 37.5%,被正确分类的概率为 62.5%。

完全平衡的标签(例如,200 个“0”和 200 个“1”)的吉尼不纯度为 0.5。高度不平衡的标签的吉尼不纯度接近 0.0。


H

合页损失函数

#Metric

用于分类的一类损失函数,旨在找到与每个训练示例距离尽可能远的决策边界,从而使示例与边界之间的裕度最大化。核支持向量机使用合页损失函数(或相关函数,例如平方合页损失函数)。对于二元分类,hinge 损失函数的定义如下:

loss=max(0,1(yy))

其中 y 是真实标签(-1 或 +1),y' 是分类器模型的原始输出:

y=b+w1x1+w2x2+wnxn

因此,将 hinge 损失与 (y * y') 的图形绘制出来,如下所示:

由两个相连的线段组成的直角坐标系图。第一个线段从 (-3, 4) 开始,到 (1, 0) 结束。第二条线段从 (1, 0) 开始,以 0 的斜率无限延伸。

I

公平指标互不相容

#fairness
#Metric

某些公平性概念互不兼容,无法同时满足。因此,没有任何一个通用的指标可用于量化所有 ML 问题的公平性。

虽然这可能令人沮丧,但公平性指标互不相容并不意味着公平性方面的努力没有成效。相反,它建议必须根据特定机器学习问题的具体情况来定义公平性,以防止特定于其用例的伤害。

如需详细了解公平性指标的不兼容性,请参阅“On the (im)possibility of fairness”

个体公平

#fairness
#Metric

一项公平性指标,用于检查类似的个人是否获得了类似的分类结果。例如,Brobdingnagian Academy 可能希望通过确保成绩和标准化考试成绩完全相同的两名学生获得入学机会的可能性相同,来实现个人公平。

请注意,个体公平性完全取决于您如何定义“相似性”(在本例中,是指成绩和考试分数),如果您的相似性指标遗漏了重要信息(例如学生课程的严苛程度),则可能会引入新的公平性问题。

如需详细了解个体公平性,请参阅“通过认知实现公平性”

信息增益

#df
#Metric

决策森林中,节点的与其子节点熵的加权(按示例数)和之间的差值。节点的熵是该节点中示例的熵。

例如,请考虑以下熵值:

  • 父节点的熵 = 0.6
  • 具有 16 个相关示例的一个子节点的熵 = 0.2
  • 另一个子节点(包含 24 个相关示例)的熵 = 0.1

因此,40% 的示例位于一个子节点中,60% 的示例位于另一个子节点中。因此:

  • 子节点的加权熵总和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,信息增益为:

  • 信息增益 = 父节点的熵 - 子节点的加权熵和
  • 信息增益 = 0.6 - 0.14 = 0.46

大多数分屏器都试图创建能最大限度提高信息增益的条件

评分者间一致性信度

#Metric

衡量人工标注者在执行任务时达成一致意见的频率。 如果评分者意见不一致,则可能需要改进任务说明。有时也称为注释者间一致性信度评分者间可靠性信度。另请参阅 Cohen's kappa(最热门的评分者间一致性信度衡量指标之一)。

如需了解详情,请参阅机器学习速成课程中的分类数据:常见问题

L

L1 损失

#fundamentals
#Metric

一种损失函数,用于计算实际标签值与模型预测的值之间的差异的绝对值。例如,下面是 5 个示例批量的 L1 损失的计算方式:

示例的实际值 模型的预测值 增量的绝对值
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 损失

L2 损失相比,L1 损失对离群值的敏感性较弱。

平均绝对误差是每个示例的平均 L1 损失。

L1loss=ni=0|yiˆyi|

其中:
  • n 是示例数量。
  • y 是标签的实际值。
  • ˆy 是模型为 y 预测的值。

如需了解详情,请参阅机器学习速成课程中的线性回归:损失函数

L2 损失

#fundamentals
#Metric

一种损失函数,用于计算实际标签值与模型预测的值之间的差异的平方。例如,下面是 5 个示例批量的 L2 损失计算:

示例的实际值 模型的预测值 增量的平方
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 损失

由于取平方值,因此 L2 损失会放大离群值的影响。也就是说,与 L1 损失函数相比,L2 损失函数对错误预测的反应更强烈。例如,上一个批次的 L1 损失为 8,而不是 16。请注意,其中 16 个异常值中有 9 个是由单个异常值造成的。

回归模型通常使用 L2 损失作为损失函数。

均方误差是每个样本的平均 L2 损失。平方损失是 L2 损失的另一种说法。

L2loss=ni=0(yiˆyi)2

其中:
  • n 是示例数量。
  • y 是标签的实际值。
  • ˆy 是模型为 y 预测的值。

如需了解详情,请参阅机器学习速成课程中的逻辑回归:损失和正规化

LLM 评估 (eval)

#language
#generativeAI
#Metric

一组用于评估大语言模型 (LLM) 性能的指标和基准。概括来讲,大语言模型评估:

  • 帮助研究人员确定 LLM 需要改进的方面。
  • 对比不同 LLM 并确定特定任务的最佳 LLM 非常有用。
  • 帮助确保 LLM 的使用安全且合乎道德。

如需了解详情,请参阅机器学习速成课程中的大型语言模型 (LLM)

#fundamentals
#Metric

监督式模型训练期间,用于衡量模型的预测与其标签之间的差距。

损失函数用于计算损失。

如需了解详情,请参阅机器学习速成课程中的线性回归:损失函数

损失函数

#fundamentals
#Metric

训练或测试期间,用于计算批量示例的损失的数学函数。损失函数会针对做出准确预测的模型返回较低的损失,而针对做出不准确预测的模型返回较高的损失。

训练的目标通常是尽量降低损失函数返回的损失。

损失函数有很多种。为您要构建的模型类型选择合适的损失函数。例如:

M

平均绝对误差 (MAE)

#Metric

使用 L1 损失函数时,每个示例的平均损失。按如下方式计算平均绝对误差:

  1. 计算批处理的 L1 损失。
  2. 将 L1 损失除以批次中的样本数。

Mean Absolute Error=1nni=0|yiˆyi|

其中:

  • n 是示例数量。
  • y 是标签的实际值。
  • ˆy 是模型为 y 预测的值。

例如,请考虑以下五个示例批次的 L1 损失计算:

示例的实际值 模型的预测值 损失(实际值与预测值之间的差值)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 损失

因此,L1 损失为 8,示例数为 5。因此,平均绝对误差为:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

将平均绝对误差与均方误差均方根误差进行对比。

在 k 个预测结果时的平均精确率均值 (mAP@k)

#language
#generativeAI
#Metric

验证数据集中所有k 个预测结果的平均精确率得分的统计平均值。在 k 处的平均平均精确率的一个用途是评判推荐系统生成的推荐的质量。

虽然“平均平均值”这个词组听起来很冗余,但指标的名称是恰当的。毕竟,此指标会计算多个k 个预测结果的平均精确率值的平均值。

假设您构建了一个推荐系统,该系统会为每位用户生成个性化的推荐小说列表。根据所选用户的反馈,您计算以下五个 k 分平均准确率(每位用户一个分数):

  • 0.73
  • 0.77
  • 0.67
  • 0.82
  • 0.76

因此,在 K 处的平均精确率为:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

均方误差 (MSE)

#Metric

使用 L2 损失时,每个示例的平均损失。按如下方式计算均方误差:

  1. 计算批处理的 L2 损失。
  2. 将 L2 损失除以批次中的示例数。
Mean Squared Error=1nni=0(yiˆyi)2 其中:
  • n 是示例数量。
  • y 是标签的实际值。
  • ˆy 是模型对 y 的预测。

例如,考虑以下五个示例的批量损失:

实际值 模型的预测结果 损失 平方损失函数
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 损失

因此,均方误差为:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

均方误差是一种常用的训练优化器,尤其是对于线性回归

将均方误差与平均绝对误差均方根误差进行对比。

TensorFlow Playground 使用均方误差来计算损失值。

离群值会对均方误差产生很大影响。例如,损失为 1 时,平方损失为 1,但损失为 3 时,平方损失为 9。在上表中,损失为 3 的示例占均方误差的约 56%,而损失为 1 的每个示例仅占均方误差的 6%。

与均方误差相比,平均绝对误差不太受离群值的影响。例如,丢失 3 个账号只会导致平均绝对误差增加约 38%。

剪裁是防止极端离群值损害模型预测能力的一种方法。


指标

#TensorFlow
#Metric

您关注的统计信息。

目标是机器学习系统尝试优化的指标。

Metrics API (tf.metrics)

#Metric

用于评估模型的 TensorFlow API。例如,tf.metrics.accuracy 用于确定模型预测与标签匹配的频率。

最小最大损失

#Metric

生成式对抗网络的损失函数,基于生成数据和真实数据分布之间的交叉熵

第一篇论文中使用了极小极大损失来描述生成式对抗网络。

如需了解详情,请参阅“生成式对抗网络”课程中的损失函数部分。

模型能力

#Metric

模型可以学习的问题的复杂性。模型可以学习的问题越复杂,模型的能力就越高。模型能力通常会随着模型参数数量的增加而增强。如需了解分类器容量的正式定义,请参阅 VC 维度

负类别

#fundamentals
#Metric

二元分类中,一种类别称为正类别,另一种类别称为负类别。正类别是模型要测试的对象或事件,负类别则是另一种可能性。例如:

  • 在医学检查中,负类别可以是“非肿瘤”。
  • 在电子邮件分类器中,负类别可以是“非垃圾邮件”。

正类相对。

O

目标

#Metric

算法尝试优化的指标

目标函数

#Metric

模型旨在优化的数学公式或指标。 例如,线性回归的目标函数通常为均方误差。因此,在训练线性回归模型时,训练目标是尽量降低均方误差。

在某些情况下,目标是最大化目标函数。例如,如果目标函数是准确性,则目标是最大限度地提高准确性。

另请参阅损失

P

在 k 处通过 (pass@k)

#Metric

用于确定大语言模型生成的代码(例如 Python)质量的指标。更具体地说,在 k 个生成的代码块中,至少有一个代码块通过所有单元测试的可能性为“pass at k”。

大语言模型通常很难针对复杂的编程问题生成优质代码。软件工程师通过提示大语言模型为同一问题生成多个 (k) 解法来适应这一问题。然后,软件工程师会针对单元测试对每个解决方案进行测试。在 k 处通过的计算取决于单元测试的结果:

  • 如果一个或多个解决方案通过了单元测试,则 LLM 通过该代码生成挑战。
  • 如果所有解决方案都未通过单元测试,则 LLM 失败该代码生成挑战。

k 处通过的公式如下:

pass at k=total number of passestotal number of challenges

一般来说,k 值越高,k 分数越高;不过,k 值越高,就需要更多的大型语言模型和单元测试资源。

假设一位软件工程师要求大语言模型为 n=50 个具有挑战性的编程问题生成 k=10 个解决方案。结果如下:

  • 30 张卡券
  • 20 项失败

因此,得分为 10 时,及格分数为:

pass at 10=3050=0.6

performance

#Metric

一个多含义术语,具有以下含义:

  • 在软件工程中的标准含义。即:软件的运行速度有多快(或有多高效)?
  • 在机器学习中的含义。在机器学习领域,性能旨在回答以下问题:模型的准确度有多高?即模型在预测方面的表现有多好?

排列变量重要性

#df
#Metric

一种变量重要性,用于评估在对特征值进行排列后模型的预测误差增加情况。排列变量重要性是一个与模型无关的指标。

困惑度

#Metric

一种衡量指标,用于衡量模型能够多好地完成任务。例如,假设您的任务是读取用户在手机键盘上输入的字词的前几个字母,并提供可能的补全字词列表。此任务的困惑度 P 大致等于您需要提供的猜测次数,以便列表中包含用户尝试输入的实际字词。

困惑度与交叉熵的关系如下:

P=2cross entropy

正类别

#fundamentals
#Metric

您要测试的类。

例如,癌症模型中的正类别可以是“肿瘤”。 在电子邮件分类器中,正类别可以是“垃圾邮件”。

负类别相对。

正类别一词可能会让人感到困惑,因为许多测试的“正”结果通常是不可取的结果。例如,在许多医学检查中,正类别对应于肿瘤或疾病。一般来说,您希望医生告诉您:“恭喜!您的检测结果为阴性。” 无论如何,正类别都是测试要查找的事件。

当然,您同时要针对正例类和负例类进行测试。


PR AUC(PR 曲线下面积)

#Metric

插值精确率/召回率曲线下的面积,通过为不同分类阈值值绘制(召回率、精确率)点来获得。

精确度

#Metric

一种分类模型指标,可为您提供以下信息:

当模型预测正类别时,正确预测结果所占的百分比是多少?

公式如下:

Precision=true positivestrue positives+false positives

其中:

  • 真正例表示模型正确预测了正类别。
  • 假正例是指模型错误地预测了正类别。

例如,假设某个模型做出了 200 次正例预测。在这 200 个正例预测中:

  • 其中 150 个是真正例。
  • 其中 50 个是假正例。

在此示例中:

Precision=150150+50=0.75

准确率召回率相对。

如需了解详情,请参阅机器学习速成课程中的分类:准确率、召回率、精确率和相关指标

在 k 个样本时的准确率 (precision@k)

#language
#Metric

用于评估排名(有序)项列表的指标。 k 精确度表示该列表中前 k 项中“相关”项所占的比例。具体来说:

precision at k=relevant items in first k items of the listk

k 的值必须小于或等于返回列表的长度。请注意,返回列表的长度不包含在计算范围内。

相关性通常是主观的;即使是专家人工评估员,对于哪些内容是相关的,也往往存在分歧。

比较对象:

假设向大语言模型提出以下查询:

List the 6 funniest movies of all time in order.

大语言模型会返回下表前两列中显示的列表:

位置 电影 相关吗?
1 The General
2 《Mean Girls》
3 Platoon
4 《伴娘》
5 Citizen Kane
6 这是 Spinal Tap

前三部电影中有两部与查询相关,因此精确度为 3:

precision at 3=23=0.67

前五部电影中有四部非常有趣,因此精确度为 5:

precision at 5=45=0.8

精确率与召回率曲线

#Metric

在不同分类阈值下,精确率召回率的曲线。

预测偏差

#Metric

一个值,表示数据集中预测的平均值与标签的平均值之间的距离。

请勿与机器学习模型中的偏差项道德和公平性偏差混淆。

预测性一致性

#fairness
#Metric

一种公平性指标,用于检查对于给定分类器,考虑的子群组的精确率是否等同。

例如,如果一个预测大学录取情况的模型针对小人国和巨人国的预测精确率相同,则该模型在预测国民身份方面满足预测平权。

预测一致性有时也称为预测性费率一致性

如需详细了解预测一致性,请参阅“公平性定义说明”(第 3.2.1 节)。

预测性费率一致性

#fairness
#Metric

预测一致性的另一个名称。

概率密度函数

#Metric

用于确定数据样本确切具有特定值的频率的函数。如果数据集的值是连续的浮点数,则很少出现完全匹配的情况。不过,从值 x 到值 y 积分概率密度函数会得到 xy 之间数据样本的预期频率。

例如,假设一个正态分布的均值为 200,标准差为 30。如需确定数据样本在 211.4 到 218.7 范围内的预期频率,您可以对从 211.4 到 218.7 的正态分布概率密度函数进行积分。

R

召回

#Metric

一种分类模型指标,可为您提供以下信息:

标准答案正类别时,有多少预测结果被模型正确识别为正类别?

公式如下:

Recall=true positivestrue positives+false negatives

其中:

  • 真正例表示模型正确预测了正类别。
  • 假负例是指模型错误地预测了负类别

例如,假设您的模型对标准答案为正类别的 200 个示例做出了预测。在这 200 个预测中:

  • 其中 180 个是真正例。
  • 20 个是假负例。

在此示例中:

Recall=180180+20=0.9

召回率对于确定正类别较少的分类模型的预测能力特别有用。例如,考虑一个类别不平衡的数据集,其中只有 10 名患者(占 100 万名患者中的 1%)患有某种疾病。假设您的模型进行了 500 万次预测,并产生了以下结果:

  • 30 个真正例
  • 20 个假负例
  • 4,999,000 个真负例
  • 950 个假正例

因此,此模型的召回率为:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
相比之下,此模型的准确率为:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

这个高准确度值看起来很棒,但实际上毫无意义。对于分类不平衡的数据集,召回率比准确率更有用。


如需了解详情,请参阅分类:准确率、召回率、精确率和相关指标

召回率(recall@k)

#language
#Metric

用于评估输出排名(有序)项列表的系统的指标。k 时的召回率是指该列表中前 k 项中的相关项占返回的相关项总数的比例。

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

k 个预测结果中的准确率相对。

假设向大语言模型提问:

List the 10 funniest movies of all time in order.

大语言模型会返回前两列中显示的列表:

位置 电影 相关吗?
1 The General
2 《Mean Girls》
3 Platoon
4 《伴娘》
5 这是 Spinal Tap
6 飞机!
7 土拨鼠日
8 《巨蟒与圣杯》
9 奥本海默
10 Clueless

上表中的 8 部电影非常有趣,因此它们是“列表中的相关项”。因此,在计算 k 时的所有召回率中,分母均为 8。分子呢?前 4 项中有 3 项是相关项,因此在 4 项时的召回率为:

recall at 4=38=0.375

前 8 部电影中有 7 部非常有趣,因此在 8 部电影后回想的准确率为:

recall at 8=78=0.875

受试者工作特征曲线(receiver operating characteristic,简称 ROC 曲线)

#fundamentals
#Metric

二元分类中不同分类阈值真正例率假正例率对比图。

ROC 曲线的形状表明二元分类模型将正类别与负类别区分开的能力。例如,假设二元分类模型可以完美地将所有负类别与所有正类别区分开来:

一个数轴,右侧有 8 个正例,左侧有 7 个负例。

上述模型的 ROC 曲线如下所示:

ROC 曲线。x 轴是假正例率,y 轴是真正例率。曲线呈倒 L 形。曲线从 (0.0,0.0) 开始,一直向上到 (0.0,1.0)。然后,曲线从 (0.0,1.0) 到 (1.0,1.0)。

相比之下,下图绘制了完全无法将负类别与正类别区分开来的糟糕模型的原始逻辑回归值:

一个数轴,其中正例和负类别完全混合。

此模型的 ROC 曲线如下所示:

ROC 曲线,实际上是一条从 (0.0,0.0) 到 (1.0,1.0) 的直线。

与此同时,在现实世界中,大多数二元分类模型在一定程度上可以将正类别和负类别区分开来,但通常无法完全区分。因此,典型的 ROC 曲线介于这两种极端情况之间:

ROC 曲线。x 轴是假正例率,y 轴是真正例率。ROC 曲线近似于从西向北穿过罗盘指针的抖动弧线。

理论上,ROC 曲线上最接近 (0.0,1.0) 的点可确定理想的分类阈值。不过,还有一些其他现实问题会影响理想分类阈值的选择。例如,假负例可能比假正例造成的痛苦要多得多。

一个名为 AUC 的数值指标可将 ROC 曲线汇总为单个浮点值。

均方根误差 (RMSE)

#fundamentals
#Metric

均方误差的平方根。

ROUGE(以召回率为导向的摘要评估研究)

#language
#Metric

用于评估自动摘要和机器翻译模型的一组指标。ROUGE 指标用于确定参考文本与机器学习模型的生成文本之间的重叠程度。ROUGE 系列的每个成员都会以不同的方式衡量重叠。ROUGE 得分越高,则表示参考文本与生成文本之间的相似度越高。

每个 ROUGE 家族成员通常会生成以下指标:

  • 精确率
  • 召回率
  • F1

如需了解详情和示例,请参阅:

ROUGE-L

#language
#Metric

ROUGE 家族的一员,侧重于 参考文本生成的文本中的最长公共子序列的长度。以下公式可计算 ROUGE-L 的召回率和精确率:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

然后,您可以使用 F1 将 ROUGE-L 召回率和 ROUGE-L 精确率汇总为单个指标:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
请参考以下参考文本和生成的文本。
类别 制作人是谁? 文本
参考文本 人工翻译 我想了解各种各样的事情。
生成的文本 机器学习模型 我想学习很多东西。
因此:
  • 最长公共子序列为 5(I want to of things
  • 参考文本中的字数为 9。
  • 生成的文本中包含 7 个字词。
因此:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ROUGE-L 会忽略参考文本和生成文本中的所有换行符,因此最长公共子序列可能会跨越多句话。当参考文本和生成的文本涉及多句话时,通常最好使用一种名为 ROUGE-Lsum 的 ROUGE-L 变体指标。ROUGE-Lsum 会确定段落中每个句子的最长公共子序列,然后计算这些最长公共子序列的平均值。

请参考以下参考文本和生成的文本。
类别 制作人是谁? 文本
参考文本 人工翻译 火星表面干燥。几乎所有的水都位于地下深处。
生成的文本 机器学习模型 火星表面干燥。不过,绝大多数水都位于地下。
因此:
第一句 第二句
最长公共序列2(火星干燥) 3(水位在地下)
参考文本的句子长度 6 7
生成的文本的句子长度 5 8
因此:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

ROUGE 家族中的一组指标,用于比较参考文本生成的文本中特定大小的共享 N 元语词。例如:

  • ROUGE-1 用于衡量参考文本和生成文本中共享的令牌数。
  • ROUGE-2 用于衡量参考文本和生成文本中共享的双元语法(2-gram)的数量。
  • ROUGE-3 用于衡量参考文本和生成文本中共享的三元语法 (3-gram) 的数量。

您可以使用以下公式计算 ROUGE-N 家族中的任何成员的 ROUGE-N 召回率和 ROUGE-N 精确率:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

然后,您可以使用 F1 将 ROUGE-N 召回率和 ROUGE-N 精确率汇总为单个指标:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
假设您决定使用 ROUGE-2 来衡量机器学习模型的翻译效果与人类译者的翻译效果。
类别 制作人是谁? 文本 二元语法
参考文本 人工翻译 我想了解各种各样的事情。 我想,想,想了解,了解,各种各样,各种各样
生成的文本 机器学习模型 我想学习很多东西。 我想,想学习,学习很多很多
因此:
  • 匹配的 2 元词组的数量为 3(I wantwant toof things)。
  • 参考文本中的 2-gram 数量为 8。
  • 生成的文本中的 2-gram 数量为 6。
因此:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metric

一种宽容的 ROUGE-N 形式,支持 skip-gram 匹配。也就是说,ROUGE-N 仅统计完全匹配的 N 元语法,但 ROUGE-S 还会统计由一个或多个字词分隔的 N 元语法。例如,应该考虑以下事项:

计算 ROUGE-N 时,2 元语法“白云”与“白色翻滚的云”不匹配。不过,在计算 ROUGE-S 时,白云白色滚滚云是匹配的。

R 平方

#Metric

回归指标,用于指示标签的变化程度是由于单个特征还是特征集所致。决定系数 R 平方值介于 0 到 1 之间,您可以按如下方式解读:

  • R 平方值为 0 表示标签的任何变化都不是由特征集引起的。
  • R 平方值为 1 表示标签的所有变化都归因于特征集。
  • 介于 0 和 1 之间的 R 平方值表示可以从特定特征或特征集预测标签变化的程度。例如,如果 R 平方值为 0.10,则表示标签中 10% 的方差归因于特征集;如果 R 平方值为 0.20,则表示 20% 的方差归因于特征集,以此类推。

R 平方是模型预测的值与标准答案之间的皮尔逊相关系数的平方。

S

评分

#recsystems
#Metric

推荐系统的一部分,用于为候选项生成阶段生成的每个项提供值或排名。

相似度度量

#clustering
#Metric

聚类算法中,用于确定任何两种样本相似程度的指标。

稀疏性

#Metric

向量或矩阵中设为零(或 null)的元素数除以该向量或矩阵中的条目总数。例如,假设有一个 100 个元素的矩阵,其中 98 个单元格包含零。稀疏度的计算方式如下:

sparsity=98100=0.98

特征稀疏性是指特征矢量的稀疏性;模型稀疏性是指模型权重的稀疏性。

平方合页损失函数

#Metric

合页损失函数的平方。与常规合页损失函数相比,平方合页损失函数对离群值的惩罚更为严厉。

平方损失函数

#fundamentals
#Metric

L2 损失的同义词。

T

测试丢失

#fundamentals
#Metric

一个指标,表示模型在测试集上的损失。构建模型时,您通常会尝试最大限度地减少测试损失。这是因为,与训练损失验证损失较低相比,测试损失较低是更强的质量信号。

测试损失与训练损失或验证损失之间存在较大差距有时表示您需要提高正则化率

Top-k 准确性

#language
#Metric

“目标标签”在生成的列表的前 k 个位置中出现的次数所占的百分比。列表可以是个性化推荐,也可以是按 softmax 排序的项列表。

前 k 个结果的准确率也称为 k 个结果的准确率

假设有一个机器学习系统,它使用 softmax 函数根据树叶照片识别树的概率。下表显示了根据五张输入树木图片生成的输出列表。每行包含一个目标标签和五棵最可能的树。例如,当目标标签为枫树时,机器学习模型会将榆树识别为最可能的树,橡树识别为第二可能的树,依此类推。

目标标签 1 2 3 4 5
枫树 elm 橡树 maple 山毛榉 波普勒
山茱萸 橡树 dogwood 波普勒 Hickory 枫树
橡树 oak 椴树 蝗虫 桤木 Linden
Linden 枫树 paw-paw 橡树 椴树 波普勒
橡树 蝗虫 Linden oak 枫树 paw-paw

目标标签仅在第一个位置出现一次,因此前 1 名准确率为:

top-1 accuracy=15=0.2

目标标签出现在前三名位置中四次,因此前三名准确率为:

top-1 accuracy=45=0.8

恶意

#language
#Metric

内容的侮辱性、威胁性或冒犯性程度。许多机器学习模型都可以识别和衡量毒性。大多数此类模型会根据多种参数(例如辱骂性语言的程度和威胁性语言的程度)来识别毒性内容。

训练损失

#fundamentals
#Metric

一个指标,表示模型在特定训练迭代期间的损失。例如,假设损失函数为均方误差。假设第 10 次迭代的训练损失(均方误差)为 2.2,第 100 次迭代的训练损失为 1.9。

损失曲线会绘制训练损失与迭代次数的关系图。损失曲线可提供有关训练的以下提示:

  • 向下倾斜表示模型在不断改进。
  • 向上的斜率表示模型效果越来越差。
  • 平缓的斜率表示模型已达到收敛

例如,以下经过一定理想化的损失曲线显示:

  • 初始迭代期间的下降斜率较陡,这意味着模型在快速改进。
  • 在接近训练结束时,斜率逐渐变平(但仍向下),这意味着模型会继续改进,但速度比初始迭代期间略慢。
  • 训练结束时斜率变平,这表明模型已收敛。

训练损失与迭代次数的图表。此损失曲线从陡峭的向下斜坡开始。斜率会逐渐变平,直到斜率变为零。

虽然训练损失很重要,但另请参阅泛化

真负例 (TN)

#fundamentals
#Metric

模型正确预测负类别的示例。例如,模型推断出某封电子邮件不是垃圾邮件,而该电子邮件确实不是垃圾邮件

真正例 (TP)

#fundamentals
#Metric

模型正确预测为正类别的示例。例如,模型推断出某封电子邮件是垃圾邮件,而该电子邮件确实是垃圾邮件。

真正例率 (TPR)

#fundamentals
#Metric

召回率的含义相同。具体来说:

true positive rate=true positivestrue positives+false negatives

真正例率是 ROC 曲线的 y 轴。

V

验证损失

#fundamentals
#Metric

一个指标,表示在训练的特定迭代期间,模型在验证集上的损失

另请参阅泛化曲线

变量重要性

#df
#Metric

一组得分,用于指示每个特征对模型的相对重要性。

例如,假设有一个用于估算房价的决策树。假设此决策树使用三个特征:尺寸、年龄和款式。如果计算出的这三个特征的一组变量重要性为 {size=5.8, age=2.5, style=4.7},则对于决策树而言,size 比 age 或 style 更重要。

存在不同的变量重要性指标,可让机器学习专家了解模型的不同方面。

W

Wasserstein 损失

#Metric

生成式对抗网络中常用的损失函数之一,基于生成数据和真实数据分布之间的地球移动距离