机器学习术语表:机器学习基础知识

本页包含机器学习基础知识术语表中的术语。如需查看所有术语,请点击此处

A

准确性

#fundamentals
#Metric

正确的分类预测数量除以预测总数。具体来说:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如,如果某个模型做出了 40 次正确预测和 10 次错误预测,那么其准确率为:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分类为不同类别的正确预测错误预测提供了具体名称。因此,二元分类的准确率公式如下:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中:

  • TP 是真正例(正确预测)的数量。
  • TN 是真负例(正确预测)的数量。
  • FP 是假正例(不正确的预测)的数量。
  • FN 是假负例(不正确的预测)的数量。

比较和对比准确率与精确率召回率

如需了解详情,请参阅机器学习速成课程中的分类:准确率、召回率、精确率和相关指标

激活函数

#fundamentals

一种使神经网络能够学习特征与标签之间非线性(复杂)关系的函数。

常用的激活函数包括:

激活函数的图从不是单条直线。 例如,ReLU 激活函数的图由两条直线组成:

包含两条线的直角坐标曲线图。第一条线的 y 值恒定为 0,沿 x 轴从 -infinity,0 延伸到 0,-0。
          第二行的起始位置为 0,0。此线的斜率为 +1,因此它从 0,0 延伸到 +infinity,+infinity。

Sigmoid 激活函数的图如下所示:

一个二维曲线图,x 值范围为负无穷大到正无穷大,而 y 值范围为接近 0 到接近 1。当 x 为 0 时,y 为 0.5。曲线的斜率始终为正,在 0 和 0.5 处斜率最高,随着 x 的绝对值增加,斜率逐渐减小。

如需了解详情,请参阅机器学习速成课程中的神经网络:激活函数

人工智能

#fundamentals

能够解决复杂任务的非人类程序或模型。 例如,翻译文本的程序或模型以及根据放射影像识别疾病的程序或模型都展现出了人工智能。

从形式上讲,机器学习是人工智能的一个子领域。不过,近年来,一些组织开始交替使用人工智能机器学习这两个术语。

AUC(ROC 曲线下面积)

#fundamentals
#Metric

一个介于 0.0 和 1.0 之间的数字,表示二元分类模型区分正类别负类别的能力。 AUC 越接近 1.0,模型区分不同类别的能力就越好。

例如,下图显示了一个完美区分正类别(绿色椭圆)和负类别(紫色矩形)的分类模型。这个不切实际的完美模型的 AUC 为 1.0:

一条数轴,一侧有 8 个正例,另一侧有 9 个负例。

相反,下图显示了生成随机结果的分类模型的结果。此模型的 AUC 为 0.5:

一条数轴,上面有 6 个正例和 6 个负例。
          示例序列为正、负、正、负、正、负、正、负、正、负、正、负。

是的,上述模型的 AUC 为 0.5,而不是 0.0。

大多数模型都介于这两种极端情况之间。例如,以下模型在一定程度上区分了正分类和负分类,因此其 AUC 介于 0.5 和 1.0 之间:

一条数轴,上面有 6 个正例和 6 个负例。
          示例序列为负、负、负、负、正、负、正、正、负、正、正、正。

AUC 会忽略您为分类阈值设置的任何值。相反,AUC 会考虑所有可能的分类阈值。

如需了解详情,请参阅机器学习速成课程中的分类:ROC 和 AUC

B

反向传播

#fundamentals

神经网络中实现梯度下降的算法。

训练神经网络需要多次迭代以下双向传递周期:

  1. 前向传递期间,系统会处理一批 示例,以生成预测结果。系统会将每个预测值与每个标签值进行比较。预测值与标签值之间的差值就是相应示例的损失。系统会汇总所有示例的损失,以计算当前批次的总损失。
  2. 反向传递(反向传播)期间,系统会通过调整所有隐藏层中所有神经元的权重来减少损失。

神经网络通常包含多个隐藏层中的许多神经元。每个神经元以不同的方式影响总体损失。 反向传播会确定是增加还是减少应用于特定神经元的权重。

学习速率是一种乘数,用于控制每次向后传递时每个权重增加或减少的程度。与较小的学习速率相比,较大的学习速率会更大幅度地增加或减少每个权重。

从微积分的角度来看,反向传播实现了微积分中的链式法则。也就是说,反向传播会计算误差相对于每个形参的偏导数

多年前,机器学习从业者必须编写代码才能实现反向传播。Keras 等现代机器学习 API 现在会为您实现反向传播。好,

如需了解详情,请参阅机器学习速成课程中的神经网络

批处理

#fundamentals

一次训练迭代中使用的示例集。批次大小决定了一个批次中的样本数量。

如需了解批次与周期之间的关系,请参阅周期

如需了解详情,请参阅机器学习速成课程中的线性回归:超参数

批次大小

#fundamentals

一个批次中的样本数量。 例如,如果批次大小为 100,则模型在每次迭代中处理 100 个样本。

以下是常用的批次大小策略:

  • 随机梯度下降法 (SGD),其中批次大小为 1。
  • 完整批次,其中批次大小为整个训练集中的样本数量。例如,如果训练集包含 100 万个样本,则批次大小为 100 万个样本。完整批次通常是一种低效的策略。
  • 小批次,其中批次大小通常介于 10 到 1000 之间。小批次通常是最有效的策略。

请参阅以下内容了解详细信息:

偏差(道德/公平性)

#responsible
#fundamentals

1. 对某些事物、人或群体有刻板印象、偏见或偏袒。这些偏差会影响数据的收集和解读、系统设计以及用户与系统的互动方式。此类偏差的形式包括:

2. 采样或报告过程中引入的系统性误差。 此类偏差的形式包括:

请勿与机器学习模型中的偏差项预测偏差混淆。

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

偏差(数学概念)或偏差项

#fundamentals

距离原点的截距或偏移。偏差是机器学习模型中的一个形参,可用以下任一符号表示:

  • b
  • w0

例如,在下面的公式中,偏差为 b:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在简单的二维线性模型中,偏差仅表示“y 轴截距”。 例如,下图中的直线的偏差为 2。

斜率为 0.5、偏差(y 轴截距)为 2 的直线的图。

之所以存在偏差,是因为并非所有模型都从原点 (0,0) 开始。例如,假设某游乐园的门票为 2 欧元,客户每停留 1 小时需额外支付 0.5 欧元。因此,映射总费用的模型具有 2 的偏差,因为最低费用为 2 欧元。

请勿将偏差与道德和公平性偏差预测偏差混淆。

如需了解详情,请参阅机器学习速成课程中的线性回归

二元分类

#fundamentals

一种分类任务,用于预测两个互斥的类别之一:

例如,以下两个机器学习模型都执行二元分类:

  • 一种用于确定电子邮件是垃圾邮件(正类别)还是非垃圾邮件(负类别)的模型。
  • 一种评估医疗症状以确定某人是否患有特定疾病(正类别)的模型。

多类别分类相对。

另请参阅逻辑回归分类阈值

如需了解详情,请参阅机器学习速成课程中的分类

分桶

#fundamentals

将单个特征转换为多个二元特征(称为),通常根据值区间进行转换。截断的特征通常是连续特征

例如,您可以将温度范围划分为离散的区间,而不是将温度表示为单个连续的浮点特征,例如:

  • <= 10 摄氏度为“冷”区间。
  • 11-24 摄氏度为“温带”区间。
  • >= 25 摄氏度为“温暖”区间。

模型将以相同方式处理同一分桶中的每个值。例如,值 1322 都位于温和型分桶中,因此模型会以相同的方式处理这两个值。

如需了解详情,请参阅机器学习速成课程中的数值数据:分箱

C

分类数据

#fundamentals

特征,拥有一组特定的可能值。例如,假设有一个名为 traffic-light-state 的分类特征,该特征只能具有以下三个可能值之一:

  • red
  • yellow
  • green

通过将 traffic-light-state 表示为分类特征,模型可以了解 redgreenyellow 对驾驶员行为的不同影响。

分类特征有时称为离散特征

数值数据相对。

如需了解详情,请参阅机器学习速成课程中的处理分类数据

类别

#fundamentals

标签可以所属的类别。 例如:

  • 在检测垃圾邮件的二元分类模型中,这两个类别可能是垃圾邮件非垃圾邮件
  • 在识别犬种的多类别分类模型中,类别可能是贵宾犬比格犬巴哥犬等。

分类模型可预测类别。 相比之下,回归模型预测的是数字,而不是类别。

如需了解详情,请参阅机器学习速成课程中的分类

分类模型

#fundamentals

预测结果为类别模型。例如,以下都是分类模型:

  • 一个模型,用于预测输入句子的语言(法语?西班牙语? 意大利语?)。
  • 一个模型,用于预测树种(枫树?橡树?猴面包树?)。
  • 用于预测特定医疗状况是阳性还是阴性的模型。

相比之下,回归模型预测的是数字,而不是类别。

以下是两种常见的分类模型:

分类阈值

#fundamentals

二元分类中,一个介于 0 到 1 之间的数字,用于将逻辑回归模型的原始输出转换为对正类别负类别的预测。 请注意,分类阈值是人为选择的值,而不是通过模型训练选择的值。

逻辑回归模型会输出一个介于 0 到 1 之间的原始值。然后,执行以下操作:

  • 如果此原始值大于分类阈值,则预测为正类别。
  • 如果此原始值小于分类阈值,则预测为负类。

例如,假设分类阈值为 0.8。如果原始值为 0.9,则模型预测为正类别。如果原始值为 0.7,则模型预测为负类别。

分类阈值的选择会严重影响假正例假负例的数量。

如需了解详情,请参阅机器学习速成课程中的阈值和混淆矩阵

分类器

#fundamentals

分类模型的非正式术语。

类别不平衡的数据集

#fundamentals

一种分类数据集,其中每个的总标签数量差异很大。例如,假设有一个二元分类数据集,其两个标签的划分如下所示:

  • 100 万个负值标签
  • 10 个正值标签

负标签与正标签的比率为 100,000 比 1,因此这是一个分类不平衡的数据集。

相比之下,以下数据集是类别平衡的,因为负标签与正标签的比率相对接近 1:

  • 517 个负值标签
  • 483 个正值标签

多类别数据集也可能存在类别不平衡问题。例如,以下多类别分类数据集也存在类别不平衡问题,因为一个标签的示例数量远多于其他两个标签:

  • 1,000,000 个标签,类别为“绿色”
  • 200 个带有“紫色”类的标签
  • 350 个带有“橙色”类别的标签

训练类别不平衡的数据集可能会带来特殊挑战。如需了解详情,请参阅机器学习速成课程中的不平衡的数据集

另请参阅多数类少数类

裁剪

#fundamentals

一种处理离群值的方法,通过执行以下一项或两项操作来实现:

  • 将大于最大阈值的特征值减小到该最大阈值。
  • 将小于最小阈值的特征值增加到该最小阈值。

例如,假设某个特定特征的值中只有不到 0.5% 不在 40-60 的范围内。在这种情况下,您可以执行以下操作:

  • 将超过 60(最大阈值)的所有值裁剪到正好 60。
  • 将小于 40(最低阈值)的所有值裁剪到正好 40。

离群值可能会损坏模型,有时会导致训练期间出现权重溢出。某些离群值也可能会严重影响准确率等指标。剪裁是一种限制损坏的常用技术。

梯度裁剪可在训练期间强制使梯度值位于指定范围内。

如需了解详情,请参阅机器学习速成课程中的数值数据:归一化

混淆矩阵

#fundamentals

一种 NxN 表格,用于总结分类模型做出的正确和错误预测的数量。例如,假设某个二元分类模型的混淆矩阵如下所示:

肿瘤(预测) 非肿瘤(预测)
肿瘤(标准答案) 18 (TP) 1 (FN)
非肿瘤(标准答案) 6(FP) 452(突尼斯)

上述混淆矩阵显示了以下内容:

  • 在 19 个标准答案为“肿瘤”的预测中,模型正确分类了 18 个,错误分类了 1 个。
  • 在标准答案为“非肿瘤”的 458 次预测中,模型正确分类了 452 次,错误分类了 6 次。

多类别分类问题的混淆矩阵可帮助您发现错误模式。例如,假设有一个 3 类多类分类模型,用于对三种不同的鸢尾花类型(维吉尼亚鸢尾、变色鸢尾和山鸢尾)进行分类,那么该模型的混淆矩阵如下所示。当标准答案为 Virginica 时,混淆矩阵显示,模型更有可能错误地预测为 Versicolor,而不是 Setosa:

  Setosa(预测) Versicolor(预测) Virginica(预测)
Setosa(标准答案) 88 12 0
Versicolor(标准答案) 6 141 7
Virginica(标准答案) 2 27 109

再举一个例子,某个混淆矩阵可以揭示,经过训练以识别手写数字的模型往往会将 4 错误地预测为 9,或者将 7 错误地预测为 1。

混淆矩阵包含足够的信息来计算各种效果指标,包括精确率召回率

连续特征

#fundamentals

一种浮点特征,具有无限范围的可能值,例如温度或体重。

离散特征相对。

收敛

#fundamentals

损失值在每次迭代中的变化非常小或根本没有变化时,即达到收敛状态。例如,以下损失曲线表明模型在大约 700 次迭代时收敛:

笛卡尔图。X 轴是损失。Y 轴是训练迭代次数。在前几次迭代中,损失非常高,但随后急剧下降。大约 100 次迭代后,损失仍在下降,但下降速度要慢得多。大约 700 次迭代后,损失保持不变。

当额外训练无法改进模型时,模型就会收敛

深度学习中,损失值有时会在许多次迭代中保持不变或几乎不变,然后才会最终下降。在损失值长期保持不变的情况下,您可能会暂时产生错误的收敛感。

另请参阅早停法

如需了解详情,请参阅机器学习速成课程中的模型收敛和损失曲线

D

DataFrame

#fundamentals

一种热门的 pandas 数据类型,用于表示内存中的数据集

DataFrame 类似于表格或电子表格。DataFrame 的每一列都有一个名称(标题),每一行都由一个唯一编号标识。

DataFrame 中的每一列都以二维数组的形式构建,但每一列都可以分配自己的数据类型。

另请参阅官方 pandas.DataFrame 参考页面

数据集(data set 或 dataset)

#fundamentals

原始数据的集合,通常(但不一定)以以下格式之一进行整理:

  • 电子表格
  • 采用 CSV(逗号分隔值)格式的文件

深度模型

#fundamentals

包含多个隐藏层神经网络

深度模型也称为深度神经网络

宽度模型相对。

密集特征

#fundamentals

一种特征,其中大多数或所有值都不为零,通常是浮点值的 Tensor。例如,以下 10 元素张量是密集张量,因为其中 9 个值不为零:

8 3 7 5 2 4 0 4 9 6

稀疏特征相对。

深度

#fundamentals

神经网络中以下各项的总和:

例如,具有 5 个隐藏层和 1 个输出层的神经网络的深度为 6。

请注意,输入层不会影响深度。

离散特征

#fundamentals

一种特征,包含有限个可能值。例如,值可能仅为 animalvegetablemineral 的特征是离散(或分类)特征。

连续特征相对。

动态

#fundamentals

经常或持续做某事。 在机器学习中,“动态”和“在线”是同义词。以下是机器学习中动态在线的常见用途:

  • 动态模型(或在线模型)是一种经常或持续重新训练的模型。
  • 动态训练(或在线训练)是指频繁或持续的训练过程。
  • 动态推理(或在线推理)是指根据需要生成预测的过程。

动态模型

#fundamentals

一种经常(甚至持续)重新训练的模型。动态模型是“终身学习者”,会不断适应不断变化的数据。动态模型也称为在线模型

静态模型相对。

E

早停法

#fundamentals

一种正则化方法,涉及在训练损失停止下降之前结束训练。在早停法中,当验证数据集的损失开始增加时(即泛化性能变差时),您会故意停止训练模型。

提前退出相对。

嵌入层

#fundamentals

一种特殊的隐藏层,可针对高维分类特征进行训练,以逐步学习低维嵌入向量。与仅基于高维分类特征进行训练相比,嵌入层可让神经网络的训练效率大幅提高。

例如,地球目前支持约 73,000 种树。假设树种是模型中的一个特征,那么模型的输入层将包含一个长度为 73,000 的独热向量。 例如,baobab 可能会以如下方式表示:

一个包含 73,000 个元素的数组。前 6,232 个元素的值为 0。下一个元素的值为 1。最后 66,767 个元素的值为零。

一个包含 73,000 个元素的数组非常长。如果您不向模型添加嵌入层,则由于要乘以 72,999 个零,训练将非常耗时。假设您选择的嵌入层包含 12 个维度。因此,嵌入层将逐渐学习每种树木的新嵌入向量。

在某些情况下,哈希处理是嵌入层的合理替代方案。

如需了解详情,请参阅机器学习速成课程中的嵌入

周期数

#fundamentals

在训练时,对整个训练集的一次完整遍历,不会漏掉任何一个样本

一个周期表示 N/批次大小次训练迭代,其中 N 是样本总数。

例如,假设存在以下情况:

  • 该数据集包含 1,000 个示例。
  • 批次大小为 50 个样本。

因此,一个周期需要 20 次迭代:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

如需了解详情,请参阅机器学习速成课程中的线性回归:超参数

示例

#fundamentals

一行特征的值,可能还包含一个标签监督式学习中的示例大致分为两类:

  • 有标签样本包含一个或多个特征和一个标签。在训练期间使用有标签的示例。
  • 无标签样本包含一个或多个特征,但不包含标签。在推理期间会使用无标签样本。

例如,假设您正在训练一个模型,以确定天气条件对学生考试成绩的影响。以下是三个带标签的示例:

功能 标签
温度 湿度 压力 测试分数
15 47 998 良好
19 34 1020 极佳
18 92 1012

以下是三个未标记的示例:

温度 湿度 压力  
12 62 1014  
21 47 1017  
19 41 1021  

数据集的行通常是示例的原始来源。 也就是说,一个示例通常由数据集中的部分列组成。此外,示例中的特征还可以包括合成特征,例如特征交叉

如需了解详情,请参阅“机器学习简介”课程中的监督式学习

F

假负例 (FN)

#fundamentals
#Metric

被模型错误地预测为负类别的样本。例如,模型预测某封电子邮件不是垃圾邮件(负类别),但该电子邮件实际上是垃圾邮件

假正例 (FP)

#fundamentals
#Metric

被模型错误地预测为正类别的样本。例如,模型预测某封电子邮件是垃圾邮件(正类别),但该电子邮件实际上不是垃圾邮件

如需了解详情,请参阅机器学习速成课程中的阈值和混淆矩阵

假正例率 (FPR)

#fundamentals
#Metric

模型错误地将实际负例预测为正例的比例。以下公式用于计算假正率:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

假正例率是 ROC 曲线的 x 轴。

如需了解详情,请参阅机器学习速成课程中的分类:ROC 和 AUC

功能

#fundamentals

机器学习模型的输入变量。一个示例包含一个或多个特征。例如,假设您正在训练一个模型,以确定天气条件对学生考试成绩的影响。下表显示了三个示例,每个示例都包含三个特征和一个标签:

功能 标签
温度 湿度 压力 测试分数
15 47 998 92
19 34 1020 84
18 92 1012 87

标签相对。

如需了解详情,请参阅“机器学习简介”课程中的监督式学习

特征组合

#fundamentals

通过“组合”分类分桶特征形成的合成特征

例如,假设有一个“情绪预测”模型,它使用以下四个区间之一来表示温度:

  • freezing
  • chilly
  • temperate
  • warm

并以以下三个区间之一表示风速:

  • still
  • light
  • windy

如果不进行特征交叉,线性模型会针对上述七个不同的分桶分别进行独立训练。因此,模型会基于 freezing 进行训练,而不会基于 windy 进行训练。

或者,您也可以创建温度和风速的特征交叉。此合成特征将具有以下 12 个可能的值:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

借助特征交叉,模型可以了解freezing-windy天和freezing-still天之间的情绪差异。

如果您使用两个各自具有许多不同分箱的特征创建合成特征,则生成的特征交叉将具有大量可能的组合。例如,如果一个特征有 1,000 个分桶,另一个特征有 2,000 个分桶,那么生成的特征交叉就有 2,000,000 个分桶。

从形式上讲,交叉是笛卡尔积

特征交叉主要用于线性模型,很少用于神经网络。

如需了解详情,请参阅机器学习速成课程中的类别数据:特征交叉

特征工程

#fundamentals
#TensorFlow

一种流程,包括以下步骤:

  1. 确定哪些特征可能在训练模型方面非常有用。
  2. 将数据集中的原始数据转换为这些特征的高效版本。

例如,您可能会认为 temperature 是一项有用的功能。然后,您可以尝试使用分桶来优化模型从不同 temperature 范围中学习的内容。

特征工程有时称为特征提取特征化

如需了解详情,请参阅机器学习速成课程中的数值数据:模型如何使用特征向量提取数据

功能集

#fundamentals

机器学习模型训练时采用的一组特征。例如,用于预测房价的模型的简单特征集可能包含邮政编码、房产面积和房产状况。

特征向量

#fundamentals

构成示例特征值数组。特征向量在训练推理期间作为输入。例如,具有两个离散特征的模型的特征向量可能如下所示:

[0.92, 0.56]

四个层:一个输入层、两个隐藏层和一个输出层。
          输入层包含两个节点,一个节点包含值 0.92,另一个节点包含值 0.56。

每个示例都为特征向量提供不同的值,因此下一个示例的特征向量可能如下所示:

[0.73, 0.49]

特征工程决定了如何在特征向量中表示特征。例如,具有 5 个可能值的二元分类特征可以使用独热编码来表示。在这种情况下,特定示例的特征向量部分将包含四个零和一个位于第三位置的 1.0,如下所示:

[0.0, 0.0, 1.0, 0.0, 0.0]

再举一例,假设您的模型包含三个特征:

  • 采用独热编码表示的具有个可能值的二元分类特征;例如:[0.0, 1.0, 0.0, 0.0, 0.0]
  • 另一个二元分类特征,具有 3 个可能的值,以独热编码表示;例如:[0.0, 0.0, 1.0]
  • 浮点特征;例如:8.3

在这种情况下,每个示例的特征向量将由 9 个值表示。根据上一个列表中的示例值,特征向量将为:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

如需了解详情,请参阅机器学习速成课程中的数值数据:模型如何使用特征向量提取数据

反馈环

#fundamentals

在机器学习中,一种模型预测会影响同一模型或其他模型的训练数据的情况。例如,推荐电影的模型会影响用户看到的电影,进而影响后续的电影推荐模型。

如需了解详情,请参阅机器学习速成课程中的生产环境机器学习系统:需要提出的问题

G

泛化

#fundamentals

模型针对以前未见过的新数据做出正确预测的能力。能够泛化的模型与过拟合模型正好相反。

如需了解详情,请参阅机器学习速成课程中的泛化

泛化曲线

#fundamentals

迭代次数为自变量的训练损失验证损失的曲线图。

泛化曲线可以帮助您检测可能出现的过拟合。例如,以下泛化曲线表明出现过拟合,因为验证损失最终明显高于训练损失。

直角坐标图,其中 y 轴标记为“损失”,x 轴标记为“迭代次数”。系统会显示两个图。一个图显示的是训练损失,另一个图显示的是验证损失。
          这两个图刚开始相似,但训练损失最终会下降,远低于验证损失。

如需了解详情,请参阅机器学习速成课程中的泛化

梯度下降法

#fundamentals

一种可最大限度减少损失的数学技术。 梯度下降法以迭代方式调整权重偏差,逐渐找到可将损失降至最低的最佳组合。

梯度下降比机器学习早得多。

如需了解详情,请参阅机器学习速成课程中的线性回归:梯度下降

标准答案

#fundamentals

现实。

实际发生的事情。

例如,假设有一个二元分类模型,用于预测大学一年级学生是否会在六年内毕业。此模型的标准答案是相应学生是否在 6 年内实际毕业。

H

隐藏层

#fundamentals

神经网络中介于输入层(特征)和输出层(预测)之间的层。每个隐藏层都包含一个或多个神经元。例如,以下神经网络包含两个隐藏层,第一个隐藏层有 3 个神经元,第二个隐藏层有 2 个神经元:

四个层级。第一个层是包含两个特征的输入层。第二层是包含三个神经元的隐藏层。第三层是包含两个神经元的隐藏层。第四层是输出层。每个特征都包含三条边,每条边都指向第二层中的不同神经元。第二层中的每个神经元都包含两条边,每条边都指向第三层中的不同神经元。第三层中的每个神经元都包含一条边,每条边都指向输出层。

深度神经网络包含多个隐藏层。例如,上图所示的是一个深度神经网络,因为该模型包含两个隐藏层。

如需了解详情,请参阅机器学习速成课程中的神经网络:节点和隐藏层

超参数

#fundamentals

在连续多次训练模型期间,您或超参数调节服务(例如 Vizier)调整的变量。例如,学习速率就是一种超参数。您可以在一次训练会话之前将学习率设置为 0.01。如果您认为 0.01 过高,则可以在下一次训练会话中将学习率设置为 0.003。

相比之下,形参是模型在训练期间学习的各种权重偏差

如需了解详情,请参阅机器学习速成课程中的线性回归:超参数

I

独立同分布 (i.i.d)

#fundamentals

从不发生变化的分布中抽取的数据,其中抽取的每个值都不依赖于之前抽取的值。i.i.d. 是机器学习的理想情况 - 一种实用的数学结构,但在现实世界中几乎从未发现过。例如,某个网页的访问者在短时间内的分布可能为 i.i.d.,即分布在该短时间内没有变化,且一位用户的访问行为通常与另一位用户的访问行为无关。不过,如果您扩大时间范围,网页访问者的季节性差异可能会显现出来。

另请参阅非平稳性

推理

#fundamentals
#generativeAI

在传统机器学习中,推断是指以下过程:通过将训练过的模型应用于无标签样本做出预测。如需了解详情,请参阅“机器学习简介”课程中的监督式学习

大语言模型中,推理是指使用训练好的模型针对输入提示生成回答的过程。

推理在统计学中具有略有不同的含义。如需了解详情,请参阅 维基百科中有关统计学推断的文章

输入层

#fundamentals

神经网络中用于存储特征向量。也就是说,输入层为训练推理提供示例。例如,以下神经网络中的输入层包含两个特征:

四个层:一个输入层、两个隐藏层和一个输出层。

可解释性

#fundamentals

能够以人类可理解的方式解释或呈现机器学习模型的推理过程。

例如,大多数线性回归模型都具有很高的可解释性。(您只需查看每个特征的训练权重。)决策森林也具有很高的可解释性。不过,某些模型仍需进行复杂的可视化处理,才能变得可解释。

您可以使用 Learning Interpretability Tool (LIT) 来解读机器学习模型。

迭代

#fundamentals

训练期间,对模型的参数(即模型的权重偏差)进行一次更新。批次大小决定了模型在单次迭代中处理的样本数量。例如,如果批次大小为 20,则模型会在调整参数之前处理 20 个样本。

在训练神经网络时,单次迭代涉及以下两个传递:

  1. 一次前向传递,用于评估单个批次的损失。
  2. 一次反向传递(反向传播),用于根据损失和学习速率调整模型参数。

如需了解详情,请参阅机器学习速成课程中的梯度下降

L

L0 正则化

#fundamentals

一种正则化,用于惩罚模型中非零权重总数。例如,具有 11 个非零权重的模型受到的惩罚会高于具有 10 个非零权重的类似模型。

L0 正则化有时称为 L0 范数正则化

L1 损失

#fundamentals
#Metric

一种损失函数,用于计算实际标签值与模型预测的值之间的差的绝对值。例如,以下是针对包含 5 个示例批次计算 L1 损失的示例:

示例的实际值 模型的预测值 增量的绝对值
7 6 1
5 4 1 个
8 11 3
4 6 2
9 8 1
  8 = L1 损失

L1 损失对离群值的敏感性弱于 L2 损失

平均绝对误差是每个样本的平均 L1 损失。

如需了解详情,请参阅机器学习速成课程中的线性回归:损失

L1 正则化

#fundamentals

一种正则化,根据权重的绝对值总和按比例惩罚权重。L1 正则化有助于使不相关或几乎不相关的特征的权重正好为 0。权重为 0 的特征实际上已从模型中移除。

L2 正则化相对。

L2 损失

#fundamentals
#Metric

一种损失函数,用于计算实际标签值与模型预测的值之间的平方差。例如,以下是针对包含 5 个示例批次计算 L2 损失的示例:

示例的实际值 模型的预测值 增量的平方
7 6 1
5 4 1 个
8 11 9
4 6 4
9 8 1
  16 = L2 损失

由于取平方值,因此 L2 损失会放大离群值的影响。也就是说,与 L1 损失相比,L2 损失对不良预测的反应更强烈。例如,前一个批次的 L1 损失将为 8 而不是 16。请注意,一个离群值就占了 16 个值中的 9 个。

回归模型通常使用 L2 损失作为损失函数。

均方误差是指每个样本的平均 L2 损失。 平方损失是 L2 损失的另一种说法。

如需了解详情,请参阅机器学习速成课程中的逻辑回归:损失和正规化

L2 正则化

#fundamentals

一种正则化,根据权重平方和按比例惩罚权重。L2 正则化有助于使离群值(具有较大正值或较小负值)权重接近 0,但又不正好为 0。值非常接近 0 的特征会保留在模型中,但对模型的预测影响不大。

L2 正则化始终可以提高线性模型的泛化能力。

L1 正则化相对。

如需了解详情,请参阅机器学习速成课程中的过拟合:L2 正则化

标签

#fundamentals

监督式机器学习中,标签指样本的“答案”或“结果”部分。

每个有标签样本都包含一个或多个特征和一个标签。例如,在垃圾邮件检测数据集中,标签可能是“垃圾邮件”或“非垃圾邮件”。在降雨量数据集中,标签可能是特定时间段内的降雨量。

如需了解详情,请参阅《机器学习简介》中的监督式学习

有标签示例

#fundamentals

包含一个或多个特征和一个标签的示例。例如,下表显示了房屋估值模型中的三个带标签的示例,每个示例都包含三个特征和一个标签:

卧室数量 浴室数量 房屋年龄 房价(标签)
3 2 15 $345,000
2 1 72 17.9 万美元
4 2 34 39.2 万美元

监督式机器学习中,模型基于带标签的样本进行训练,并基于无标签的样本进行预测。

将有标签样本与无标签样本进行对比。

如需了解详情,请参阅《机器学习简介》中的监督式学习

lambda

#fundamentals

正则化率的含义相同。

Lambda 是一个过载的术语。我们在此关注的是该术语在正则化中的定义。

图层

#fundamentals

神经网络中的一组神经元。以下是三种常见的层类型:

例如,下图展示了一个包含 1 个输入层、2 个隐藏层和 1 个输出层的神经网络:

具有一个输入层、两个隐藏层和一个输出层的神经网络。输入层包含两个特征。第一个隐藏层包含 3 个神经元,第二个隐藏层包含 2 个神经元。输出层由单个节点组成。

TensorFlow 中,也是 Python 函数,以张量和配置选项作为输入,然后生成其他张量作为输出。

学习速率

#fundamentals

一个浮点数,用于告知梯度下降算法在每次迭代时调整权重和偏差的幅度。例如,0.3 的学习速率调整权重和偏差的力度是 0.1 的学习速率的三倍。

学习速率是一个重要的超参数。如果您将学习速率设置得过低,训练将耗时过长。如果您将学习速率设置得过高,梯度下降法通常难以实现收敛

如需了解详情,请参阅机器学习速成课程中的线性回归:超参数

线性

#fundamentals

一种仅通过加法和乘法即可表示的两个或多个变量之间的关系。

线性关系的图是一条直线。

非线性相对。

线性模型

#fundamentals

一种为每个特征分配一个权重以进行预测模型。(线性模型还包含偏差。)相比之下,深度模型中特征与预测的关系通常是非线性的。

与深度模型相比,线性模型通常更易于训练,且可解释性更强。不过,深度模型可以学习特征之间的复杂关系。

线性回归逻辑回归是两种类型的线性模型。

线性回归

#fundamentals

一种机器学习模型,同时满足以下两个条件:

  • 该模型是一个线性模型
  • 预测值是一个浮点值。(这是线性回归中的回归部分。)

将线性回归与逻辑回归进行对比。 此外,还要将回归与分类进行对比。

如需了解详情,请参阅机器学习速成课程中的线性回归

逻辑回归

#fundamentals

一种可预测概率的回归模型。逻辑回归模型具有以下特征:

  • 标签为分类。逻辑回归一词通常是指二元逻辑回归,即计算具有两个可能值的标签的概率的模型。一种不太常见的变体是多项式逻辑回归,它会计算具有两个以上可能值的标签的概率。
  • 训练期间的损失函数为对数损失函数。(对于具有两个以上可能值的标签,可以并行放置多个 Log Loss 单位。)
  • 该模型采用线性架构,而非深度神经网络。不过,此定义的其余部分也适用于预测类别标签概率的深度模型

例如,假设有一个逻辑回归模型,用于计算输入电子邮件是垃圾邮件或非垃圾邮件的概率。 在推理过程中,假设模型预测值为 0.72。因此,模型会估计:

  • 电子邮件有 72% 的可能性是垃圾邮件。
  • 电子邮件不是垃圾邮件的概率为 28%。

逻辑回归模型采用以下两步架构:

  1. 模型通过应用输入特征的线性函数来生成原始预测 (y')。
  2. 该模型使用原始预测作为 sigmoid 函数的输入,该函数会将原始预测转换为介于 0 和 1 之间的值(不含 0 和 1)。

与任何回归模型一样,逻辑回归模型也会预测一个数值。 不过,此数字通常会成为二元分类模型的一部分,如下所示:

  • 如果预测的数值大于分类阈值,则二元分类模型会预测为正类别。
  • 如果预测的数字小于分类阈值,二元分类模型会预测负类别。

如需了解详情,请参阅机器学习速成课程中的逻辑回归

对数损失

#fundamentals

二元逻辑回归中使用的损失函数

如需了解详情,请参阅机器学习速成课程中的逻辑回归:损失和正规化

对数几率

#fundamentals

某个事件的对数几率。

#fundamentals
#Metric

监督式模型训练期间,用于衡量模型的预测结果与标签之间的差距。

损失函数用于计算损失。

如需了解详情,请参阅机器学习速成课程中的线性回归:损失

损失曲线

#fundamentals

以训练迭代次数为自变量的损失函数图。下图显示了典型的损失曲线:

一个损失与训练迭代次数的笛卡尔图,显示了初始迭代的损失快速下降,随后是逐渐下降,最后在最终迭代期间斜率平缓。

损失曲线可帮助您确定模型何时收敛过拟合

损失曲线可以绘制以下所有类型的损失:

另请参阅泛化曲线

如需了解详情,请参阅机器学习速成课程中的过拟合:解读损失曲线

损失函数

#fundamentals
#Metric

训练或测试期间,用于计算一批示例的损失的数学函数。对于做出良好预测的模型,损失函数会返回较低的损失;对于做出不良预测的模型,损失函数会返回较高的损失。

训练的目标通常是尽量减少损失函数返回的损失。

损失函数有很多不同的种类。根据您要构建的模型类型选择合适的损失函数。例如:

M

机器学习

#fundamentals

一种通过输入数据训练模型的程序或系统。经过训练的模型可以根据从与训练该模型时使用的数据集具有相同分布的新(从未见过)数据集中提取的数据做出有用的预测。

机器学习还指与这些程序或系统相关的研究领域。

如需了解详情,请参阅机器学习简介课程。

多数类

#fundamentals

分类不平衡的数据集内更为常见的标签。例如,假设一个数据集内包含 99% 的负标签和 1% 的正标签,那么负标签为多数类。

少数类相对。

如需了解详情,请参阅机器学习速成课程中的数据集:不平衡的数据集

小批次

#fundamentals

在一次迭代中处理的批次的一小部分随机选择的子集。 小批次的批次大小通常介于 10 到 1,000 个样本之间。

例如,假设整个训练集(完整批次)包含 1,000 个样本。进一步假设您将每个小批次的批次大小设置为 20。因此,每次迭代都会确定 1,000 个示例中随机 20 个示例的损失,然后相应地调整权重偏差

计算小批次的损失比计算完整批次中所有示例的损失要高效得多。

如需了解详情,请参阅机器学习速成课程中的线性回归:超参数

少数类

#fundamentals

分类不平衡的数据集内不常见的标签。例如,假设一个数据集内包含 99% 的负标签和 1% 的正标签,那么正标签为少数类。

多数类相对。

如需了解详情,请参阅机器学习速成课程中的数据集:不平衡的数据集

模型

#fundamentals

一般来说,任何处理输入数据并返回输出的数学结构。换句话说,模型是系统进行预测所需的一组形参和结构。 在监督式机器学习中,模型将示例作为输入,并推理出预测结果作为输出。在监督式机器学习中,模型略有不同。例如:

  • 线性回归模型由一组权重和一个偏差组成。
  • 神经网络模型包含:
    • 一组隐藏层,每个隐藏层都包含一个或多个神经元
    • 与每个神经元相关联的权重和偏差。
  • 决策树模型包含:
    • 树的形状;即条件和叶的连接模式。
    • 条件和叶。

您可以保存、恢复或复制模型。

非监督式机器学习也会生成模型,通常是一个可以将输入示例映射到最合适的聚类的函数。

多类别分类

#fundamentals

在监督式学习中,一种分类问题,其中数据集包含两个以上的标签类别。例如,Iris 数据集中的标签必须是以下三个类别之一:

  • Iris setosa
  • 弗吉尼亚鸢尾
  • 杂色鸢尾

如果模型是使用 Iris 数据集训练的,并且可以根据新示例预测 Iris 类型,则该模型执行的是多类别分类。

相比之下,如果分类问题要区分的类别正好是两个,则属于二元分类模型。例如,预测电子邮件是垃圾邮件还是非垃圾邮件的电子邮件模型就是二元分类模型。

在聚类问题中,多类别分类是指两个以上的聚类。

如需了解详情,请参阅机器学习速成课程中的神经网络:多类别分类

负类别

#fundamentals
#Metric

二元分类中,一种类别称为正类别,另一种类别称为负类别。正类别是模型正在测试的事物或事件,负类别则是另一种可能性。例如:

  • 在医学检查中,负类别可以是“非肿瘤”。
  • 在电子邮件分类模型中,负类别可以是“非垃圾邮件”。

正类别相对。

输出表示

#fundamentals

包含至少一个隐藏层模型深度神经网络是一种包含多个隐藏层的神经网络。例如,下图显示了一个包含两个隐藏层的深度神经网络。

具有一个输入层、两个隐藏层和一个输出层的神经网络。

神经网络中的每个神经元都会连接到下一层中的所有节点。例如,在上图中,请注意第一个隐藏层中的每个神经元都分别连接到第二个隐藏层中的两个神经元。

在计算机上实现的神经网络有时称为人工神经网络,以区别于大脑和其他神经系统中的神经网络。

某些神经网络可以模拟不同特征与标签之间极其复杂的非线性关系。

另请参阅卷积神经网络循环神经网络

如需了解详情,请参阅机器学习速成课程中的神经网络

神经元

#fundamentals

在机器学习中,指神经网络隐藏层中的一个独立单元。每个神经元都会执行以下两步操作:

  1. 计算输入值与其对应权重的加权和
  2. 将加权和作为输入传递给激活函数

第一个隐藏层中的神经元接受来自输入层中特征值的输入。任何隐藏层(第一个隐藏层除外)中的神经元都会接受来自前一个隐藏层中神经元的输入。例如,第二个隐藏层中的神经元接受来自第一个隐藏层中神经元的输入。

下图突出显示了两个神经元及其输入。

具有一个输入层、两个隐藏层和一个输出层的神经网络。突出显示了两个神经元:一个位于第一个隐藏层,另一个位于第二个隐藏层。第一个隐藏层中突出显示的神经元会接收输入层中两个特征的输入。第二个隐藏层中突出显示的神经元会接收来自第一个隐藏层中三个神经元的输入。

神经网络中的神经元会模拟大脑和神经系统其他部位的神经元行为。

节点(神经网络)

#fundamentals

隐藏层中的神经元

如需了解详情,请参阅机器学习速成课程中的神经网络

非线性

#fundamentals

一种无法仅通过加法和乘法表示的两个或多个变量之间的关系。线性关系可以用直线表示,而非线性关系则不能用直线表示。例如,假设有两个模型,每个模型都将单个特征与单个标签相关联。左侧的模型是线性模型,右侧的模型是非线性模型:

两个地块。一个图是直线,因此这是线性关系。
          另一个图是曲线,因此这是非线性关系。

如需尝试不同类型的非线性函数,请参阅机器学习速成课程中的神经网络:节点和隐藏层

非平稳性

#fundamentals

一种值会随一个或多个维度(通常是时间)而变化的特征。 例如,请考虑以下非平稳性示例:

  • 特定商店的泳衣销量会随季节而变化。
  • 特定地区中特定水果的收获量在一年中的大部分时间为零,但在短时间内会很大。
  • 由于气候变化,年平均气温正在发生变化。

平稳性相对。

归一化

#fundamentals

从广义上讲,是将变量的实际值范围转换为标准值范围的过程,例如:

  • -1 至 +1
  • 0 至 1
  • Z 得分(大致介于 -3 到 +3 之间)

例如,假设某个特征的实际值范围为 800 到 2,400。作为特征工程的一部分,您可以将实际值归一化到标准范围内,例如 -1 到 +1。

归一化是特征工程中的一项常见任务。当特征向量中的每个数值特征都具有大致相同的范围时,模型通常会更快地完成训练(并生成更好的预测结果)。

另请参阅 Z 得分归一化

如需了解详情,请参阅机器学习速成课程中的数值数据:归一化

数值数据

#fundamentals

用整数或实数表示的特征。 例如,房屋估值模型可能会将房屋面积(以平方英尺或平方米为单位)表示为数值数据。将特征表示为数值数据表明,特征的值与标签之间存在数学关系。也就是说,房屋的平方米数可能与房屋的价值存在某种数学关系。

并非所有整数数据都应表示为数值数据。例如,世界某些地区的邮政编码是整数;不过,整数邮政编码不应在模型中表示为数值数据。这是因为邮政编码 20000 的效果并不是邮政编码 10000 的两倍(或一半)。此外,虽然不同的邮政编码确实与不同的房地产价值相关联,但我们不能假设邮政编码为 20000 的房地产价值是邮政编码为 10000 的房地产价值的两倍。邮政编码应表示成分类数据

数值特征有时称为连续特征

如需了解详情,请参阅机器学习速成课程中的处理数值数据

O

离线

#fundamentals

static 的含义相同。

离线推理

#fundamentals

模型生成一批预测,然后缓存(保存)这些预测的过程。然后,应用可以从缓存中访问推理预测,而无需重新运行模型。

例如,假设有一个模型每 4 小时生成一次本地天气预报(预测)。每次模型运行后,系统都会缓存所有本地天气预报。天气应用从缓存中检索预报。

离线推理也称为静态推理

在线推理相对。 如需了解详情,请参阅机器学习速成课程中的生产环境中的机器学习系统:静态推理与动态推理

独热编码

#fundamentals

将分类数据表示为一个向量,其中:

  • 一个元素设置为 1。
  • 所有其他元素均设置为 0。

独热编码常用于表示拥有有限个可能值的字符串或标识符。例如,假设某个名为 Scandinavia 的分类特征有五个可能的值:

  • "丹麦"
  • “瑞典”
  • “挪威”
  • “芬兰”
  • "冰岛"

独热编码可以将这五个值分别表示为:

国家/地区 向量
"丹麦" 1 0 0 0 0
“瑞典” 0 1 0 0 0
“挪威” 0 0 1 0 0
“芬兰” 0 0 0 1 0
"冰岛" 0 0 0 0 1

借助独热编码,模型可以根据这五个国家/地区中的每一个来学习不同的关联。

将特征表示为数值数据是独热编码的替代方案。遗憾的是,以数字形式表示斯堪的纳维亚国家/地区并不是一个好的选择。例如,请考虑以下数字表示法:

  • “丹麦”为 0
  • “瑞典”为 1
  • “挪威”为 2
  • “芬兰”为 3
  • “冰岛”是 4

借助数值编码,模型将以数学方式解读原始数字,并尝试基于这些数字进行训练。不过,冰岛的实际值并非挪威的两倍(或一半),因此模型会得出一些奇怪的结论。

如需了解详情,请参阅机器学习速成课程中的类别型数据:词汇和独热编码

一对多

#fundamentals

假设某个分类问题有 N 个类别,一种解决方案包含 N 个单独的二元分类模型 - 一个二元分类模型对应一种可能的结果。例如,假设有一个模型可将示例分类为动物、植物或矿物,那么一对多解决方案将提供以下三个单独的二元分类模型:

  • 动物与非动物
  • 蔬菜与非蔬菜
  • 矿物质与非矿物质

在线

#fundamentals

动态的含义相同。

在线推理

#fundamentals

根据需求生成预测。例如,假设某个应用将输入内容传递给模型,并发出预测请求。使用在线推理的系统会通过运行模型来响应请求(并将预测结果返回给应用)。

离线推理相对。

如需了解详情,请参阅机器学习速成课程中的生产环境中的机器学习系统:静态推理与动态推理

输出层

#fundamentals

神经网络的“最终”层。输出层包含预测结果。

下图展示了一个小型深度神经网络,其中包含一个输入层、两个隐藏层和一个输出层:

具有一个输入层、两个隐藏层和一个输出层的神经网络。输入层包含两个特征。第一个隐藏层包含 3 个神经元,第二个隐藏层包含 2 个神经元。输出层由单个节点组成。

过拟合

#fundamentals

创建的模型训练数据过于匹配,以致于模型无法根据新数据做出正确的预测。

正则化可以减少过拟合。 在庞大而多样的训练集上进行训练也有助于减少过拟合。

如需了解详情,请参阅机器学习速成课程中的过拟合

P

pandas

#fundamentals

基于 numpy 构建的面向列的数据分析 API。 许多机器学习框架(包括 TensorFlow)都支持将 Pandas 数据结构作为输入。如需了解详情,请参阅 Pandas 文档

参数

#fundamentals

模型在训练期间学习的权重偏差。例如,在线性回归模型中,参数包括以下公式中的偏差 (b) 和所有权重(w1w2 等):

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相比之下,超参数(或超参数调节服务)提供给模型的值。例如,学习速率就是一种超参数。

正类别

#fundamentals
#Metric

您要测试的类。

例如,在癌症模型中,正类别可以是“肿瘤”。 在电子邮件分类模型中,正类别可以是“垃圾邮件”。

负类别相对。

后处理

#responsible
#fundamentals

在模型运行调整模型输出。 后期处理可用于强制执行公平性限制,而无需修改模型本身。

例如,可以对二元分类模型应用后处理,方法是设置分类阈值,以通过检查真正例率对于某个属性的所有值是否相同,来维持该属性的机会均等

精确度

#fundamentals
#Metric

一种分类模型指标,可为您提供以下信息:

当模型预测为正类别时,预测正确的百分比是多少?

公式如下:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

其中:

  • 真正例是指模型正确预测了正类别。
  • 假正例是指模型错误地预测了正类别。

例如,假设某个模型做出了 200 次正预测。在这 200 个正例预测中:

  • 其中 150 个是真正例。
  • 其中 50 个是假正例。

在此示例中:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

准确率召回率相对。

如需了解详情,请参阅机器学习速成课程中的分类:准确率、召回率、精确率和相关指标

预测

#fundamentals

模型的输出。例如:

  • 二元分类模型的预测结果要么是正类别,要么是负类别。
  • 多类别分类模型的预测结果是一个类别。
  • 线性回归模型的预测结果是一个数值。

代理标签

#fundamentals

用于逼近未在数据集内直接提供的标签的数据。

例如,假设您必须训练一个模型来预测员工压力水平。您的数据集包含许多预测性特征,但不包含名为“压力水平”的标签。 您毫不气馁,选择“工作场所事故”作为压力水平的代理标签。毕竟,压力大的员工比心态平静的员工更容易发生事故。还是会?或许,工作场所事故的发生率实际上会因多种原因而上升和下降。

再举一个例子,假设您希望将是否下雨?设为数据集的布尔型标签,但该数据集不包含下雨数据。如果有照片,您能够以人们带着雨伞的照片作为“在下雨吗?”的代理标签。这是一个好的代理标签吗?可能,但某些文化背景的人可能更倾向于带伞防晒,而不是防雨。

代理标签通常并不完美。如果可以,请选择实际标签,而不是代理标签。不过,如果缺少实际标签,请非常谨慎地选择代理标签,选择最不糟糕的代理标签候选对象。

如需了解详情,请参阅机器学习速成课程中的数据集:标签

R

RAG

#fundamentals

检索增强生成的缩写。

rater

#fundamentals

示例提供标签的人员。 “注释者”是评分者的另一种称呼。

如需了解详情,请参阅机器学习速成课程中的类别型数据:常见问题

召回

#fundamentals
#Metric

一种分类模型指标,可为您提供以下信息:

标准答案正类别时,模型正确识别为正类别的预测所占的百分比是多少?

公式如下:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

其中:

  • 真正例是指模型正确预测了正类别。
  • 假负例是指模型错误地预测了负类别

例如,假设您的模型对评估依据为正类别的样本进行了 200 次预测。在这 200 个预测中:

  • 其中 180 个是真正例。
  • 其中 20 个为假负例。

在此示例中:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

如需了解详情,请参阅分类:准确率、召回率、精确率和相关指标

修正线性单元 (ReLU)

#fundamentals

一种激活函数,具有以下行为:

  • 如果输入为负数或零,则输出为 0。
  • 如果输入为正数,则输出等于输入。

例如:

  • 如果输入为 -3,则输出为 0。
  • 如果输入为 +3,则输出为 3.0。

以下是 ReLU 的图:

包含两条线的直角坐标曲线图。第一条线的 y 值恒定为 0,沿 x 轴从 -infinity,0 延伸到 0,-0。
          第二行的起始位置为 0,0。此线的斜率为 +1,因此它从 0,0 延伸到 +infinity,+infinity。

ReLU 是一种非常热门的激活函数。尽管 ReLU 的行为很简单,但它仍然能够让神经网络学习非线性关系,即特征标签之间的关系。

回归模型

#fundamentals

从非正式意义上讲,一种生成数值预测的模型。(相比之下,分类模型会生成类别预测结果。)例如,以下都是回归模型:

  • 预测特定房屋价值(以欧元为单位)的模型,例如 423,000 欧元。
  • 一种模型,用于预测特定树木的预期寿命(以年为单位),例如 23.2 年。
  • 一种模型,用于预测未来 6 小时内某个城市将降雨多少英寸,例如 0.18。

以下是两种常见的回归模型:

  • 线性回归,用于找到最能将标签值与特征拟合的直线。
  • 逻辑回归,它会生成一个介于 0.0 和 1.0 之间的概率,系统通常会将其映射到类预测。

并非所有输出数值预测的模型都是回归模型。在某些情况下,数值预测实际上只是一个恰好具有数值类别名称的分类模型。例如,预测数值邮政编码的模型是分类模型,而不是回归模型。

正则化

#fundamentals

任何可减少过拟合的机制。 常见的正则化类型包括:

正则化也可以定义为对模型复杂性的惩罚。

如需了解详情,请参阅机器学习速成课程中的过拟合:模型复杂性

正则化率

#fundamentals

一个数字,用于指定训练期间正则化的相对重要性。提高正则化率可减少过拟合,但可能会降低模型的预测能力。相反,降低或省略正则化率会增加过拟合。

如需了解详情,请参阅机器学习速成课程中的过拟合:L2 正则化

ReLU

#fundamentals

修正线性单元的缩写。

检索增强生成 (RAG)

#fundamentals

一种技术,通过将大语言模型 (LLM) 的输出与模型训练后检索到的知识源进行接地,来提高 LLM 的输出质量。 RAG 通过为经过训练的 LLM 提供从可信知识库或文档中检索到的信息,提高了 LLM 回答的准确性。

使用检索增强生成的常见动机包括:

  • 提高模型生成回答的事实准确性。
  • 让模型能够访问其未经训练的知识。
  • 更改模型使用的知识。
  • 使模型能够引用来源。

例如,假设某个化学应用使用 PaLM API 生成与用户查询相关的摘要。当应用的后端收到查询时,后端会执行以下操作:

  1. 搜索(“检索”)与用户查询相关的数据。
  2. 将相关的化学数据附加(“扩充”)到用户查询中。
  3. 指示 LLM 根据附加的数据创建摘要。

ROC(接收者操作特征)曲线

#fundamentals
#Metric

在二元分类中,针对不同的分类阈值,绘制真正例率假正例率的对比图。

ROC 曲线的形状表明了二元分类模型区分正类别和负类别的能力。例如,假设某个二元分类模型能够完美区分所有负类别和所有正类别:

一条数轴,右侧有 8 个正例,左侧有 7 个负例。

上述模型的 ROC 曲线如下所示:

ROC 曲线。x 轴为假正例率,y 轴为真正例率。曲线呈倒 L 形。曲线从 (0.0,0.0) 开始,直接向上移动到 (0.0,1.0)。然后,曲线从 (0.0,1.0) 变为 (1.0,1.0)。

相比之下,下图绘制了一个糟糕模型的原始逻辑回归值,该模型根本无法区分负类和正类:

一条数轴,正例和负类完全混杂在一起。

相应模型的 ROC 曲线如下所示:

ROC 曲线,实际上是从 (0.0,0.0) 到 (1.0,1.0) 的直线。

与此同时,在现实世界中,大多数二元分类模型都会在一定程度上分离正类别和负类别,但通常不会完全分离。因此,典型的 ROC 曲线介于这两个极端之间:

ROC 曲线。x 轴为假正例率,y 轴为真正例率。ROC 曲线近似于一条从西到北的弧线。

从理论上讲,ROC 曲线上最接近 (0.0,1.0) 的点可确定理想的分类阈值。不过,还有一些其他实际问题会影响理想分类阈值的选择。例如,假负例造成的损失可能远高于假正例。

一种名为 AUC 的数值指标可将 ROC 曲线汇总为单个浮点值。

均方根误差 (RMSE)

#fundamentals
#Metric

均方误差的平方根。

S

S 型函数

#fundamentals

一种数学函数,可将输入值“压缩”到有限的范围内,通常为 0 到 1 或 -1 到 +1。也就是说,您可以向 sigmoid 函数传递任何数字(2、100 万、负 10 亿,等等),输出结果仍会在限定范围内。 Sigmoid 激活函数的图如下所示:

一个二维曲线图,x 值范围为负无穷大到正无穷大,而 y 值范围为接近 0 到接近 1。当 x 为 0 时,y 为 0.5。曲线的斜率始终为正,在 0 和 0.5 处斜率最高,随着 x 的绝对值增加,斜率逐渐减小。

Sigmoid 函数在机器学习中有多种用途,包括:

softmax

#fundamentals

一种函数,可确定多类别分类模型中每个可能类别的概率。这些概率之和正好为 1.0。例如,下表显示了 softmax 如何分布各种概率:

图片是... Probability
0.85
.13
.02

Softmax 也称为完整版 Softmax

候选采样相对。

如需了解详情,请参阅机器学习速成课程中的神经网络:多类别分类

稀疏特征

#fundamentals

一种值主要为零或为空的特征。 例如,包含一个 1 值和一百万个 0 值的特征就是稀疏特征。相比之下,密集特征的值大多不为零或为空。

在机器学习中,出人意料的是,有大量特征是稀疏特征。分类特征通常是稀疏特征。例如,在森林中可能存在的 300 种树木中,单个示例可能仅标识出枫树。或者,在视频库中数百万个可能的视频中,单个示例可能仅标识“卡萨布兰卡”。

在模型中,您通常使用独热编码来表示稀疏特征。如果独热编码很大,您可以在独热编码之上放置一个嵌入层,以提高效率。

稀疏表示法

#fundamentals

仅存储稀疏特征中非零元素的位置。

例如,假设某个名为 species 的分类特征用于标识特定森林中的 36 种树木。进一步假设每个示例仅标识一个物种。

您可以使用 one-hot 向量来表示每个示例中的树种。一个独热向量将包含一个 1(用于表示该示例中的特定树种)和 35 个 0(用于表示该示例中存在的 35 个树种)。因此,maple 的独热表示法可能如下所示:

一个向量,其中位置 0 到 23 的值为 0,位置 24 的值为 1,位置 25 到 35 的值为 0。

或者,稀疏表示法只会标识特定物种的位置。如果 maple 位于位置 24,则 maple 的稀疏表示法将非常简单:

24

请注意,稀疏表示法比 one-hot 表示法紧凑得多。

如需了解详情,请参阅机器学习速成课程中的处理分类数据

稀疏向量

#fundamentals

值大部分为零的向量。另请参阅稀疏特征稀疏度

平方损失函数

#fundamentals
#Metric

L2 损失的含义相同。

静态

#fundamentals

一次性完成,而不是持续进行。 术语“static”(静态)和“offline”(离线)是同义词。 以下是机器学习中静态离线的常见用途:

  • 静态模型(或离线模型)是指训练一次后使用一段时间的模型。
  • 静态训练(或离线训练)是指训练静态模型的过程。
  • 静态推理(或离线推理)是指模型一次生成一批预测结果的过程。

动态相对。

静态推理

#fundamentals

离线推理的含义相同。

平稳性

#fundamentals

一种在一个或多个维度(通常是时间)上值保持不变的特征。 例如,如果某个特征在 2021 年和 2023 年的值大致相同,则该特征表现出平稳性。

在现实世界中,很少有特征表现出平稳性。即使是与稳定性同义的特征(例如海平面)也会随时间变化。

非平稳性相对。

随机梯度下降法 (SGD)

#fundamentals

一种梯度下降算法,其中批次大小为 1。换句话说,SGD 会基于从训练集中随机均匀选择的单个样本进行训练。

如需了解详情,请参阅机器学习速成课程中的线性回归:超参数

监督式机器学习

#fundamentals

根据特征及其对应的标签训练模型。监督式机器学习类似于通过研究一系列问题及其对应的答案来学习某个知识。在掌握问题与答案之间的映射关系后,学生便可以回答同一主题的新问题(从未见过的问题)。

非监督式机器学习相对。

如需了解详情,请参阅“机器学习简介”课程中的监督式学习

合成特征

#fundamentals

一种特征,不在输入特征之列,而是从一个或多个输入特征组装而来。用于创建合成特征的方法包括:

  • 对连续特征进行分桶,以分为多个区间分箱。
  • 创建特征组合
  • 将一个特征值与其他特征值或其本身相乘(或相除)。例如,如果 ab 是输入特征,则以下是合成特征的示例:
    • ab
    • a2
  • 对特征值应用超越函数。例如,如果 c 是输入特征,则以下是合成特征的示例:
    • sin(c)
    • ln(c)

仅通过归一化缩放创建的特征不属于合成特征。

T

测试损失

#fundamentals
#Metric

一种表示模型针对测试集损失指标。构建模型时,您通常会尝试最大限度地减少测试损失。这是因为,与较低的训练损失或较低的验证损失相比,较低的测试损失是更强的质量信号。

测试损失与训练损失或验证损失之间的差距过大有时表明,您需要提高正则化率

训练

#fundamentals

确定构成模型的理想参数(权重和偏差)的过程。在训练期间,系统会读入个示例,并逐步调整参数。训练会使用每个示例几次到数十亿次不等。

如需了解详情,请参阅“机器学习简介”课程中的监督式学习

训练损失

#fundamentals
#Metric

一种指标,表示模型在特定训练迭代期间的损失。例如,假设损失函数为均方误差。例如,第 10 次迭代的训练损失(均方误差)为 2.2,第 100 次迭代的训练损失为 1.9。

损失曲线绘制的是训练损失与迭代次数的关系图。损失曲线可提供以下有关训练的提示:

  • 下降的斜率表示模型正在改进。
  • 向上倾斜表示模型效果越来越差。
  • 平坦的斜率表示模型已达到收敛

例如,以下有些理想化的损失曲线显示:

  • 初始迭代期间的陡峭下降斜率,表示模型改进速度很快。
  • 斜率逐渐变平(但仍向下),直到接近训练结束时,这表示模型仍在继续改进,但速度比初始迭代期间略慢。
  • 训练结束时斜率趋于平缓,表明模型已收敛。

训练损失与迭代次数的对比图。此损失曲线以陡峭的下降斜率开头。斜率逐渐变平,直至变为零。

虽然训练损失很重要,但另请参阅泛化

训练-应用偏差

#fundamentals

模型在训练期间的性能与同一模型在应用期间的性能之间的差异。

训练集

#fundamentals

用于训练模型数据集子集。

传统上,数据集中的示例分为以下三个不同的子集:

理想情况下,数据集中的每个示例都应仅属于上述子集之一。例如,单个示例不应同时属于训练集和验证集。

如需了解详情,请参阅机器学习速成课程中的数据集:划分原始数据集

真负例 (TN)

#fundamentals
#Metric

模型正确预测负类别的示例。例如,模型推断出某封电子邮件不是垃圾邮件,而该电子邮件确实不是垃圾邮件

真正例 (TP)

#fundamentals
#Metric

模型正确预测正类别的示例。例如,模型推断出某封电子邮件是垃圾邮件,而该电子邮件确实是垃圾邮件。

真正例率 (TPR)

#fundamentals
#Metric

召回率的含义相同。具体来说:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真正例率是 ROC 曲线的 y 轴。

U

欠拟合

#fundamentals

生成具有较差预测能力的模型,因为模型未完全发现训练数据的特征。许多问题都可能导致欠拟合,包括:

如需了解详情,请参阅机器学习速成课程中的过拟合

无标签样本

#fundamentals

包含特征但不包含标签的示例。 例如,下表显示了房屋估值模型中的三个未标记示例,每个示例都包含三个特征,但没有房屋价值:

卧室数量 浴室数量 房屋年龄
3 2 15
2 1 72
4 2 34

监督式机器学习中,模型基于带标签的样本进行训练,并基于无标签的样本进行预测。

半监督式非监督式学习中,在训练期间会使用无标签样本。

将无标签示例与有标签示例进行对比。

非监督式机器学习

#clustering
#fundamentals

训练模型,以找出数据集(通常是无标签数据集)内的规律。

非监督式机器学习最常见的用途是将数据聚类为不同的组,使相似的样本位于同一组中。例如,无监督机器学习算法可以根据音乐的各种属性对歌曲进行聚类。生成的聚类可以作为其他机器学习算法(例如音乐推荐服务)的输入。当有用的标签很少或没有时,聚类会有所帮助。 例如,在反滥用和反欺诈等领域,聚类有助于人们更好地了解数据。

监督式机器学习相对。

如需了解详情,请参阅“机器学习简介”课程中的什么是机器学习?

V

验证

#fundamentals

对模型质量的初步评估。 验证会根据验证集检查模型预测的质量。

由于验证集与训练集不同,因此验证有助于防范过拟合

您可以将根据验证集评估模型视为第一轮测试,将根据测试集评估模型视为第二轮测试。

验证损失

#fundamentals
#Metric

一种指标,表示模型在训练的特定迭代期间,在验证集上的损失

另请参阅泛化曲线

验证集

#fundamentals

数据集的子集,用于针对经过训练的模型执行初始评估。通常,在针对测试集评估模型之前,您会先针对验证集评估经过训练的模型多次。

传统上,您需要将数据集中的示例划分为以下三个不同的子集:

理想情况下,数据集中的每个示例都应仅属于上述子集之一。例如,单个示例不应同时属于训练集和验证集。

如需了解详情,请参阅机器学习速成课程中的数据集:划分原始数据集

W

重量

#fundamentals

模型乘以另一个值的值。 训练是确定模型理想权重的过程;推理是使用这些学习到的权重进行预测的过程。

如需了解详情,请参阅机器学习速成课程中的线性回归

加权和

#fundamentals

所有相关输入值与其对应权重的乘积之和。例如,假设相关输入包含以下内容:

输入值 输入权重
2 -1.3
-1 0.6
3 0.4

因此,加权和为:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加权和是激活函数的输入实参。

Z

Z 分数归一化

#fundamentals

一种缩放技术,用于将原始特征值替换为表示该特征与平均值之间相差的标准差数量的浮点值。例如,假设某个特征的平均值为 800,标准差为 100。下表显示了 Z 得分归一化如何将原始值映射到其 Z 得分:

原始值 Z 分数
800 0
950 +1.5
575 -2.25

然后,机器学习模型会根据相应特征的 Z 得分进行训练,而不是根据原始值进行训练。

如需了解详情,请参阅机器学习速成课程中的数值数据:归一化