此页面由 Cloud Translation API 翻译。

机器学习术语表

本术语表定义了一般机器学习术语以及 TensorFlow 专用术语。

A

消融

一种技术，用于评估特征或组件的重要性，方法是暂时将其从模型中移除。然后，您可以在没有该特征或组件的情况下重新训练模型，如果重新训练的模型的表现显著下降，则移除的特征或组件可能很重要。

例如，假设您用 10 个特征训练了一个分类模型，并在测试集上实现了 88% 的精确率。如需检查第一个特征的重要性，您可以只使用另外九个特征来重新训练模型。如果重新训练的模型的表现显著下降（例如，精确率为 55%），那么已移除的特征可能很重要。相反，如果重新训练的模型表现同样良好，则该特征可能没那么重要。

消化法还有助于确定以下指标的重要性：

较大的组件，如更大型机器学习系统的整个子系统
流程或技术，例如数据预处理步骤

在这两种情况下，您都会观察在移除组件后系统性能如何变化（或不更改）。

A/B 测试

一种用于比较两种（或更多）技术（A 和 B）的统计方法。通常，A 是一种现有技术，B 是一种新技术。A/B 测试不仅可以确定哪种技术效果更好，还可以确定差异是否具有统计显著性。

A/B 测试通常会比较两种方法的单个指标；例如，模型在两种方法的准确率方面表现如何？不过，A/B 测试也可以比较任何有限数量的指标。

加速器芯片

#GoogleCloud

一类专用硬件组件，旨在执行深度学习算法所需的关键计算。

与通用 CPU 相比，加速器芯片（简称“加速器”）可以显著提高训练和推理任务的速度和效率。非常适合用于训练神经网络和类似的计算密集型任务。

加速器芯片的示例包括：

Google 的张量处理单元 (TPU)，配备用于深度学习的专用硬件。
虽然最初是为图形处理设计的，但 NVIDIA 的 GPU 支持并行处理，因而可显著提高处理速度。

精确度

#fundamentals

正确分类预测的数量除以预测总数。具体来说：

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如，如果某个模型做出 40 次正确预测和 10 次错误预测，则准确率为：

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分类为不同类别的正确预测和错误预测提供具体名称。因此，二元分类的准确率公式如下所示：

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中：

TP 是真正例（正确预测）的数量。
TN 是指真正例（正确预测）的数量。
FP 是指假正例（预测错误）的数量。
FN 为假负例（错误预测）的数量。

比较和对比准确率与精确率和召回率。

点击该图标可查看其他备注。

虽然准确性在某些情况下很有价值的指标，但对于另一些情况来说，准确率却很大程度上具有误导性。值得注意的是，在评估处理分类不平衡数据集的分类模型时，准确率通常是一个不佳的指标。

例如，假设某个亚热带城市每世纪仅下雪 25 天。由于无雪的天数（负类别）远远超过有雪的天数（正类别），因此该城市的雪数据集不均衡。假设有一个二元分类模型，该模型应该预测每天下雪或不下雪，但直接预测每天“无雪”。该模型非常准确，但没有预测能力。下表总结了一个世纪的预测结果：

类别	数字
TP	0
TN	36500
FP	25
FN	0

因此，此模型的准确率为：

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

虽然 99.93% 的准确率似乎非常高，但该模型实际上没有预测能力。

在评估基于分类不平衡的数据集训练的模型时，精确率和召回率通常比准确率更有用。

action

#rl

在强化学习中，代理在环境的状态之间转换的机制。代理使用政策选择操作。

激活函数

#fundamentals

一个函数，使神经网络能够学习特征与标签之间的非线性（复杂）关系。

常用的激活函数包括：

ReLU
S 型函数

激活函数的曲线图绝不是一条直线。例如，ReLU 激活函数的曲线图由两条直线组成：

两条线的笛卡尔图。第一行的 y 常量为 0，沿 x 轴从 -infinity,0 到 0,-0 运行。
第二行从 0,0 开始。这条线的斜率为 +1，因此它的范围为 0,0 到 +无穷大,+无穷大。

S 型激活函数的曲线图如下所示：

二维曲线图，x 值的范围为无穷大到正正，而 y 值的范围几乎为 0 到 1 之间。当 x 为 0 时，y 为 0.5。该曲线的斜率始终为正，最高斜率为 0,0.5，并随着 x 的绝对值增加而逐渐减小。

点击图标可查看示例。

在神经网络中，激活函数会操控神经元所有输入的加权和。为了计算加权和，神经元会将相关值和权重的乘积相加。例如，假设某个神经元的相关输入包括以下内容：

输入值	输入权重
2	-1.3
-1	0.6
3	0.4

因此，加权和为：

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

假设该神经网络的设计者选择 S 型函数作为激活函数。在这种情况下，神经元将计算 -2.0 的 S 型函数（约为 0.12）。因此，神经元会将 0.12（而不是 -2.0）传递给神经网络中的下一层。下图说明了该流程的相关部分：

主动学习

一种训练方法，采用这种方法时，算法会选择从中学习的部分数据。当有标签样本稀缺或获取成本高昂时，主动学习尤为重要。主动学习算法会选择性地寻找学习所需的特定范围的样本，而不是盲目寻找各种类型的有标签样本。

AdaGrad

一种先进的梯度下降法，用于重新调整每个参数的梯度，从而有效地为每个参数指定一个独立的学习速率。如需查看完整说明，请参阅这篇 AdaGrad 论文。

代理

#rl

在强化学习中，这类实体使用政策来最大化从环境的状态转换中获得预期回报率。

	肿瘤（预测）	非肿瘤（预测）
肿瘤（标准答案）	18 (TP)	1（FN）
非肿瘤（标准答案）	6 (FP)	452（田纳西州）

	山川（预测）	变色（预测）	维吉尼亚州（预测）
山谷（标准答案）	88	12	0
Versicolor（标准答案）	6	141	7
维吉尼亚州（标准答案）	2	27	109

从更笼统的角度来说，代理是指可自动规划和执行一系列操作以追求目标的软件，并且能够适应环境中的变化。例如，基于 LLM 的代理可能会使用 LLM 来生成计划，而不是应用强化学习政策。

凝聚式层次聚类

#clustering

请参阅层次聚类。

异常值检测

识别离群值的过程。例如，如果某个特征的平均值为 100，标准差为 10，则异常值检测应将值 200 标记为可疑值。

AR

增强现实的缩写。

PR 曲线下面积

请参阅 PR AUC（PR 曲线下面积）。

ROC 曲线下面积

请参阅 AUC（ROC 曲线下面积）。

通用人工智能

一种非人为机制，展现出解决问题的能力、创造力和适应能力。例如，一个展示通用人工智能的程序可以翻译文本、谱写交响乐，以及擅长那些尚未发明的游戏。

有一个常见的误解，

#fundamentals

一种非人类程序或模型，可以解决复杂任务。model例如，翻译文本、程序或模型（能够从放射影像中识别疾病）的程序或模型都展示了人工智能。

正式地说，机器学习是人工智能的一个子领域。但是，近年来，一些组织开始将“人工智能”和“机器学习”这两个术语交替使用。

注意力层、

#language

神经网络中使用的一种机制，用于指示特定字词或字词中某一部分的重要性。注意力机制压缩模型预测下一个词元/词语所需的信息量。典型的注意力机制可能由一组输入上的加权和组成，其中每个输入的权重由神经网络的另一部分计算。

另请参阅自注意力和多头自注意力，它们是 Transformer 的组成要素。

特性

#fairness

是 feature 的同义词。

在机器学习公平性中，属性通常是指与个人相关的特征。

属性抽样

#df

一种用于训练决策森林的策略，其中每个决策森林在学习条件时只会考虑可能的特征的一个随机子集。通常，系统会为每个节点对不同的特征子集进行采样。相反，在不进行属性采样的情况下训练决策树时，系统会考虑每个节点的所有可能特征。

AUC（ROC 曲线下面积）

#fundamentals

介于 0.0 和 1.0 之间的数字，表示二元分类模型区分正类别与负类别的能力。AUC 越接近 1.0，模型将类别彼此分离的能力就越好。

例如，下图显示了一个分类器模型，该模型可将正类别（绿色椭圆形）与负类别（紫色矩形）完美分开。这个不切实际的完美模型的 AUC 为 1.0：

相反，下图显示了生成随机结果的分类器模型的结果。此模型的 AUC 为 0.5：

是的，上述模型的 AUC 为 0.5，而不是 0.0。

大多数模型都介于两种极端情况之间。例如，以下模型在一定程度上将正例与负例分隔开来，因此曲线下面积的 AUC 介于 0.5 到 1.0 之间：

曲线下面积会忽略您为分类阈值设置的任何值。而是会考虑所有可能的分类阈值。

点击该图标可了解 AUC 和 ROC 曲线之间的关系。

曲线下面积表示 ROC 曲线下的面积。例如，将正例与负例完美分开的模型的 ROC 曲线如下所示：

曲线下面积是上图中灰色区域的面积。在这种不同寻常的情况下，面积就是灰色区域的长度 (1.0) 乘以灰色区域的宽度 (1.0)。因此，1.0 和 1.0 的乘积得出的 AUC 正好为 1.0，这是可能的最高 AC 得分。

相反，对于完全无法区分类的分类器，其 ROC 曲线如下。该灰色区域的面积为 0.5。

更典型的 ROC 曲线大致如下所示：

手动计算此曲线下方的面积非常困难，因此程序通常会计算大多数 AUC 值。

点击该图标即可查看更正式的 AUC 定义。

曲线下面积是指，对于随机选择的正例比随机选择的负例为正，分类器更确信随机选择的正例是正例的概率。

增强现实

#image

一种将计算机生成的图像叠加到用户的真实世界视图上，从而提供合成视图的技术。

自动编码器

#language

#image

一种学习从输入中提取最重要的信息的系统。自编码器是编码器和解码器的组合。自动编码器依赖于以下两步式过程：

编码器将输入映射到（通常）有损低维（中间）格式。

解码器通过将低维格式映射到原始高维输入格式来构建原始输入的有损版本。

端到端训练的方法是让解码器尝试尽可能接近地根据编码器的中间格式重建原始输入。由于中间格式比原始格式小（维度较低），因此自动编码器会被迫了解输入中的哪些信息是必要的，因此输出不会与输入完全相同。

例如：

如果输入数据是图形，那么非精确副本将与原始图形类似，但稍微做了一些修改。也许非精确复制会移除原始图形中的噪声或填充一些缺失的像素。

如果输入数据是文本，则自动编码器会生成模仿（但并不等同于）原始文本的新文本。

另请参阅变分自编码器。

自动化偏差

#fairness

是指，即使自动化决策系统出错，人类决策者也青睐自动化决策系统给出的建议，而不是非自动化给出的建议。

AutoML

用于构建机器学习模型的任何自动化流程。AutoML 可以自动执行如下任务：

搜索最合适的模型。

调整超参数。

准备数据（包括执行特征工程）。

部署生成的模型。

AutoML 对于数据科学家来说非常有用，因为它可以节省他们开发机器学习流水线的时间和工作量，并提高预测准确性。这对非专家也很有用，因为他们更容易理解复杂的机器学习任务。

自回归模型

#language

#image

#生成式 AI

一种模型，会根据自身之前的预测推断出相应的预测model。例如，自动回归语言模型会根据先前预测的词元预测下一个词元。所有基于 Transformer 的大语言模型都是自动回归模型。

相比之下，基于 GAN 的图像模型通常不是自动回归模型，因为它们在单次正向传播中生成图像，而不是逐步生成图像。但是，某些图片生成模型会自动回归，因为它们是按步骤生成图片。

辅助损失

损失函数与神经网络 模型的主要损失函数结合使用，有助于在权重随机初始化的早期迭代期间加快训练速度。

辅助损失函数会将有效梯度推送到前面的层。这样可以解决梯度消失问题，从而有助于在训练期间实现收敛。

平均精确率

一种指标，用于总结排序的结果序列的表现。平均精确率的计算方式如下：取每个相关结果（在排名列表中，召回率相对于上一个结果有所提高）的精确率值的平均值。

另请参阅PR 曲线下面积。

轴对齐条件

#df

在决策树中，仅包含一个特征的条件。例如，如果面积是一个地图项，那么以下为轴对齐条件：

area > 200

与 倾斜条件相对。

B

反向传播算法

#fundamentals

在神经网络中实现梯度下降的算法。

训练神经网络涉及以下两步循环的多次迭代：

在前向传播期间，系统会处理一批样本以生成预测结果。系统会将每个预测与每个标签值进行比较。预测值与标签值之间的差值就是该样本的损失。系统会汇总所有样本的损失以计算当前批次的总损失。

在向后传递（反向传播）期间，系统会通过调整所有隐藏层中所有神经元的权重来降低损失。

神经网络通常包含许多隐藏层中的许多神经元。其中每个神经元以不同的方式对整体损失造成影响。反向传播算法决定了是增加还是减少应用于特定神经元的权重。

学习速率是一个调节系数，用于控制每个反向传播增加或减少每个权重的程度。较高的学习速率会增加或降低每个权重，且增减幅度会超过学习速率较小。

在微积分方面，反向传播算法实现了微积分的链法则。也就是说，反向传播算法会计算误差相对于每个参数的偏导数。

几年前，机器学习从业者必须编写代码来实现反向传播。现在，TensorFlow 等现代机器学习 API 可为您实现反向传播算法。呼！

Bagging

#df

一种用于训练集成学习的方法，其中每个组成模型均使用替换抽样的随机子集进行训练。例如，随机森林是用包袋训练的 决策树集合。

术语 bagging 是 bootstrap aggregat 的缩写。

词袋

#language

短语或段落中字词的表示，不考虑顺序。例如，以下三个短语完全相同：

小狗跳跃

跳狗

小狗跳

每个字词都会映射到稀疏向量中的一个索引，在该向量中，词汇表中的每个字词都有一个索引。例如，短语 the dog jumps 会映射到一个特征向量，该特征向量在与字词 the、dog 和 jumps 对应的三个索引处具有非零值。非零值可以是下列任一值：

1 表示某个字词存在。

某个字词在词袋中出现的次数。例如，如果词组为“the maroon dog is a dog with maroon fur”，则“maroon”和“dog”都将表示为 2，其他字词将表示为 1。

其他一些值，例如某个单词出现在词袋中的次数的对数。

baseline

一个模型，用作比较另一个模型（通常更复杂的模型）的表现的参考点。model例如，逻辑回归模型可以作为深度模型的良好基准。

对于特定问题，基准可以帮助模型开发者量化新模型为有用而必须达到的最低预期性能。

批处理

#fundamentals

一次训练迭代中使用的一组样本。批次大小决定了一个批次中的样本数量。

如需了解批量与一个周期之间的关系，请参阅周期。

批量推理

#TensorFlow

#GoogleCloud

根据多个无标签样本推断预测结果的过程，该样本分为较小的子集（“批量”）。

批量推理可以利用加速器芯片的并行化功能。也就是说，多个加速器可以同时推断不同批次的无标签样本的预测，从而大大增加每秒推断次数。

批量归一化

对隐藏层中激活函数的输入或输出进行归一化。批量归一化具有以下优势：

通过抵御离群值权重，使神经网络更加稳定。

实现更高的学习速率，从而加快训练速度。

减少过拟合。

批次大小

#fundamentals

一个批次中的样本数量。例如，如果批次大小为 100，则模型每次迭代可处理 100 个样本。

以下是常用的批量大小策略：

随机梯度下降法 (SGD)，其中批次大小为 1。

全批次，其中批次大小是指整个训练集中的样本数量。例如，如果训练集包含一百万个样本，则批次大小就是一百万个样本。全批量策略通常是一种低效的策略。

小批量，其中批量大小通常介于 10 到 1000 之间。小批次通常是最有效的策略。

贝叶斯神经网络

一种概率神经网络，用于考虑权重和输出的不确定性。标准神经网络回归模型通常会预测标量值；例如，标准模型预测房价为 853,000。相比之下，贝叶斯神经网络预测值的分布情况；例如，贝叶斯模型预测房价为 853,000，标准差为 67,200。

贝叶斯神经网络根据贝叶斯定理来计算权重和预测的不确定性。当需要量化不确定性时（例如在与医药相关的模型中），贝叶斯神经网络非常有用。贝叶斯神经网络还有助于防止过拟合。

贝叶斯优化

一种概率回归模型技术，通过优化使用贝叶斯学习技术量化不确定性的代理，从而优化计算成本高昂的目标函数。由于贝叶斯优化本身的代价非常高昂，因此通常用于优化评估费用高、参数较少的任务，例如选择超参数。

贝尔曼方程

#rl

在强化学习中，由最优 Q 函数满足以下身份：

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

强化学习算法会应用此身份，通过以下更新规则创建 Q-learning：

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

除了强化学习，贝尔曼方程还在动态编程中也有应用。请参阅关于贝尔曼方程的维基百科条目。

BERT（基于 Transformer 的双向编码器表示法）

#language

用于文本表示的模型架构。经过训练的 BERT 模型可以用作大型模型的一部分，用于文本分类或其他机器学习任务。

BERT 具有以下特征：

使用 Transformer 架构，因此依赖于自注意力功能。

使用 Transformer 的编码器部分。编码器的工作是生成良好的文本表示，而不是执行分类等特定任务。

双向。

对非监督式训练使用遮盖。

BERT 的变体包括：

ALBERT

LaBSE。

如需简要了解 BERT，请参阅开源 BERT：一流的自然语言处理预训练。

偏见（道德/公平性）

#fairness

#fundamentals

1. 对某些事物、个人或群体的成见、偏见或偏爱。这些偏差可能会影响数据的收集和解读、系统设计以及用户与系统交互的方式。此类偏差的形式包括：

自动化偏差

确认偏差

实验者偏差

群体归因偏差

隐性偏差

群内偏差

群外同质性偏差

2. 抽样或报告过程中引入的系统错误。此类偏差的形式包括：

覆盖偏差

未回答偏差

参与偏差

报告偏差

抽样偏差

选择偏差

请勿与机器学习模型中的偏差项或预测偏差混淆。

偏差（数学）或偏差项

#fundamentals

相对于原点的截距或偏移量。偏差是机器学习模型中的参数，用以下符号表示：

b

w₀

例如，在以下公式中，偏差为 b：b

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在简单的二维线中，偏差仅表示“y 截距”。例如，下图中线条的偏差为 2。

之所以存在偏差，是因为并非所有模型都是从原点 (0,0) 开始的。例如，假设一个游乐园的门票费用为 2 欧元，并且客户每入住每小时的费用为 0.5 欧元。因此，映射总费用的模型的偏差为 2，因为最低费用为 2 欧元。

请勿将偏差与道德和公平性偏差或预测偏差混淆。

双向

#language

用于描述系统评估文本目标部分之前和之后的文本的术语。相比之下，单向系统仅评估文本目标部分之前的文本。

例如，假设有一个遮盖语言模型，该模型必须确定以下问题中表示下划线的字词的概率：

_____与您有关吗？

单向语言模型只能基于由单词“What”“is”和“the”提供的上下文来预测其概率。相比之下，双向语言模型还可以从“with”和“you”获取上下文，这可能有助于模型更好地进行预测。

双向语言模型

#language

一种语言模型，用于根据上一段和后面的文本确定指定词元出现在一段文本的指定位置的可能性。

二元语法

#seq

#language

一种 N 元语法，其中 N=2。

二元分类

#fundamentals

一种分类任务，用于预测两个互斥类中的一个：

正类别，

负类别，

例如，以下两个机器学习模型分别执行二元分类：

用于确定电子邮件是垃圾邮件（正类别）还是非垃圾邮件（负类别）的模型。

一种模型，用于评估医学症状以确定人是否患有特定疾病（正类别）或没有该疾病（负类别）。

与多类别分类相对。

另请参阅逻辑回归和分类阈值。

二元条件

#df

在决策树中，只有两种可能结果的条件，通常为 yes [是] 或 no [否]。例如，以下是一个二元条件：

temperature >= 100

与非二元条件相对。

分箱

与分桶的含义相同。

BLEU（双语评估研究）

#language

介于 0.0 和 1.0 之间的得分（含 0.0 和 1.0），表示两种人类语言（例如英语和俄语之间的翻译）之间的翻译质量。BLEU 得分为 1.0 表示翻译完美，而 BLEU 得分为 0.0 表示翻译质量很差。

增强学习

一种机器学习技术，通过以迭代方式将一组简单但并非非常准确的分类器（称为“弱”分类器）组合成一个准确率高的分类器（即“强”分类器），方法是对模型目前错误分类的样本进行上权重。

边界框

#image

在图片中，感兴趣区域（如下图中的狗）周围矩形的 (x, y) 坐标。

广播

将矩阵数学运算中某个运算数的形状扩展为与该运算兼容的维度。例如，线性代数要求矩阵加法运算中的两个运算数必须具有相同的维度。因此，不能将形状为 (m, n) 的矩阵与长度为 n 的向量相加。广播通过在每列下复制相同的值，将长度为 n 的向量虚拟扩展为形状为 (m, n) 的矩阵，从而实现此操作。

例如，鉴于以下定义，线性代数禁止 A+B，因为 A 和 B 的维度不同：

A = [[7, 10, 4], [13, 5, 9]] B = [2]

不过，广播会将操作 B 扩展为以下操作，从而实现 A+B 运算：

[[2, 2, 2], [2, 2, 2]]

因此，A+B 现在是有效的运算：

[[7, 10, 4], + [[2, 2, 2], = [[ 9, 12, 6], [13, 5, 9]] [2, 2, 2]] [15, 7, 11]]

如需了解详情，请参阅下面关于 NumPy 中的广播的说明。

分桶

#fundamentals

将单个特征转换为多个二元特征（通常基于值范围），称为“分桶”或“分箱”。截断的特征通常是连续特征。

例如，您可以将温度范围分割为离散的存储分区，而不是将温度表示为单个连续浮点特征，例如：

<= 10 摄氏度将是“冷”存储分区。

11 - 24 摄氏度称为“温带”范围。

>= 25 摄氏度将是“温”范围。

模型会对同一存储分区中的每个值一视同仁。例如，13 和 22 这两个值都位于温带分区中，因此该模型对这两个值的处理方式相同。

点击该图标可查看其他备注。

如果将温度表示为连续特征，则模型会将温度视为单个特征。如果将温度表示为三个存储分区，则模型会将每个存储分区视为单独的特征。也就是说，模型可以学习每个存储分区与标签的单独关系。例如，线性回归模型可以学习每个存储分区的单独权重。

增加存储分区数会增加模型必须学习的关系数，进而使模型变得更加复杂。例如，冷水桶、温带水桶和温水桶本质上是模型训练的三个不同特征。如果决定再添加两个分桶（例如，冻结和热分），您的模型现在必须使用五个单独的特征进行训练。

如何知道要创建多少个分桶，或者每个分桶的范围应该是多少？答案通常需要大量的实验。

C

校准层

一种预测后调整，通常是为了解决预测偏差。调整后的预测和概率应与观察到的一组标签的分布一致。

候选生成

#recsystems

推荐系统选择的初始推荐集。例如，假设一家书店有 10 万本书。候选版本生成阶段会为特定用户创建一个小得多的合适图书列表，例如 500 本。但是，即使向用户推荐 500 本书，数量也太多了。推荐系统的后续阶段（例如评分和重排名）会将这 500 项减少到更小、更实用的推荐集。

候选采样

一种训练时优化，用于计算所有正标签的概率（例如使用 softmax），但仅针对负类别标签的随机样本计算概率。例如，假设有一个标签为 beagle 和 dog 的样本，候选采样会计算以下各项的预测概率和相应的损失项：

小猎犬

狗

其余负类别的随机子集（例如 cat、lollipop、fence）。

其理念是，负类别可以从频率较低的负强化项中学习，前提是正类别始终获得适当的正增强，并且这确实符合实际观察结果。

与针对所有负类别计算预测的训练算法相比，候选采样在计算效率上更高，尤其是当负类别的数量非常庞大时。

分类数据

#fundamentals

具有一组特定可能值的特征。例如，假设有一个名为 traffic-light-state 的分类特征，该特征只能具有以下三个可能的值之一：

red

yellow

green

通过将 traffic-light-state 表示为分类特征，模型可以学习 red、green 和 yellow 对驱动程序行为的不同影响。

分类特征有时称为离散特征。

与数值数据相对。

因果语言模型

#language

与单向语言模型的同义词。

如需对比语言建模中的不同定向方法，请参阅双向语言模型。

形心

#clustering

由 k-means 或 k-median 算法确定的聚类中心。例如，如果 k 为 3，则 k-means 或 k-median 算法会找到 3 个形心。

形心聚类

#clustering

一类聚类算法，用于将数据整理为非层次聚类。k-means 是使用最广泛的形心聚类算法。

与层次聚类算法相对。

思维链提示

#language

#生成式 AI

一种提示工程技术，可鼓励大语言模型 (LLM) 逐步解释其原因。以下面的提示为例，请特别注意第二句：

在 7 秒内从每小时 0 加速到每小时 60 英里的汽车中，驾驶员会体验多少克力？在答案中，显示所有相关的计算结果。

LLM 的回答可能会：

显示一系列物理公式，并在适当的位置插入值 0、60 和 7。

解释为什么它选择这些公式以及各种变量的含义。

思维链提示会强制 LLM 执行所有计算，这可能会得出更正确的答案。此外，思维链提示可让用户检查 LLM 的步骤，以确定答案是否合理。

聊天

#language

#生成式 AI

与机器学习系统（通常是大语言模型）的来回对话内容。聊天中的上一次互动（您输入的内容以及大语言模型的响应方式）将成为聊天后续部分的上下文。

聊天机器人是大语言模型的应用。

checkpoint

用于捕获模型在特定训练迭代中参数的状态的数据。借助检查点，可以导出模型权重，或跨多个会话执行训练。此外，借助检查点，系统还可以通过训练继续过去的错误（例如作业抢占）。

进行微调时，训练新模型的起点将是预训练模型的特定检查点。

类别

#fundamentals

标签可以所属的类别。例如：

在检测垃圾邮件的二元分类模型中，两类可能是垃圾邮件，而不是垃圾邮件。

在标识狗品种的多类别分类模型中，类别可能是贵宾犬、小猎犬、哈巴狗等。

分类模型用于预测类别。相比之下，回归模型预测的是数字，而不是类别。

分类模型

#fundamentals

一个模型，其预测结果为类model。model 例如，以下都是分类模型：

一个预测输入句子的语言（法语？西班牙语？意大利语？）。

一个预测树种的模型（枫树？橡木？猴面包树？）。

一种模型，用于预测特定疾病的正类别或负类别。

相比之下，回归模型预测的是数字，而不是类别。

两种常见的分类模型是：

二元分类

多类别分类

分类阈值

#fundamentals

在二元分类中，一个介于 0 和 1 之间的数字，用于将逻辑回归模型的原始输出转换为正类别或负类别的预测结果。请注意，分类阈值是人类选择的值，而不是模型训练选择的值。

逻辑回归模型会输出 0 到 1 之间的原始值。然后，执行以下操作：

如果此原始值大于分类阈值，则预测正类别。

如果此原始值小于分类阈值，则预测负类别。

例如，假设分类阈值为 0.8。如果原始值为 0.9，则模型会预测正类别。如果原始值为 0.7，则模型会预测负类别。

分类阈值的选择对假正例和假负例的数量有很大影响。

点击该图标可查看其他备注。

随着模型或数据集的演变，工程师有时也会更改分类阈值。当分类阈值发生变化时，正类别预测可能会突然变成负类别，反之亦然。

例如，假设有一个二元分类疾病预测模型。假设系统在第一年运行时：

特定患者的原始值为 0.95。

分类阈值为 0.94。

因此，系统会诊断正类别。（患者喘着气息，“糟糕！我生病了！”）

一年后，这些值可能如下所示：

同一患者的原始值仍为 0.95。

分类阈值更改为 0.97。

因此，系统现在将该患者重新分类为负类别。（“祝你有愉快的一天！我没有生病。”）同一个患者。不同诊断。

分类不平衡的数据集

#fundamentals

一个分类问题的数据集，其中每个类别的标签总数差异很大。例如，假设一个二元分类数据集，其两个标签按如下方式划分：

100 万个排除标签

10 个正例标签

负类别标签与正类别标签的比率为 100,000:1，因此这是一个分类不平衡的数据集。

相比之下，以下数据集不分类不平衡，因为负标签与正标签的比率相对接近于 1：

517 个排除标签

483 个正例标签

多类别数据集也可能不平衡。例如，以下多类别分类数据集也是分类不平衡的，因为一个标签的样本数量远远超过其他两个标签：

100 万个类别为“green”的标签

类别为“紫色”的 200 个标签

类别为“orange”的 350 个标签

另请参阅熵、多数类和少数类。

裁剪

#fundamentals

一种通过执行以下两项或两项操作来处理离群值的技术：

将大于最大阈值的 feature 值减少到该最大阈值。

将小于最低阈值的特征值增加到该最低阈值。

例如，假设特定特征的值中，小于 0.5% 的值不在 40-60 的范围内。在这种情况下，您可以执行以下操作：

将大于 60（最大阈值）的所有值裁剪为正好 60。

将低于 40（最小阈值）的所有值裁剪为正好 40。

离群值可能会损害模型，有时会导致权重在训练期间溢出。一些离群值还会严重影响准确率等指标。夹扣是一种限制损伤的常见技术。

梯度裁剪会在训练期间强制将梯度值控制在指定范围内。

Cloud TPU

#TensorFlow

#GoogleCloud

一种专门的硬件加速器，旨在加速 Google Cloud 上的机器学习工作负载。

聚类

#clustering

对相关样本进行分组，尤其是在非监督式学习期间。将所有样本分组之后，人员就可以选择为每个聚类提供含义。

聚类算法有很多。例如，k-means 算法的聚类根据样本与形心的接近程度进行聚类，如下图所示：

然后，人类研究人员可以审核这些聚类，例如，将聚类 1 标记为“矮树”，将聚类 2 标记为“全尺寸树”。

再举一个例子，考虑基于样本与中心点距离的聚类算法，如下所示：

协同适应

是指神经元几乎完全依赖其他特定神经元的输出（而不是依赖该网络的整体行为）来预测训练数据中的模式。如果导致协同适应的模式不在验证数据中，则协同适应会导致过拟合。Dropout 正规化可以减少协同适应，因为 dropout 可确保神经元不能仅依赖于其他特定的神经元。

协同过滤

#recsystems

根据许多其他用户的兴趣对某个用户的兴趣进行预测。协同过滤通常用于推荐系统。

概念偏移

特征与标签之间的关系发生变化。随着时间的推移，概念偏移会降低模型的质量。

在训练期间，模型会学习训练集中特征与其标签之间的关系。如果训练集中的标签能很好地代表现实世界，那么该模型应该可以做出良好的实际预测。但是，由于概念偏移，模型的预测结果往往会随着时间的推移而下降。

例如，假设某个二元分类模型可预测特定车型是否“省油”。也就是说，特征可以是：

汽车重量

引擎压缩

传输类型

标签为：

燃料效率

低燃料

不过，“节能汽车”的概念一直在不断变化。如果某个车型在 1994 年被标记为“燃油效率”，那么在 2024 年，几乎可以肯定地说，这个车型在 2024 年会被标记为“低燃油效率”。随着时间的推移，患有概念偏移的模型往往做出的预测实用性越来越低。

与非平稳性进行比较和对比。

点击该图标可查看其他备注。

为了补偿概念偏移，重新训练模型的速度应快于概念偏移。例如，如果概念偏移每两个月会显著降低模型精确率，则重新训练模型的频率应高于每两个月一次。

condition

#df

在决策树中，任何用于评估表达式的节点。例如，决策树的以下部分包含两个条件：

条件也称为分屏或测试。

与叶的对比度条件。

另请参阅：

二元条件

非二元条件。

轴对齐条件

斜条件

混淆

#language

是幻觉的同义词。

从技术角度来说，“确信”可能比“幻觉”更准确。后来，幻觉开始流行起来。

配置

分配用于训练模型的初始属性值的过程，包括：

模型的组成层

数据的位置

超参数，例如：

学习速率

迭代

优化器

损失函数

在机器学习项目中，可以通过特殊配置文件或使用如下所示的配置库完成配置：

HParam

杜松子酒

小提琴

确认偏差

#fairness

倾向于搜索、解读、支持和召回信息，以确认一个人的已有信仰或假设。机器学习开发者可能会无意中以影响支持其现有观念的结果的方式收集或标记数据。确认偏差是一种隐性偏差。

实验者偏差是一种确认偏差，在这种偏差下，实验者会继续训练模型，直到现有假设得到证实。

混淆矩阵

#fundamentals

一个 NxN 表格，其中总结了分类模型所做的正确和错误预测的数量。例如，请考虑以下适用于二元分类模型的混淆矩阵：

肿瘤（预测）非肿瘤（预测）

肿瘤（标准答案） 18 (TP) 1（FN）

非肿瘤（标准答案） 6 (FP) 452（田纳西州）

上述混淆矩阵显示以下内容：

在标准答案为“Tumor”的 19 项预测中，模型正确分类了 18 项，错误分类为 1。

在 458 条评估结果为“非肿瘤”的预测中，模型正确分类为 452，错误分类为 6。

多类别分类问题的混淆矩阵可帮助您识别错误的模式。例如，请考虑以下混淆矩阵，这是一个三类多类别分类模型，该模型对三种不同的鸢尾花类型（维吉尼亚、变色和山鸢尾）进行分类。当标准答案是维吉尼亚州时，混淆矩阵显示模型错误地预测 Versicolor 的可能性要远远超过 Setosa：

山川（预测）变色（预测）维吉尼亚州（预测）

山谷（标准答案） 88 12 0

Versicolor（标准答案） 6 141 7

维吉尼亚州（标准答案） 2 27 109

再举一个例子，混淆矩阵可能表明，经过训练、能够识别手写数字的模型往往错误地预测为 9 而不是 4，或错误地预测为 1 而不是 7。

混淆矩阵包含计算各种性能指标（包括精确率和召回率）所需的足够信息。

选区解析

#language

将句子划分为较小的语法结构（“组成部分”）。机器学习系统的后续部分（例如自然语言理解模型）可以比原始句子更容易解析组成部分。以下面的句子为例：

我的朋友领养了两只猫。

选区解析器可以将这个句子分为以下两个组成部分：

Myfriend 是一个名词短语。

adopted two cats 是一个动词短语。

这些组成部分可进一步细分为更小的组成部分。例如，动词短语

领养了两只猫

可以进一步细分为：

adopted 为动词。

two cats 则是另一个名词短语。

语境化语言嵌入

#language

#生成式 AI

一种嵌入，能够以人类母语人士可以理解的方式近乎“理解”字词和短语。上下文化语言嵌入可以理解复杂的语法、语义和上下文。

以英语单词 cow 的嵌入为例。较旧的嵌入（例如 word2vec）可以表示英语单词，因此嵌入空间中从牛到公牛的距离类似于从母羊（母羊）到 ram（雄羊）或从女性到男性的距离。语境化语言嵌入可以在此基础上更进一步，它认识到说英语的人有时会偶尔使用“cow”一词来指代牛或公。

上下文窗口

#language

#生成式 AI

模型可以在给定提示中处理的令牌数量。上下文时段越大，模型可用于为提示提供连贯一致的响应的信息就越多。

连续特征

#fundamentals

浮点特征，具有无限范围的可能值，例如温度或重量。

与离散特征相对。

便利抽样

使用并非以科学方式收集的数据集来运行快速实验。之后，务必切换到以科学方式收集的数据集。

收敛

#fundamentals

当损失值在每次迭代时变化非常小或完全没有变化时，所达到的状态。例如，下面的损失曲线表明，在大约 700 次迭代时收敛：

如果额外的训练不会改进模型，则模型会收敛。

在深度学习中，在最终下降之前，经过多次迭代，损失值有时会保持不变或几乎保持不变。在长时间保持恒定的损失值期间，您可能会暂时产生错误的收敛。

另请参阅早停法。

凸函数

一种函数，函数图上方的区域为凸集。典型凸函数的形状类似于字母 U。例如，以下都是凸函数：

相反，以下函数不是凸函数。请注意，图表上方的区域不是凸集：

严格凸函数只有一个局部最低点，该点也是全局最低点。经典的 U 形函数是严格凸函数。但是，某些凸函数（例如直线）不是 U 形函数。

点击该图标可深入了解数学问题。

很多常见的损失函数（包括下列函数）都是凸函数：

L₂ 损失

对数损失

L₁ 正则化

L₂ 正则化

梯度下降法的许多变体都一定能找到一个接近严格凸函数最小值的点。同样，随机梯度下降法的许多变体都很有可能找到接近严格凸函数最小值的点（但不保证一定如此）。

两个凸函数（例如 L₂ 损失函数 + L₁ 正则化）的总和就是凸函数。

深度模型绝不会是凸函数。值得注意的是，专为凸优化设计的算法往往总能在深度网络上找到合理的解决方案，即使这些解决方案并不一定是全局最小值。

凸优化

使用梯度下降法等数学技术求凸函数最小值的过程。机器学习领域的大量研究都侧重于将各种问题表示为凸优化问题，以及如何更高效地解决这些问题。

如需了解完整详情，请参阅 Boyd 和 Vandenberghe 合著的 Convex Optimization（凸优化）。

凸集

欧几里得空间的子集，其中任意两点之间绘制的线条仍完全位于该子集内。例如，以下两个形状都是凸集：

相反，以下两个形状都不是凸集：

卷积

#image

简单来说，在数学中，两个函数的组合。在机器学习中，卷积会将卷积过滤器和输入矩阵混合，以训练权重。

机器学习中的“卷积”一词通常是卷积运算或卷积层的简写形式。

如果没有卷积，机器学习算法必须学习大型张量中每个单元的单独权重。例如，用 2K x 2K 图片训练的机器学习算法将被迫查找 400 万个单独的权重。得益于卷积，机器学习算法只需要计算卷积过滤器中每个单元的权重，从而大大减少了训练模型所需的内存。应用卷积过滤器时，它只是跨单元复制，每个单元都会与过滤器相乘。

卷积过滤器

#image

卷积运算中的两个参与者之一。（另一个参与方是输入矩阵切片。）卷积过滤器是一种矩阵，具有与输入矩阵相同的秩，但形状更小。例如，假设有一个 28x28 的输入矩阵，过滤器可以是任何小于 28x28 的二维矩阵。

在摄影操作中，卷积过滤器中的所有细胞通常都设置为由 1 和 0 构成的恒定模式。在机器学习中，卷积过滤器通常先使用随机数字，然后由网络训练理想值。

卷积层

#image

一个深度神经网络层，卷积过滤器会在其中传递输入矩阵。以下面的 3x3 卷积过滤器为例：

下面的动画展示了一个卷积层，其中包含 9 个涉及 5x5 输入矩阵的卷积运算。请注意，每个卷积运算都在不同的 3x3 输入矩阵切片上执行。生成的 3x3 矩阵（右侧）由 9 个卷积运算的结果组成：

卷积神经网络

#image

一种神经网络，其中至少有一个层是卷积层。典型的卷积神经网络包含以下几层的组合：

卷积层

池化层

密集层

卷积神经网络在解决某些类型的问题（例如图像识别）方面取得了巨大成功。

卷积运算

#image

以下是两步数学运算：

对卷积过滤器和输入矩阵切片执行元素级乘法。（输入矩阵切片与卷积过滤器具有相同的秩和大小。）

对所得乘积矩阵中所有值求和。

以下面的 5x5 输入矩阵为例：

现在请想象以下 2x2 卷积过滤器：

每个卷积操作都涉及一个 2x2 的输入矩阵切片。例如，假设我们使用输入矩阵左上角的 2x2 切片。因此，对此切片的卷积运算如下所示：

卷积层由一系列卷积运算组成，每个卷积运算都对输入矩阵的不同切片执行操作。

费用

与损失的含义相同。

联合培训

半监督学习方法在满足以下所有条件时特别有用：

数据集中无标签样本与有标签样本的比率很高。

这是一个分类问题（二元或多类别）。

数据集包含两组不同的预测特征，它们相互独立且互补。

协同训练实质上会将独立信号放大为更强的信号。例如，假设有一个分类模型，该模型会对各个二手车进行分类，即“良好”或“不良”。一组预测特征可能侧重于总体特征，如汽车的年份、品牌和型号；另一组预测特征可能侧重于前任所有者的驾驶记录和汽车的保养记录。

关于联合训练的开创性论文是 Blum 和 Mitchell 撰写的将 Labeled and Unlabeled Data with Co-Training 相结合。

反事实公平

#fairness

一个公平性指标，用于检查分类器针对一个人生成的结果是否与与第一个人完全相同的另一个人生成的结果相同，但一个或多个敏感属性除外。评估分类器的反事实公平性是发现模型中潜在偏差来源的一种方法。

如需详细了解反事实公平性，请参阅《当世界相互碰撞：在公平性中集成不同的反事实假设》。

覆盖偏差

#fairness

请参阅选择偏差。

崩溃花

#language

含义不明确的句子或短语。歧义是自然语言理解的一个重大问题。例如，标题“Red Tape Holds Up Skyscraper”存在歧义，因为 NLU 模型可能会从字面解读该标题，也可能会从象征角度解读标题。

点击该图标可查看其他备注。

我想澄清这个神秘的标题：

“Red Tape”可能指以下任一项：

粘合剂

层层汇报过多

“保留时长”可能表示下列其中一项：

结构支持

延误

专家

#rl

与深度 Q 网络的同义词相同。

交叉熵

对对数损失到多类别分类问题的泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅困惑度。

交叉验证

一种机制，用于根据从训练集model中保留的一个或多个不重叠的数据子集来测试模型，从而估算模型泛化到新数据的程度。model

累积分布函数 (CDF)

此函数用于定义小于或等于目标值的样本频率。例如，假设连续值的正态分布。 CDF 显示，大约 50% 的样本应小于或等于平均值，并且大约 84% 的样本应小于或等于高于平均值一个标准差。

D

数据分析

通过考虑样本、测量结果和可视化结果来了解数据的意义。首次收到数据集时，以及构建第一个model之前，数据分析会特别有用。在理解实验和调试系统问题方面也至关重要。

数据增强

#image

通过转换现有样本来创建更多样本，人为扩大训练样本的范围和数量。例如，假设图片是您的一个特征，但您的数据集没有足够的图片示例供模型学习有用的关联。理想情况下，您应向数据集添加足够的已加标签图片，使您的模型能够正确训练。如果做不到这一点，数据增强可以旋转、拉伸和反射每张图像，从而生成原始图片的许多变体，从而可能生成足够的加标签数据来实现出色的训练。

DataFrame

#fundamentals

一种热门的 Pandas 数据类型，用于表示内存中的数据集。

DataFrame 类似于表格或电子表格。DataFrame 的每一列都有一个名称（标题），每一行都由一个唯一数字标识。

DataFrame 中的每一列的结构类似于二维数组，只不过可以为每列分配其自己的数据类型。

另请参阅官方 pandas.DataFrame 参考页面。

数据并行处理

一种扩展训练或推断的方法，将整个模型复制到多台设备上，然后将输入数据的子集传递到每个设备。数据并行性可以支持对非常大的批量大小进行训练和推断；不过，数据并行性要求模型要小到适合所有设备。

数据并行处理通常加快训练和推断速度。

另请参阅模型并行。

数据集或数据集

#fundamentals

一组原始数据，通常（但并非专门）按以下某种格式进行组织：

电子表格

CSV（逗号分隔值）格式的文件

Dataset API (tf.data)

#TensorFlow

一种高阶 TensorFlow API，用于读取数据并将其转换为机器学习算法所需的格式。tf.data.Dataset 对象表示一系列元素，其中每个元素都包含一个或多个张量。tf.data.Iterator 对象提供对 Dataset 元素的访问权限。

如需详细了解 Dataset API，请参阅 TensorFlow 编程人员指南中的 tf.data：构建 TensorFlow 输入流水线。

决策边界

由模型在二元类别或多类别分类问题中学习的类别。例如，在以下表示二元分类问题的图片中，决策边界是橙色类别和蓝色类别之间的边界：

决策森林

#df

使用多个决策树创建的模型。决策森林通过聚合其决策树的预测结果来进行预测。常见的决策森林类型包括随机森林和梯度提升树。

判定阈值

与分类阈值的含义相同。

决策树

#df

一种监督式学习模型，由一组以分层方式整理的条件和叶组成。conditionsconditions例如，以下就是一个决策树：

解码器

#language

一般来说，从经过处理的密集表示法或内部表示法转换为更原始、稀疏或外部表示法的任何机器学习系统。

解码器通常是大型模型的一个组件，经常需要与编码器搭配使用。

在序列到序列任务中，解码器从编码器生成的内部状态开始，以预测下一个序列。

如需了解 Transformer 架构中解码器的定义，请参阅Transformer。

深度模型

#fundamentals

包含多个隐藏层的神经网络。

深度模型也称为深度神经网络。

与广度模型相对。

一种非常流行的深度神经网络

与深度模型的含义相同。

深度 Q 网络 (DQN)

#rl

在 Q 学习中，一种预测 Q 函数的深度神经网络。

Critic 是深度 Q-Network 的同义词。

受众特征平等

#fairness

一个公平性指标，如果模型分类的结果不依赖于给定的敏感属性，则满足此条件。

例如，如果小人国立大学人和 Brobdingnagians 都申请了格鲁布杜布德里布大学，则只要接纳的小人国立大学学生百分比与录用布丁纳吉斯人所占的百分比相同，则无论一个群组是否平均优于另一个群组，即可实现受众特征对等。

与均等几率和机会相等相反，后者允许分类结果总体依赖于敏感属性，但不允许对某些指定的标准答案标签的分类结果依赖于敏感属性。请参阅“利用更智能的机器学习技术解决歧视”，以可视化方式探索在针对人口统计特征进行优化时权衡的利弊。

去噪

#language

一种常见的自监督学习方法，该方法：

噪声是人为添加到数据集中的噪声。

模型尝试移除噪声。model

去噪功能支持从无标签样本中学习。原始数据集用作目标或标签，噪声数据作为输入。

一些遮盖语言模型使用去噪功能，如下所示：

噪声是通过遮盖部分词元来人为地添加到未加标签的句子中。

模型尝试预测原始词元。

密集特征

#fundamentals

一种特征，其大多数或所有值均为非零值，通常是浮点值的张量。例如，下面的 10 元素张量是密集的，因为它有 9 个值是非零值：

8 3 7 5 2 4 0 4 9 6

与稀疏特征相对。

密集层

与全连接层的含义相同。

深度

#fundamentals

神经网络中的以下函数总和：

隐藏层的数量

输出层的数量，通常为 1

任何嵌入层的数量

例如，具有 5 个隐藏层和一个输出层的神经网络的深度为 6。

请注意，输入层不影响深度。

深度可分离卷积神经网络 (sepCNN)

#image

一种基于 Inception 的卷积神经网络架构，但其中 Inception 模块被替换为深度可分离的卷积。也称为 Xception。

深度可分离卷积（也称为“可分离卷积”）将标准 3D 卷积分解为两个计算效率更高的独立卷积操作：第一个是深度卷积，深度为 1 (n x n μ × Scaled a point)。

如需了解详情，请参阅 Xception：使用深度可分离卷积进行深度学习。

派生标签

与代理标签的含义相同。

设备

#TensorFlow

#GoogleCloud

一个重载的术语，具有以下两种可能的定义：

一类可运行 TensorFlow 会话的硬件，包括 CPU、GPU 和 TPU。

在加速器芯片（GPU 或 TPU）上训练机器学习模型时，系统实际上操作张量和嵌入的部分。该设备在加速器芯片上运行。相比之下，主机通常在 CPU 上运行。

差分隐私

在机器学习中，一种匿名化方法来保护模型的训练集中包含的任何敏感数据（例如个人的个人信息）免遭泄露。这种方法可确保模型model不会了解或记住很多关于特定个人的信息。这是通过在模型训练期间采样和添加噪声来实现的，从而模糊各个数据点，从而降低泄露敏感训练数据的风险。

差分隐私也用于机器学习以外的领域。例如，在计算不同受众特征的产品使用情况统计信息时，数据科学家有时会使用差分隐私来保护个人隐私。

降维

减少用于表示特征向量中特定特征的维度的数量，通常通过转换为嵌入向量来实现。

尺寸

一个多含义术语，具有以下任何定义：

张量中的坐标级别数。例如：
- 标量的维度为零；例如 ["Hello"]。
- 向量有一个维度，例如 [3, 5, 7, 11]。
- 矩阵有两个维度；例如 [[2, 4, 18], [5, 7, 14]]。
您可以使用一个坐标唯一地指定一维矢量中的特定单元格；您需要使用两个坐标来唯一地指定二维矩阵中的特定单元格。
特征向量中的条目数量。
某个嵌入层中的元素数量。

直接提示

#language

#生成式 AI

与零样本提示的含义相同。

离散特征

#fundamentals

一种特征，包含有限个可能值。例如，某个值只能是动物、蔬菜或矿物的特征就是离散特征（或分类特征）。

与连续特征相对。

判别模型

一种模型，用于根据由一个或多个特征组成的集合预测标签 model。model更正式地说，判别模型根据特征和权重定义输出的条件概率；即：

p(output | features, weights)

例如，如果某个模型通过特征和权重预测电子邮件是否为垃圾邮件，则该模型为判别模型。

绝大多数监督式学习模型（包括分类模型和回归模型）都是判别模型。

与生成模型相对。

判别器

用于确定样本是否真实的系统。

生成对抗网络中的子系统，用于确定生成器创建的样本是真实的还是虚构的。

各种影响

#fairness

决定不成比例地影响不同人口子群体的人群。这通常是指算法决策流程对某些子群体的危害或好处大于其他子群体的情况。

例如，假设某个算法在确定小人国居民是否有资格获得小型住宅贷款时，如果其邮寄地址包含特定邮政编码，则更有可能将其归类为“不符合条件”。如果大端小端小人国居民比起小端小端小人国居民，更有可能拥有采用此邮政编码的邮寄地址，那么此算法可能会导致截然不同的影响。

与区分处理不同，后者侧重于在子群组特征是算法决策过程的显式输入时产生的差异。

区别对待

#fairness

在算法决策过程中将正文的敏感属性考虑在内，以便以不同的方式对待不同的子群体。

例如，假设有一种算法，该算法根据小人国居民在贷款申请中提供的数据确定他们是否有资格获得小型住宅贷款。如果该算法将利利普顿的隶属关系用作大端字节或小端字节序作为输入，则会沿该维度采取不同的处理方式。

与“不同影响”相对，后者侧重于算法决策对子群体的社会影响方面的差异，无论这些子群体是否是模型的输入。

警告：由于敏感属性几乎总是与数据可能具有的其他特征相关联，因此明确移除敏感属性信息并不能保证子组得到平等对待。例如，从仍然包含邮政编码作为特征的训练数据集中移除敏感的受众特征属性可以解决对子群组的不同处理问题，但可能会对这些群组产生不同的影响，因为邮政编码可以充当其他受众特征信息的代理。

蒸馏

#生成式 AI

将一个模型model（称为“教师”model）的大小缩减为较小模型（称为“学生”model）的过程，以尽可能准确地模拟原始模型的预测。蒸馏非常有用，因为与大型模型（老师）相比，较小的模型有两个主要优势：

推理速度更快

降低内存和能耗

但是，学生的预测通常不如教师的预测好。

蒸馏会训练学生模型，以便根据学生模型和教师模型预测结果之间的差异来尽可能减小损失函数。

将蒸馏与以下术语进行比较和对比：

微调

基于提示的学习

内容分发

给定特征或标签的不同值的频率和范围。分布反映了特定值的可能性。

下图显示了两种不同分布的直方图：

左侧是财富幂律与拥有相应财富的人数的分布情况。

右侧为身高与拥有相应身高的人数的正态分布。

了解每个特征和标签的分布情况有助于您确定如何归一化值和检测离群值。

“不分布”一词是指数据集中未显示的值或非常罕见的值。例如，对于包含猫图片的数据集，土星的图片会被视为不分布。

分裂式聚类

#clustering

请参阅层次聚类。

降采样

#image

一个多含义术语，可以理解为下列两种含义之一：

减少功能中的信息量，以便更高效地训练模型。例如，在训练图片识别模型之前，将高分辨率图片降采样为低分辨率格式。

针对比例过高的类别样本进行训练，以改进对代表性不足的类别的模型训练。例如，在分类不平衡的数据集中，模型往往需要了解很多关于多数类的信息，而对少数类类别的了解不足。降采样有助于平衡多数类别和少数类的训练量。

邓氏编码

#rl

深度 Q-Network 的缩写。

丢弃正则化

一种正则化，有助于训练神经网络。Dropout 正规化操作会针对一个梯度步移除网络层中固定数量的单元随机选择的。丢弃的单元越多，正则化效果就越强。这类似于训练网络以模拟较小网络的指数级大型集成学习。如需了解完整详情，请参阅 Dropout: A Simple Way to Prevention Neural Networks from Overfitting（《丢弃：一种防止神经网络过拟合的简单方法》）。

动态

#fundamentals

频繁或持续执行的某些操作。术语“动态”和“在线”在机器学习中是同义词。以下是在机器学习中的动态和在线的常见用途：

动态模型（或在线模型）是指频繁或持续进行再训练的模型。

动态训练（或在线训练）是频繁或持续进行的训练过程。

动态推理（或在线推理）是按需生成预测的过程。

动态模型

#fundamentals

经常（甚至不断）重新训练的model模型。动态模型是一种“终身学习器”，它会不断适应不断变化的数据。动态模型也称为在线模型。

与静态模型相对。

E

即刻执行

#TensorFlow

一种 TensorFlow 编程环境，可在其中立即运行operations。相反，在图执行中调用的操作在得到明确评估之前不会运行。即刻执行是一种命令式接口，就像大多数编程语言中的代码一样。与图执行程序相比，Eager 执行程序通常更易于调试。

早停法

#fundamentals

一种正则化方法，是指在训练损失减少之前结束训练。在早停法中，当验证数据集上的损失开始增加时（即泛化性能变差时），您有意停止训练模型。

点击该图标可查看其他备注。

早停法听起来似乎违背常理。毕竟，如果让模型在损失仍在减少时停止训练，这看起来就像是在甜点完全烘烤之前告诉厨师停止烹饪。但是，训练模型的时间过长可能会导致过拟合。也就是说，如果训练模型的时间过长，模型可能会非常接近训练数据，以致于模型无法在新样本上做出良好的预测。

地球仪的距离 (EMD)

衡量两个分布的相对相似度。地球运动员的距离越短，分布就越相似。

修改距离

#language

用于衡量两个文本字符串之间的相似度的测量值。在机器学习中，修改距离很有用，因为它易于计算，也可以有效比较两个已知相似的字符串，或查找与给定字符串相似的字符串。

修改距离有多种定义，每种定义使用不同的字符串操作。例如， Levenshtein 距离考虑的删除、插入和替换操作最少。

例如，单词“heart”和“darts”之间的 Levenshtein 距离为 3，因为以下 3 次编辑是将一个单词转换为另一个单词的最少更改：

心 → deart（将“h”替换为“d”）

deart → dart（删除“e”）

dart → dart（插入“s”）

Einsum 表示法

一种用于描述两个张量如何组合方式的有效表示法。将一个张量的元素乘以另一个张量的元素，然后对乘积相加，即可合并这些张量。Einsum 表示法使用符号标识每个张量的轴，并且重新排列这些符号以指定新生成的张量的形状。

NumPy 提供常用的 Einsum 实现。

嵌入层

#language

#fundamentals

一个特殊的隐藏层，基于高维分类特征进行训练，以逐步学习低维度嵌入向量。与单纯地训练高维分类特征相比，嵌入层可让神经网络进行更有效的训练。

例如，Google 地球目前支持约 73,000 种树木。假设树种是模型中的一个特征，因此模型的输入层包含一个长度为 73,000 个元素的独热矢量。例如，baobab 可能会按如下方式表示：

一个包含 73,000 个元素的数组非常长。如果您不向模型添加嵌入层，由于需要乘以 72,999 个零，训练将会非常耗时。或许，您选择嵌入层由 12 个维度组成。因此，嵌入层会针对每个树种逐步学习一个新的嵌入向量。

在某些情况下，哈希是嵌入层的合理替代方案。

嵌入空间

#language

较高维向量空间中的特征映射到的 d 维向量空间。理想情况下，嵌入空间包含一个可产生有意义的数学结果的结构；例如，在理想的嵌入空间中，对嵌入进行加减运算可以解决字词类比任务。

两个嵌入的点积可用于衡量两者之间的相似性。

嵌入向量

#language

从广义上讲，取自任何隐藏层的浮点数数组，用于描述该隐藏层的输入。通常，嵌入向量是在嵌入层中训练的浮点数数组。例如，假设嵌入层必须针对地球上 73,000 种树种中的每一种学习一个嵌入向量。也许以下数组是猴面包树的嵌入向量：

嵌入向量不是一组随机数字。嵌入层通过训练确定这些值，类似于神经网络在训练期间学习其他权重的方式。该数组的每个元素都是根据某个树种某些特征的评分。哪个元素代表哪个树种的特征？这对人类来说非常难以确定

在数学上，嵌入向量值得注意的部分是，相似的项具有类似的浮点数集。例如，类似的树种具有比不同的树种更相似的浮点数集。红杉和红杉是相关的树种，因此与红杉和椰子树相比，它们具有一组更相似的浮点数。每次重新训练模型时，即使使用相同的输入重新训练模型，嵌入矢量中的数字也会发生变化。

经验累积分布函数（eCDF 或 EDF）

基于真实数据集的经验测量值的累积分布函数。沿 x 轴任意点的函数值即为数据集中小于或等于指定值的观察结果所占的比例。

经验风险最小化 (ERM)

选择可以最大限度降低训练集损失的函数。与结构风险最小化相对。

编码器

#language

一般来说，任何可以从原始、稀疏或外部表示形式转换为处理程度更高、更密集或更内部的表示形式的机器学习系统。

编码器通常是较大模型的组成部分，经常需要与解码器搭配使用。一些 Transformer 将编码器和解码器配对，但其他 Transformer 仅使用编码器或仅使用解码器。

有些系统将编码器的输出用作分类或回归网络的输入。

在序列到序列任务中，编码器会接受一个输入序列并返回内部状态（向量）。然后，解码器利用该内部状态预测下一个序列。

如需了解 Transformer 架构中编码器的定义，请参阅 Transformer。

集成学习

一组独立训练的模型，这些模型会对预测结果求平均值或聚合。在许多情况下，集成学习生成的预测比单个模型更好。例如，随机森林是由多个决策树构建的集成集。请注意，并非所有决策森林都是集成学习的。

熵

#df

在信息理论中，描述概率分布的不可预测程度。此外，熵也可以定义为每个样本包含的信息量。当随机变量的所有值都同等可能时，分布具有尽可能高的熵。

具有两个可能值“0”和“1”的集合（例如二元分类问题中的标签）的熵采用以下公式：

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中：

H 是熵。

p 表示“1”样本的比例。

q 是“0”样本的比例。请注意，q = (1 - p)

log 通常是 log₂。在本示例中，熵单位有点意义。

例如，假设情况如下：

100 个示例包含值“1”

300 个示例包含值“0”

因此，熵值为：

p = 0.25

q = 0.75

H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 位/样本

一个完美平衡的集合（例如，200 个“0”和 200 个“1”）样本的熵为 1.0 位。随着集合越来越不平衡，其熵会逐渐接近 0.0。

在决策树中，熵有助于用公式表示信息增益，从而帮助分部器在分类决策树成长过程中选择条件。

将熵与以下项进行比较：

基尼杂质

cross-entropy 损失函数

熵通常称为香农的熵。

环境

#rl

在强化学习中，是指包含代理的世界，该世界包含代理并允许代理观察该世界的状态。例如，表示的世界可以是国际象棋这样的游戏，也可以是迷宫这样的物理世界。当代理对环境应用操作时，环境会在状态之间转换。

分集

#rl

在强化学习中，是指代理为学习环境而反复尝试的每次尝试。

周期数

#fundamentals

对整个训练集进行一次完整的训练遍历，以便每个样本都被处理一次。

一个周期表示 N/批量大小训练迭代，其中 N 是样本总数。

例如，假设存在以下情况：

该数据集包含 1000 个样本。
批次大小为 50 个样本。

因此，一个周期需要 20 次迭代：

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

epsilon 贪婪政策

#rl

在强化学习中，遵循具有 epsilon 概率的随机政策的政策，否则遵循贪心政策。例如，如果 epsilon 为 0.9，则政策 90% 的几率遵循随机政策，10% 的几率遵循贪心政策。

在连续的剧集中，算法会降低 epsilon 的值，以便将遵循随机政策转变为遵循贪婪政策。通过改变政策，代理会先随机探索环境，然后贪心地利用随机探索的结果。

机会均等

#fairness

一个公平性指标，用于评估模型对于敏感属性的所有值是否同样有效地预测了预期结果。换言之，如果模型的预期结果是正类别，那么目标就是使所有组的真正例率都相同。

机会均等与均等几率有关，这要求所有组的真正例率和假正例率都相同。

假设格鲁布杜布德里布大学允许小人和布丁纳吉斯人学习严格的数学课程。小岛的中学提供良好的数学课程，让大多数学生都有资格入读大学课程。Brobdingnagians 的中学根本不提供数学课程，因此符合资格的学生要少得多。如果符合条件的学生无论是小人国还是布丁纳吉亚人，被录取的可能性均等，则对于国籍（利利普特人或 Brobdingnagian）的首选标签而言，就表示机会平等。

例如，假设 100 名小人国学生和 100 名布丁纳吉人向格卢布杜布德里布大学申请录取，其录取决定如下：

表 1. 利利普托语申请者（90% 为合格）

	符合资格	不合格
允许	45	3
已遭拒	45	7
总计	90	10
被录取的符合条件的学生所占百分比：45/90 = 50% 不符合条件的学生所占的百分比：7/10 = 70% 被录取的利利普斯语学生所占百分比：(45+3)/100 = 48%

表 2. Brobdingnagian 申请者（10% 符合条件）：

	符合资格	不合格
允许	5	9
已遭拒	5	81
总计	10	90
被录取的符合条件的学生所占百分比：5/10 = 50% 不符合条件的学生所占的百分比：81/90 = 90% 布丁纳吉亚语录取学生所占的百分比：(5+9)/100 = 14%

上述示例满足了录取合格学生的平等机会，因为符合条件的小人国立大学和 Brobdingnagians 都录取 50% 的几率。

虽然机会平等得到满足，但以下两个公平性指标并不满足：

受众特征平等：这所大学的入学率各不相同，有 48% 的小人国学生和布丁纳吉斯人是入学的，但只有 14% 的布丁纳吉斯人是入学的。
均等的几率：虽然符合条件的小人国学生和 Brobdingnagian 学生被录取的概率相同，但不符合条件的小人国立大学人和 Brobdingnagiian 人也具有相同的被拒概率这一额外限制并不能满足此条件。不符合条件的小人国居民的拒绝率为 70%，而不符合条件的 Brobdingnagians 的拒绝率为 90%。

如需详细了解机会平等的讨论，请参阅监督式学习中的机会平等。另请参阅“利用更智能的机器学习处理歧视”，以可视化方式探索在优化机会均等方面的权衡。

均分几率

#fairness

一个公平性指标，用于评估模型对敏感属性的所有值（正类别和负类别，而不仅仅是一个类别或另一个类别）是否同样能够预测出结果。换句话说，所有群组的真正例率和假负例率应该相同。

均等几率与机会均等相关，后者仅关注单个类别（正类别或负类别）的错误率。

例如，假设格鲁布杜布德里布大学允许小人国立大学和布丁纳吉斯人学习严格的数学课程。小岛的中学提供丰富的数学课程，而绝大多数学生都有资格进入大学课程。Brobdingnagians 的中学根本不提供数学课程，因此符合资格条件的学生要少得多。无论申请者是小人国民主还是 Brobdingnagian，只要申请者符合条件，获批的概率都是一样的；如果不合格，被拒的可能性也一样大。

假设 100 名小人国居民和 100 名 Brobdingnagians 向格卢布杜布德里布大学申请，录取决定如下：

表 3. 利利普托语申请者（90% 为合格）

	符合资格	不合格
允许	45	2
已遭拒	45	8
总计	90	10
被录取的符合条件的学生所占百分比：45/90 = 50% 不符合条件的学生所占百分比：8/10 = 80% 被录取的利利普斯语学生所占百分比：(45+2)/100 = 47%

表 4. Brobdingnagian 申请者（10% 符合条件）：

	符合资格	不合格
允许	5	18
已遭拒	5	72
总计	10	90
被录取的符合条件的学生所占百分比：5/10 = 50% 不符合条件的学生所占的百分比：72/90 = 80% 布丁纳吉亚语录取学生所占的百分比：(5+18)/100 = 23%

均等的几率会得到满足，因为符合条件的小人国学生和布丁纳吉安人均有 50% 被录取的几率，而不符合条件的小人国学生和 Brobdingnagian 学生被拒绝的可能性为 80%。

监督式学习中的机会平等中正式定义均等几率如下：“预测器 Ø 满足与受保护属性 A 相关的均等几率，如果 event 和 A 是独立的，则对 Y 有条件。”

Estimator

#TensorFlow

已废弃的 TensorFlow API。使用 tf.keras 而非 Estimator。

评估版

衡量机器学习模型预测质量的过程。在开发模型时，您通常不仅要对训练集应用评估指标，还会对验证集和测试集应用评估指标。您还可以使用评估指标来比较不同的模型。

示例

#fundamentals

一行 features 的值，可能还包括标签。监督式学习中的示例可分为两大类：

有标签样本由一个或多个特征和一个标签组成。有标签样本在训练过程中使用。
无标签样本包含一个或多个特征，但没有标签。在推理过程中使用无标签样本。

例如，假设您要训练模型来确定天气条件对学生考试分数的影响。以下是三个有标签样本：

特性			标签
温度	湿度	压力	测试分数
15	47	998	不错
19	34	1020	极佳
18	92	1012	差

以下是三个无标签样本：

温度	湿度	压力
12	62	1014
21	47	1017
19	41	1021

数据集对应的行通常是样本的原始来源。也就是说，样本通常包含数据集中的一部分列。此外，样本中的特征还可以包含合成特征，例如特征组合。

体验重放

#rl

在强化学习中，一种 DQN 技术，用于降低训练数据中的时间相关性。代理会将状态转换存储在重放缓冲区中，然后通过重放缓冲区对转换进行采样，以创建训练数据。

实验者偏差

#fairness

请参阅确认偏差。

梯度爆炸问题

#seq

深度神经网络（尤其是循环神经网络）中的梯度趋势变得异常急剧（较高）。陡峭的梯度往往会导致深度神经网络中每个节点的权重大幅更新。

遇到梯度爆炸问题的模型很难或无法训练。渐变裁剪可以缓解此问题。

与梯度消失问题相对。

F

F₁

一种“总览”二元分类指标，同时依赖于精确率和召回率。公式如下：

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

例如，假设存在以下情况：

精确率 = 0.6
召回率 = 0.4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

当精确率和召回率非常相似（如上例所示）时，F₁ 会接近其平均值。当精确率和召回率存在显著差异时，F₁ 更接近于较低的值。例如：

精确率 = 0.9
召回率 = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

公平性约束

#fairness

对算法应用限制条件，以确保满足一个或多个公平性定义。公平性限制的示例包括：

对模型的输出进行后处理。
修改损失函数，加入对违反公平性指标的惩罚。
直接向优化问题添加数学约束条件。

公平性指标

#fairness

可衡量的“公平性”的数学定义。一些常用的公平性指标包括：

均等几率
预测性对等性
反事实公平
受众特征对等

许多公平性指标都是互斥的；请参阅公平性指标的不兼容。

假负例 (FN)

#fundamentals

在这个示例中，模型错误地预测了“负类别”。例如，模型预测某封电子邮件不是垃圾邮件（负类别），但该邮件实际上是垃圾邮件。

假负例率

模型错误地预测负类别的实际正例所占的比例。以下公式会计算假负例率：

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

假正例 (FP)

#fundamentals

模型错误预测正类别的样本。例如，模型预测某封电子邮件是垃圾邮件（正类别），但该邮件实际上不是垃圾邮件。

假正例率 (FPR)

#fundamentals

模型错误预测正类别的实际负例所占的比例。以下公式会计算假正例率：

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

假正例率是 ROC 曲线的 x 轴。

功能

#fundamentals

机器学习模型的输入变量。样本由一个或多个特征组成。例如，假设您要训练模型来确定天气条件对学生考试分数的影响。下表显示了三个示例，每个示例都包含三个特征和一个标签：

特性			标签
温度	湿度	压力	测试分数
15	47	998	92
19	34	1020	84
18	92	1012	87

与标签相对。

特征组合

#fundamentals

通过“组合”分类或分桶特征而形成的合成特征。

例如，假设有一个“情绪预测”模型，该模型表示以下四个存储分区之一的温度：

freezing
chilly
temperate
warm

并表示以下三个类别之一的风速：

still
light
windy

在没有特征组合的情况下，线性模型会针对上述七个不同的分桶分别进行训练。例如，模型会使用 freezing 进行训练，而不考虑使用 windy 等元素。

或者，您也可以创建一个温度与风速的特征组合。此合成特征将具有以下 12 个可能的值：

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

得益于特征组合，模型可以学习 freezing-windy 天与 freezing-still 天之间的情绪差异。

如果您利用两个特征（每个特征有许多不同的分桶）来创建合成特征，则生成的特征组合将具有大量可能的组合。例如，如果一个特征有 1,000 个存储分区，另一个特征有 2,000 个存储分区，则生成的特征组合有 2,000,000 个存储分区。

正式地说，十字形是一种笛卡尔积。

特征组合主要用于线性模型，很少用于神经网络。

特征工程

#fundamentals

#TensorFlow

包含以下步骤的流程：

确定哪些特征在训练模型时可能有用。
将数据集中的原始数据转换为这些特征的高效版本。

例如，您可以确定 temperature 可能是一项实用功能。然后，您可以尝试分桶，以优化模型可以从不同 temperature 范围中学到的内容。

特征工程有时称为特征提取或特征化。

点击图标即可查看关于 TensorFlow 的其他说明。

在 TensorFlow 中，特征工程通常意味着将原始日志文件条目转换为 tf.Example 协议缓冲区。另请参阅 tf.Transform。

特征提取

一个多含义术语，具有以下任一含义：

检索由非监督式模型或预训练模型（例如，神经网络中的隐藏层值）计算的中间特征表示法，以便在另一个模型中用作输入。
与特征工程的含义相同。

特征重要性

#df

与变量重要性的含义相同。

特征集

#fundamentals

训练机器学习模型所依据的一组特征。例如，对于用于预测房价的模型，邮政编码、房源面积和房产条件可以组成一个简单的特征集。

特征规范

#TensorFlow

描述从 tf.Example 协议缓冲区提取特征数据所需的信息。由于 tf.Example 协议缓冲区只是数据的容器，因此您必须指定以下内容：

要提取的数据（即特征的键）
数据类型（例如 float 或 int）
长度（固定或可变）

特征向量

#fundamentals

构成样本的 feature 值数组。特征向量在训练和推断期间输入。例如，具有两个离散特征的模型的特征向量可能是：

[0.92, 0.56]

四个层：1 个输入层、2 个隐藏层和一个输出层。
输入层包含两个节点，一个包含值 0.92，另一个包含值 0.56。

每个示例为特征向量提供不同的值，因此下一个示例的特征向量可能类似于：

[0.73, 0.49]

特征工程决定了如何表示特征向量中的特征。例如，具有五个可能值的二元分类特征可以使用独热编码表示。在这种情况下，特定样本的特征向量部分将包含四个零，在第三个位置包含一个 1.0，如下所示：

[0.0, 0.0, 1.0, 0.0, 0.0]

再举一个例子，假设您的模型包含三个特征：

具有五种可能值（用独热编码表示）的二元分类特征；例如：[0.0, 1.0, 0.0, 0.0, 0.0]
另一个二元分类特征，具有用独热编码表示的三个可能值；例如：[0.0, 0.0, 1.0]
浮点特征；例如：8.3。

在这种情况下，每个样本的特征向量由“九”值表示。根据上述列表中的示例值，特征向量将为：

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

特征化

从输入源（例如文档或视频）中提取特征，并将这些特征映射到特征向量的过程。

一些机器学习专家将特征化用作特征工程或特征提取的同义词。

联合学习

一种分布式机器学习方法，该方法使用智能手机等设备上的分散式示例来训练机器学习模型。在联邦学习中，一部分设备从中央协调服务器下载当前模型。设备使用存储在设备上的示例来改进模型。然后，设备会将模型改进（而非训练样本）上传到协调服务器，并在协调服务器中将这些更新与其他更新汇总以生成改进的全局模型。聚合完成后，不再需要由设备计算的模型更新，可以将其舍弃。

由于训练示例从不上传，因此联邦学习遵循集中数据收集和数据最少化的隐私原则。

如需详细了解联邦学习，请参阅本教程。

反馈环

#fundamentals

在机器学习中，模型的预测结果会影响同一模型或其他模型的训练数据。例如，电影推荐模型会影响人们观看的电影，进而影响后续的电影推荐模型。

前馈神经网络 (FFN)

没有循环或递归连接的神经网络。例如，传统的深度神经网络属于前馈神经网络。与循环的循环神经网络相对。

少样本学习

一种机器学习方法，通常用于对象分类，旨在仅通过少量训练样本训练有效的分类器。

另请参阅单样本学习和零样本学习。

少样本提示

#language

#生成式 AI

包含多个（“几个”）示例的提示，演示大语言模型应如何响应。例如，下面这个很长的提示包含两个示例，它们展示了一个大语言模型如何回答查询。

一个提示的组成部分	备注
`指定国家/地区的官方货币是什么？`	你希望 LLM 回答的问题。
`法国：EUR`	举个例子。
`英国：GBP`	再举一个例子。
`印度`：	实际查询。

与零样本提示和单样本提示相比，少样本提示通常会产生更理想的结果。不过，少样本提示需要较长的提示。

少样本提示是基于提示的学习中的小样本学习的一种形式。

小提琴

#language

Python 优先的配置库，可在不具有侵入性代码或基础架构的情况下设置函数和类的值。对于 Pax 和其他机器学习代码库，这些函数和类代表模型和训练 超参数。

Fiddle 假设机器学习代码库通常分为：

库代码，用于定义层和优化器。
数据集“粘合”代码，它会调用库并将所有内容连接在一起。

Fiddle 以未评估且可变的形式捕获粘合代码的调用结构。

微调

#language

#image

#生成式 AI

在预训练模型上执行的第二轮特定任务的训练，以针对特定使用场景优化其参数。例如，一些大型语言模型的完整训练序列如下所示：

预训练：使用大量通用数据集（例如所有英语维基百科页面）训练大型语言模型。
微调：训练预训练模型，以执行特定任务，例如响应医疗查询。微调通常涉及成百上千个侧重于特定任务的样本。

再举一个例子，大型图片模型的完整训练序列如下所示：

预训练：基于一个大型通用图片数据集（例如维基媒体共享资源中的所有图片）训练大型图片模型。
微调：训练预训练模型以执行特定任务，例如生成虎鲸的图片。

微调可以采用以下策略的任意组合：

修改预训练模型的所有现有参数。这有时称为“完全微调”。
仅修改预训练模型的部分现有参数（通常是最靠近输出层的层），同时保持其他现有参数不变（通常是最靠近输入层的层）。请参阅参数高效调优。
添加更多层，通常在最接近输出层的现有层之上。

微调是一种迁移学习。因此，微调可能会使用与训练预训练模型不同的损失函数或模型类型。例如，您可以微调预训练的大型图片模型，以生成可返回输入图片中鸟类数量的回归模型。

使用以下术语来比较和对比微调：

蒸馏
基于提示的学习

亚麻

#language

基于 JAX 构建的高性能开源库，用于深度学习。Flax 提供了用于训练神经网络的函数，以及评估其性能的方法。

亚麻

#language

一个基于 Flax 构建的开源 Transformer 库，主要用于自然语言处理和多模态研究。

忘记门

#seq

长/短期记忆单元格中，用于控制通过单元格的信息流的部分。忘记关口通过决定从单元状态中舍弃哪些信息来维护上下文。

完整 softmax

与 softmax 的同义词。

与候选采样相对。

全连接层

隐藏层，其中每个节点都连接到后续隐藏层中的每个节点。

全连接层也称为密集层。

函数转换

这个函数接受一个函数作为输入并返回转换后的函数作为输出。JAX 使用函数转换。

G

GAN

生成对抗网络的缩写。

泛化

#fundamentals

模型能够对以前未见过的新数据做出正确预测。可泛化的模型与过拟合的模型相反。

点击该图标可查看其他备注。

您使用训练集内的样本来训练模型。因此，模型会学习训练集中数据的特性。泛化本质上是询问您的模型能否对不在训练集内的样本做出良好的预测。

为了鼓励泛化，正则化有助于使模型不精确地训练出训练集中数据的特性。

泛化曲线

#fundamentals

训练损失和验证损失随迭代次数的变化图。

泛化曲线可帮助您检测可能出现的过拟合。例如，以下泛化曲线表明存在过拟合，因为验证损失最终明显高于训练损失。

笛卡尔图，其中 y 轴标记为损失，x 轴标记为迭代。系统会显示两个图表。一个曲线图显示训练损失，另一个图显示验证损失。
这两个曲线图的开头类似，但训练损失最终降幅远低于验证损失。

广义线性模型

将基于高斯噪声的最小二乘回归模型泛化为基于其他类型噪声（例如泊松噪声或分类噪声）的其他类型的模型。广义线性模型的示例包括：

逻辑回归
多类别回归
最小二乘回归

您可以通过凸优化找到广义线性模型的参数。

广义线性模型具有以下属性：

最优最小二乘回归模型的平均预测结果等于训练数据的平均标签。
最优逻辑回归模型预测的平均概率等于训练数据的平均标签。

广义线性模型的功能受其特征的限制。与深度模型不同，广义线性模型无法“学习新特征”。

生成对抗网络 (GAN)

一个用于创建新数据的系统，在该系统中，生成器负责创建数据，而判别器则用于确定创建的数据是否有效。

生成式 AI

#language

#image

#生成式 AI

一个新兴的变革性领域，但没有正式定义。也就是说，大多数专家认为，生成式 AI 模型可以创建（“生成”）以下各项：

复杂
连贯
原图

例如，生成式 AI 模型可以创建复杂的论文或图片。

一些早期技术（包括 LSTM 和 RNN）也可以生成连贯的原创内容。一些专家将这些早期技术视为生成式 AI，而另一些专家则认为，真正的生成式 AI 需要的输出比这些早期技术能够产生的更复杂的输出。

与预测性机器学习相对。

生成模型

实际上是指执行以下任一操作的模型：

根据训练数据集创建（生成）新样本。例如，生成模型可以在基于诗歌数据集进行训练后创作诗歌。生成器 生成对抗网络的一部分就属于此类别。
确定新样本来自训练集或通过创建训练集的同一机制创建的概率。例如，用包含英文句子的数据集进行训练后，生成模型可以确定新输入是有效英文句子的概率。

从理论上讲，生成模型可以辨别数据集中样本或特定特征的分布情况。具体来说：

p(examples)

非监督式学习模型是生成式的。

与判别模型相对。

generator

生成对抗网络中的子系统，可创建新样本。

与判别模型相对。

基尼杂质

#df

类似于熵的指标。分割器使用从基尼杂质或熵衍生的值来构成分类决策树的条件。信息增益衍生自熵。对于从基尼杂质衍生的指标，并没有公认的等效术语；但是，这个未命名的指标与信息增益同样重要。

基尼杂质也称为“基尼指数”，或简称为“基尼系数”。

点击该图标即可查看有关基尼杂质的数学详情。

基尼杂质指的是对来自同一分布的新数据进行错误分类的概率。具有两个可能值“0”和“1”的集合（例如二元分类问题中的标签）的基尼杂质根据以下公式计算得出：

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

其中：

I 表示基尼杂质。
p 表示“1”样本的比例。
q 是“0”样本的比例。请注意，q = 1-p

例如，请参考以下数据集：

100 个标签（数据集的 0.25）包含值“1”
300 个标签（数据集的 0.75）包含值“0”

因此，基尼杂质为：

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

因此，来自同一数据集的随机标签有 37.5% 的可能性被错误分类，而正确分类的可能性为 62.5%。

一个完全平衡的标签（例如，200 个“0”和 200 个“1”）的基尼杂质为 0.5。高度不平衡的标签具有接近 0.0 的基尼杂质。

黄金数据集

一组手动挑选的数据，用于捕获标准答案。团队可以使用一个或多个黄金数据集来评估模型的质量。

一些黄金数据集会捕获不同的标准答案子网域。例如，用于图片分类的黄金数据集可以捕获光照条件和图片分辨率。

GPT（生成式预训练 Transformer）

#language

OpenAI 开发的一系列基于 Transformer 的大语言模型。

GPT 变体可应用于多种模式，包括：

生成图片（例如 ImageGPT）
文本到图像生成（例如 DALL-E）。

gradient

偏导数相对于所有自变量的向量。在机器学习中，梯度是模型函数偏导数的向量。梯度指向最快速上升的方向。

梯度累积

一种反向传播技术，每个周期只更新一次参数，而不是每次迭代一次。处理完每个小批次后，梯度累积只会更新梯度的运行总数。然后，在处理完周期中的最后一个小批次后，系统最终会根据所有梯度变化的总和更新参数。

当批量大小与用于训练的可用内存量相比非常大时，梯度累积非常有用。当内存成为问题时，自然倾向于减小批次大小。但是，降低常规反向传播算法中的批量大小会增加参数更新次数。梯度累积可让模型避免内存问题，但仍能高效地训练。

梯度增强（决策）树 (GBT)

#df

一种决策森林，其中：

训练依赖于梯度提升。
弱模型是一种决策树。

梯度增强

#df

一种训练算法，其中训练弱模型以迭代方式提高强大模型的质量（减少损失）。例如，弱模型可以是线性模型，也可以是小型决策树模型。强模型成为之前训练的所有弱模型的总和。

在最简单的梯度提升法中，每次迭代都会训练一个弱模型，以预测强模型的损失梯度。然后，通过减去预测梯度来更新强模型的输出，类似于梯度下降法。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中：

$F_{0}$ 是初始的强大模型。
$F_{i+1}$ 是下一个强大的模型。
$F_{i}$ 是当前强大的模型。
$\xi$ 是一个介于 0.0 和 1.0 之间的值，称为缩减，类似于梯度下降法中的学习速率。
$f_{i}$ 是经过训练的弱模型，用于预测 $F_{i}$ 的损失梯度。

梯度提升的现代变体还在计算中包括损失的二阶导数（海森）。

决策树通常用作梯度提升中的弱模型。请参阅梯度提升（决策）树。

梯度裁剪

#seq

一种常用的机制，在使用梯度下降法训练模型时，人为限制（裁剪）梯度的最大值，缓解梯度爆炸问题。

梯度下降法

#fundamentals

一种可将损失降至最低的数学方法。梯度下降法以迭代方式调整权重和偏差，逐渐找到最佳组合，以将损失降至最低。

梯度下降法比机器学习更古老，远远得多。

图表

#TensorFlow

TensorFlow 中的一种计算规范。图中的节点表示操作。边缘具有方向，表示将某项操作的结果（张量）作为一个操作数传递给另一项操作。可以使用 TensorBoard 直观呈现图。

图执行

#TensorFlow

一种 TensorFlow 编程环境，在该环境中，程序会先构建一个图，然后执行该图的全部或部分内容。图执行是 TensorFlow 1.x 中的默认执行模式。

与即刻执行相对。

贪婪政策

#rl

在强化学习中，是指始终选择预期回报最高的操作的政策。

标准答案

#fundamentals

真相。

实际发生的事情。

例如，假设有一个二元分类模型，该模型预测大学一年级的学生是否会在六年内毕业。此模型的标准答案是，该学生是否实际在 6 年内毕业。

点击该图标可查看其他备注。

我们根据标准答案评估模型质量。不过，标准答案并非总是完全真实的。以下面的标准答案潜在缺陷为例：

在结业示例中，我们是否确定每位学生的结业记录始终正确无误？这所大学的记录是否完美无缺？
假设标签是由仪器（例如气压计）测量的浮点值。如何确保每种仪器以相同的方式校准，或者确保每次读数都是在相同情况下获取的？
如果标签是人类意见，我们如何确定每个人工评分者是否以相同的方式评估事件？为了提高一致性，专家的人工审核者有时会进行干预。

群体归因偏差

#fairness

假设某个人的真实情况适用于该群体中的每个人。如果使用便利抽样收集数据，群体归因偏差的影响会加剧。在非代表性样本中，归因可能不会反映现实。

另请参阅群外同质性偏差和群内偏差。

H

幻觉

#language

声称是对现实世界的断言的生成式 AI 模型生成的看似合理但事实不正确的输出。例如，声称 Barack Obama 于 1865 年去世的生成式 AI 模型产生幻觉。

哈希技术

机器学习中是一种对分类数据进行分桶的机制，尤其是在类别数量很大但实际出现在数据集中的类别数量相对较小的情况下。

例如，地球上约有 73,000 种树木。您可以在 73,000 个单独的分类桶中代表 73,000 种树木中的每一种。或者，如果这些树种中实际只有 200 种出现在数据集中，您可以使用哈希处理将树种划分到约 500 个桶中。

一个桶可能包含多个树种。例如，进行哈希处理可能会将“猴面包树”和“红枫”这两个基因相异的树种放入同一个桶中。无论如何，哈希仍是将大型分类集映射到所选存储分区数量的好方法。哈希处理采用确定的方式对值进行分组，从而将具有大量可能值的分类特征转换为更少数量的值。

启发词语

一种既简单又快速实现的问题解决方案。例如，“通过启发法，我们实现了 86% 的准确率。改用深度神经网络后，准确率提高了 98%。”

隐藏层

#fundamentals

神经网络中的层，介于输入层（特征）和输出层（预测）之间。每个隐藏层都包含一个或多个神经元。例如，以下神经网络包含两个隐藏层，第一个隐藏层包含三个神经元，第二个隐藏层包含两个神经元：

四层。第一层是包含两个特征的输入层。第二层是包含三个神经元的隐藏层。第三层是包含两个神经元的隐藏层。第四层是输出层。每个特征包含三条边，每条边指向第二层中的一个不同的神经元。第二层中的每个神经元包含两个边，每条边都指向第三层中的不同神经元。第三层中的每个神经元都包含一条边，每条边都指向输出层。

深度神经网络包含多个隐藏层。例如，上图是一个深度神经网络，因为该模型包含两个隐藏层。

层次聚类

#clustering

一类聚类算法，用于创建聚类树。分层聚类非常适合分层数据，例如植物分类。层次聚类算法有两种类型：

凝聚式聚类首先将每个样本分配到其自己的聚类，然后以迭代方式合并最近的聚类，以创建层次树。
分离式聚类首先将所有样本分组到一个集群中，然后以迭代方式将该聚类划分为一个层次结构树。

与形心聚类相对。

合页损失

用于分类的损失函数系列，旨在找到距离每个训练样本尽可能远的决策边界，从而最大限度扩大样本与边界之间的外边距。KSVM 使用合页损失函数（或相关函数，例如平方合页损失函数）。对于二元分类，合页损失函数的定义如下：

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

其中 y 是真实标签（-1 或 +1），y' 是分类器模型的原始输出：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

因此，合页损失与 (y * y') 的关系图如下所示：

由两个相连的线段组成的笛卡尔图。第一个线段的起点为 (-3, 4)，终点为 (1, 0)。第二段线段从 (1, 0) 开始，以 0 的斜率无限期地继续。

历史偏差

#fairness

一种偏差，已经存在于现实世界中，但已融入到数据集中。这些偏见往往反映了现有的文化成见、受众特征不平等以及对某些社会群体的偏见。

例如，假设有一个用于预测贷款申请人是否会违约贷款的分类模型，该模型基于 20 世纪 80 年代来自两个不同社区的地方银行的历史贷款违约数据进行了训练。如果来自社区 A 的过往申请者违约贷款的可能性是社区 B 的申请者的 6 倍，模型可能会学习历史偏差，导致模型在社区 A 中批准贷款的可能性降低，即使导致社区提高违约率的历史条件不再适用。

留出数据

训练期间故意不使用（“留出”）的示例。 验证数据集和测试数据集都是留出数据的示例。留出数据有助于评估模型向训练时所依据的数据以外的数据进行泛化的能力。与基于训练集的损失相比，基于维持集的损失可以更好地估算未见过的数据集的损失。

主办方

#TensorFlow

#GoogleCloud

在加速器芯片（GPU 或 TPU）上训练机器学习模型时：

整个代码流程。
输入流水线的提取和转换。

主机通常在 CPU 上运行，而不是在加速器芯片上运行；设备会操控加速器芯片上的张量。

超参数

#fundamentals

您或超参数调优服务在连续训练模型时调整的变量。例如，学习速率就是一种超参数。您可以在一次训练之前将学习速率设置为 0.01。如果您确定 0.01 过高，则可以为下一个训练课程将学习速率设置为 0.003。

相比之下，参数是模型在训练期间学习的各种权重和偏差。

超平面

将空间分隔为两个子空间的边界。例如，在二维空间中，一条线就是一个超平面，而在三维空间中，一个平面就是一个超平面。在机器学习中更常见的是，超平面是分隔高维空间的边界。核支持向量机使用超平面将正类别与负类别区分开来（通常是在极高维度空间中）。

I

i.i.d.

独立同分布的缩写。

图像识别

#image

对图片中的对象、模式或概念进行分类的过程。图像识别也称为“图像分类”。

如需了解详情，请参阅机器学习实践课程：图像分类。

不平衡的数据集

是分类不平衡数据集的同义词。

隐性偏差

#fairness

根据人的思维模型和记忆自动建立联想或假设。隐性偏差会影响以下方面：

数据的收集和分类方式。
如何设计和开发机器学习系统。

例如，构建用于识别婚礼照片的分类器时，工程师可以将照片中显示白色裙子作为特征。不过，白色裙子只在某些时代和某些文化中是一种惯例。

另请参阅确认偏差。

插补

值插补的简写形式。

公平性指标的不兼容

#fairness

某些公平性的概念是互不相容的，无法同时满足。因此，没有一个通用的指标可以用来量化所有机器学习问题。

虽然这可能看起来令人沮丧，但公平性指标不兼容并不意味着公平性工作毫无结果。相反，它建议必须根据上下文为给定的机器学习问题定义公平性，目标是防止特定于其用例的伤害。

如需详细了解此主题，请参阅“On the (im)可能性”。

情境学习

#language

#生成式 AI

与小样本提示的含义相同。

独立同分布 (i.i.d)

#fundamentals

从不会改变的分布中提取的数据，其中绘制的每个值都不依赖于之前绘制的值。i.i.d. 是机器学习的理想气体 - 一种实用的数学结构，但在现实世界中几乎从未发现过。例如，某个网页的访问者的分布在短时间内可能是 i.i.d.；也就是说，该分布在这段时间内不会发生变化，并且一个访问者的访问通常与另一个访问者的访问无关。但是，如果您延长该时间范围，则网页访问者可能会出现季节性变化。

另请参阅非平稳性。

个人公平

#fairness

一个公平性指标，用于检查相似的个体是否以类似的方式分类。例如，Brobdingnagian Academy 可能希望确保成绩和标准化考试成绩完全相同的两名学生入学，从而满足个体公平性要求。

请注意，个体公平完全取决于您定义“相似度”（本例中为成绩和测试分数）的方式，如果您的相似性指标遗漏重要信息（例如学生课程的严谨性），则有可能引入新的公平性问题。

如需详细了解个体公平性，请参阅通过认知实现公平性。

推理

#fundamentals

在机器学习中，通过将经过训练的模型应用于无标签样本来进行预测的过程。

推断在统计学中的含义略有不同。如需了解详情，请参阅维基百科中有关统计学推断的文章。

推理路径

#df

在决策树中，在推断期间，特定示例从根到其他条件的路由会以叶结束。例如，在下面的决策树中，较粗的箭头显示了具有以下特征值的示例的推理路径：

x = 7
y = 12
z = -3

下图中的推理路径在到达叶子 (Zeta) 之前经过三个条件。

包含四个条件和五个叶的决策树。
根条件是 (x > 0)。由于答案是“是”，因此推理路径从根到下一个条件 (y > 0)。
由于答案是“是”，因此推断路径会转到下一个条件 (z > 0)。由于答案为“否”，推理路径会到达其终端节点，即叶片 (Zeta)。

三个粗箭头表示推理路径。

信息增益

#df

在决策林中，节点的熵与其子节点的加权（按样本数）的熵和总和。节点的熵就是该节点中样本的熵。

以下面的熵值为例：

父节点的熵 = 0.6
一个包含 16 个相关样本的子节点的熵 = 0.2
包含 24 个相关样本的另一个子节点的熵 = 0.1

因此，40% 的样本位于一个子节点中，60% 的样本位于另一个子节点中。因此：

子节点的加权熵和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此，信息增益为：

信息增益 = 父节点的熵 - 子节点的加权熵和
信息增益 = 0.6 - 0.14 = 0.46

大多数拆分器都力求创建能够最大限度提高信息增益的条件。

群内偏差

#fairness

对自己所属的群组或特征表现出偏向。如果测试人员或评分者由机器学习开发者的好友、家人或同事组成，那么群内偏差可能会导致产品测试或数据集失效。

群内偏差是一种群体归因偏差。另请参阅群外同质性偏差。

输入生成器

一种将数据加载到神经网络的机制。

输入生成器可以视为一个组件，负责将原始数据处理为张量，并通过迭代来生成用于训练、评估和推断的批次。

输入层

#fundamentals

包含特征向量的神经网络层。也就是说，输入层提供训练或推理示例。例如，以下神经网络中的输入层包含两个特征：

四个层：一个输入层、两个隐藏层和一个输出层。

内嵌条件

#df

在决策树中，一种条件，用于测试一组项中是否存在某一项。例如，以下是一个内嵌条件：

  house-style in [tudor, colonial, cape]

在推理期间，如果房屋样式的地图项的值为 tudor、colonial 或 cape，此条件的评估结果为“是”。如果房屋样式的地图项值为其他值（例如 ranch），则此条件的计算结果为“否”。

与测试独热编码特征的条件相比，内嵌条件通常会生成更高效的决策树。

实例

与示例的含义相同。

指令调优

#生成式 AI

一种微调形式，可提高生成式 AI 模型按照说明操作的能力。指令调优涉及根据一系列指令提示训练模型，通常涉及各种任务。由此产生的指令调优模型往往会在各种任务中对零样本提示生成有用的响应。

比较和对比：

参数高效调优
提示调整

可解释性

#fundamentals

能够以可理解的术语向人类解释或呈现机器学习模型的推理功能。

例如，大多数线性回归模型都具有高度可解释性。（您只需查看每个特征的训练权重即可。）决策森林也具有高度可解释性。但是，某些模型需要复杂的可视化才能变得可解释。

您可以使用学习可解释性工具 (LIT) 来解释机器学习模型。

评分者间一致性信度

用于衡量人工审核者在执行任务时给予同意的频率。如果评分者不认同，则可能需要改进任务说明。有时也称为“注释者间一致性信度”或“评分者间可靠性信度”。另请参阅 Cohen's kappa，这是最常用的评分者间一致性信度衡量指标之一。

交并比 (IoU)

#image

两个集合的交集除以其并集所得的值。在机器学习图片检测任务中，IoU 用于衡量模型的预测边界框相对于标准答案边界框的准确度。在这种情况下，两个框的 IoU 是重叠面积与总面积之间的比率，其值介于 0（预测边界框和标准答案边界框不重叠）到 1（预测边界框和标准答案边界框具有完全相同的坐标）之间。

例如，如下图所示：

预测的边界框（用于划分模型预测画中夜桌所在位置的坐标）用紫色勾勒出去。
标准答案边界框（分隔画面中夜桌实际所在位置的坐标）用绿色勾勒出去。

梵高画作《阿尔勒的文森特卧室》，床旁的夜桌周围有两个不同的边界框。标准答案边界框（绿色）完美地勾勒出了夜表。预测边界框（紫色）向标准答案边界框向下和向右偏移 50%；它封闭了夜间表格的右下四分之一，但缺少表格的其余部分。

在这里，预测框和标准答案的边界框（左下方）的交集为 1，预测的边界框和标准答案的边界框（右下方）的并集为 7，因此 IoU 为 $\frac{1}{7}$。

与上图相同，但每个边界框分为四个象限。共有七个象限，因为标准答案边界框的右下象限和预测边界框的左上角象限彼此重叠。这个重叠部分（以绿色突出显示）表示交集，其面积为 1。

与上图相同，但每个边界框分为四个象限。共有七个象限，因为标准答案边界框的右下象限和预测边界框的左上角象限彼此重叠。由两个边界框包围的整个内部（以绿色突出显示）表示并集，其面积为 7。

IoU

交并比的缩写。

项矩阵

#recsystems

在推荐系统中，嵌入向量由矩阵分解生成的矩阵，保存有关每个项的潜在信号。项矩阵的每一行都包含所有项的单个潜在特征的值。以电影推荐系统为例。项矩阵中的每一列表示一部电影。潜在信号可能代表类型，也可能是更难以解读的信号，这些信号涉及类型、明星、电影年代或其他因素之间的复杂互动。

项矩阵与要进行分解的目标矩阵具有相同的列数。例如，假设某个电影推荐系统要评估 10000 部电影片，项矩阵将有 10000 个列。

items

#recsystems

在推荐系统中，系统推荐的实体。例如，视频是视频商店推荐的商品，而图书是书店推荐的商品。

迭代

#fundamentals

在训练期间对模型参数（模型的权重和偏差）进行的单次更新。批次大小决定了模型在单次迭代中处理的样本数量。例如，如果批次大小为 20，则模型在调整参数之前会处理 20 个样本。

训练神经网络时，单次迭代包括以下两次遍历：

前向传播用于评估单个批次的损失。
反向传播（反向传播），用于根据损失和学习速率调整模型参数。

J

JAX

一个数组计算库，融合了 XLA（加速线性代数）和自动微分，可进行高性能数值计算。JAX 提供了一个简单而强大的 API，用于编写具有可组合转换的加速数值代码。JAX 提供如下功能：

grad（自动微分）
jit（即时编译）
vmap（自动矢量化或批处理）
pmap（并行化）

JAX 是一种用于表达和编写数值代码转换的语言，与 Python 的 NumPy 库类似（但范围要大得多）。（实际上，JAX 下的 .numpy 库在功能上是等效的，但是完全重写的 Python NumPy 库版本。）

JAX 特别适合通过将模型和数据转换为适合跨 GPU 和 TPU 加速器芯片实现并行处理的形式，来加快许多机器学习任务的速度。

Flax、Optax、Pax 和许多其他库都是基于 JAX 基础架构构建的。

K

Keras

一种热门的 Python 机器学习 API。Keras 能够在多种深度学习框架上运行，其中包括 TensorFlow（在该框架上，Keras 作为 tf.keras 提供）。

核支持向量机 (KSVM)

一种分类算法，通过将输入数据向量映射到更高维度空间，来尽可能增大正类别与负类别之间的差距。例如，假设某个输入数据集具有一百个特征的分类问题。为了最大化正类别和负类别之间的外边距，KSVM 可以在内部将这些特征映射到一百万维度的空间。核支持向量机使用合页损失函数。

关键点

#image

图片中特定特征的坐标。例如，对于区分花卉种类的图片识别模型，关键点可以是每个花瓣的中心、枝干、茎干等。

k-fold 交叉验证

用于预测模型对新数据进行泛化能力的算法。k-fold 中的 k 表示您将数据集样本分为的相等组的数量；也就是说，您将训练和测试 k 次模型。对于每轮训练和测试，不同的组是测试集，所有剩余组成为训练集。经过 k 轮训练和测试后，计算所选测试指标的平均值和标准差。

例如，假设您的数据集包含 120 个样本。此外，假设您决定将 k 设置为 4。因此，在重排示例后，您将数据集分为 4 个相等的组，每组 30 个样本，然后进行四轮训练/测试：

一个数据集，分为四个相等的样本组。在第 1 轮中，前三组用于训练，最后一组用于测试。在第 2 轮中，前两组和最后一组用于训练，第三组用于测试。在第 3 轮中，第一组和最后两组用于训练，第二组用于测试。在第 4 轮中，第一个组用于测试，最后三组用于训练。

例如，均方误差 (MSE) 可能是线性回归模型最有意义的指标。因此，您将找到所有四轮 MSE 的平均值和标准差。

k-means

#clustering

一种热门的聚类算法，用于对非监督式学习中的样本进行分组。k-means 算法基本上会执行以下操作：

以迭代方式确定最佳的 k 中心点（称为形心）。
将每个样本分配到最接近的形心。与同一个形心最近的样本属于同一个组。

k-means 算法会挑选形心位置，以最大限度地减小每个样本与其最接近形心之间的距离的累积平方。

例如，请参考以下小狗高度与狗宽度的关系图：

包含数十个数据点的笛卡尔图。

如果 k=3，则 k-means 算法会确定三个形心。每个样本都被分配到与其最接近的形心，从而产生三个组：

与上图相同的笛卡尔图，但添加了三个形心。
前面的数据点被划分为三个不同的组，每个组表示最接近特定形心的数据点。

假设制造商想要确定小号、中号和大号狗狗毛衣的理想尺寸。三个形心用于标识该聚类中每只狗的平均高度和平均宽度。因此，制造商可能应该根据这三个形心来确定毛衣尺寸。请注意，聚类的形心通常不是聚类中的样本。

上图显示了只有两个特征（高度和宽度）的样本的 k-means。请注意，k-means 可以跨多个特征对样本进行分组。

k-median

#clustering

与 k-means 紧密相关的聚类算法。两者的实际区别如下：

对于 k-means，确定形心的方法是，最大限度地减小候选形心与它的每个样本之间的距离平方和。
对于 k-median，确定形心的方法是，最大限度地减小候选形心与它的每个样本之间的距离总和。

请注意，距离的定义也不同：

k-means 采用从形心到样本的欧几里得距离。（在二维空间中，欧几里得距离意味着使用勾股定理计算斜边。）例如，(2,2) 与 (5,-2) 之间的 k-means 距离为：

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median 采用从形心到样本的曼哈顿距离。该距离是每个维度中绝对增量的总和。例如，(2,2) 与 (5,-2) 之间的 k-median 距离为：

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L₀ 正则化

#fundamentals

一种正则化，用于惩罚模型中非零权重的总数。例如，与具有 10 个非零权重的类似模型相比，具有 11 个非零权重的模型所受到的惩罚更高。

L₀ 正则化有时称为 L0 范数正则化。

点击该图标可查看其他备注。

L₀ 正则化在大型模型中通常不切实际，因为 L₀ 正则化会将训练转换为凸优化问题。

L₁ 损失

#fundamentals

一个损失函数，用于计算实际标签值与模型预测值之间的差异的绝对值。例如，以下是包含五个样本的批量的 L₁ 损失计算：

示例的实际价值	模型的预测值	增量的绝对值
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ 损失

与 L₂ 损失相比，L₁ 损失对离群值不太敏感。

平均绝对误差是指每个样本的平均 L₁ 损失。

点击该图标即可查看正式数学公式。

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

其中：

$n$ 是样本数。
$y$ 是标签的实际值。
$\hat{y}$ 是模型针对 $y$ 预测的值。

L₁ 正则化

#fundamentals

一种正则化，根据权重的绝对值的总和按比例惩罚权重。L₁ 正则化有助于将不相关或几乎不相关的特征的权重提高到正好 0。权重为 0 的特征实际上能够从模型中移除。

与 L₂ 正则化相对。

L₂ 损失

#fundamentals

一个损失函数，用于计算实际标签值与模型预测的值之间的差的平方。例如，下面计算了一个包含五个样本的批量的 L₂ 损失：

示例的实际价值	模型的预测值	增量的平方
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ 损失

由于取平方值，L₂ 损失会放大离群值的影响。也就是说，与 L₁ 损失相比，L₂ 损失对糟糕预测的反应更强烈。例如，上一个批次的 L₁ 损失将为 8，而不是 16。请注意，一个离群值占 16 的 9。

卧室数量	浴室数量	房屋存在时间	房价（标签）
3	2	15	345,000 美元
2	1	72	179,000 美元
4	2	34	392,000 美元

回归模型通常使用 L₂ 损失作为损失函数。

均方误差是指每个样本的平均 L₂ 损失。平方损失函数是 L₂ 损失的别称。

点击该图标即可查看正式数学公式。

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$
其中：

$n$ 是样本数。

$y$ 是标签的实际值。

$\hat{y}$ 是模型针对 $y$ 预测的值。

L₂ 正则化

#fundamentals

一种正则化，根据权重的平方和平方和对权重进行惩罚。 L₂ 正则化有助于使离群值权重（正值或负值较高或较低的权重）更接近 0，但不完全接近 0。值非常接近 0 的特征会保留在模型中，但对模型的预测影响不大。

在线性模型中，L₂ 正则化始终可以改进泛化。

与 L₁ 正则化相对。

标签

#fundamentals

在监督式机器学习中，该值指样本的“答案”或“结果”部分。

每个有标签样本由一个或多个特征和一个标签组成。例如，在垃圾邮件检测数据集中，标签可能是“垃圾邮件”或“非垃圾邮件”。在降雨数据集中，标签可能是特定时间段内的降雨量。

有标签样本

#fundamentals

包含一个或多个特征和一个标签的示例。例如，下表显示了房屋估价模型的三个有标签样本，每个样本具有三个特征和一个标签：

卧室数量浴室数量房屋存在时间房价（标签）

3 2 15 345,000 美元

2 1 72 179,000 美元

4 2 34 392,000 美元

在监督式机器学习中，模型使用有标签样本进行训练，并使用无标签样本进行预测。

对比有标签样本和无标签样本。

标签泄露

一种模型设计缺陷，其中的特征代表标签。例如，假设某个二元分类模型可预测潜在客户是否会购买特定商品。假设模型的一个特征是名为 SpokeToCustomerAgent 的布尔值。我们进一步假设，仅在潜在客户实际购买商品后才分配客户代理。在训练期间，模型将快速学习 SpokeToCustomerAgent 与标签之间的关联。

Lambda

#fundamentals

与正则化率的含义相同。

lambda 是一个重载术语。我们在此重点介绍一下该术语在正则化中的定义。

LaMDA（对话应用语言模型）

#language

由 Google 开发的基于 Transformer 的大语言模型，利用可生成真实的对话响应的大型对话数据集进行训练。

LaMDA：我们极具突破性的对话技术简要介绍了我们推出的产品。

landmarks

#image

与关键点的含义相同。

语言模型

#language

一种model模型，用于估算令牌model或令牌序列出现在较长令牌序列中的概率。

点击该图标可查看其他备注。

虽然有悖常理，但许多评估文本的模型都不是语言模型。例如，文本分类模型和情感分析模型不是语言模型。

大语言模型

#language

不具有严格定义的非正式术语，通常表示具有大量参数的语言模型。某些大语言模型包含超过 1000 亿个参数。

点击该图标可查看其他备注。

您可能想知道，语言模型何时会变得足够大，可以称为大语言模型。目前，没有商定的参数数量定义行。

目前的大多数大语言模型（例如 GPT）都基于 Transformer 架构。

隐空间

#language

嵌入空间的同义词。

图层

#fundamentals

神经网络中的一组神经元。下面介绍了三种常见的层类型：

输入层，为所有地图项提供值。

一个或多个隐藏层，用于发现特征与标签之间的非线性关系。

输出层，用于提供预测结果。

例如，下图显示了一个神经网络，其中包含一个输入层、两个隐藏层和一个输出层：

在 TensorFlow 中，层也是 Python 函数，接受张量和配置选项作为输入，并生成其他张量作为输出。

Layers API (tf.layers)

#TensorFlow

一种 TensorFlow API，用于以层组合的方式构建深度神经网络。通过 Layers API，您可以构建不同类型的图层，例如：

tf.layers.Dense，适用于全连接层。

tf.layers.Conv2D 表示卷积层。

Layers API 遵循 Keras Layers API 规范。也就是说，除了前缀不同之外，Layers API 中的所有函数都与 Keraslayers API 中的对应函数具有相同的名称和签名。

叶子

#df

决策树中的任何端点。与条件不同，叶项并不执行测试。实际上，叶子是一种可能的预测。叶也是推断路径的终端节点。

例如，下面的决策树包含三叶：

Learning Interpretability Tool (LIT)

一种直观的交互式模型理解和数据可视化工具。

您可以使用开源 LIT 解释模型或直观呈现文本、图片和表格数据。

学习速率

#fundamentals

一个浮点数，用于告知梯度下降法在每次迭代时调整权重和偏差的强度程度。例如，0.3 的学习速率调整权重和偏差的能力是 0.1 的学习速率的三倍。

学习速率是一个重要的超参数。如果设置的学习速率过低，训练将会花费太长时间。如果将学习速率设置得过高，梯度下降法通常难以达到收敛。

点击图标可获得更数学的说明。

在每次迭代期间，梯度下降法都会将学习速率乘以梯度。得出的乘积称为梯度步长。

最小二乘回归

一种通过最大限度降低 L₂ 损失来训练的线性回归模型。

线性

#fundamentals

两个或多个变量之间的关系，可以仅通过加法和乘法表示。

线性关系的曲线图是一条线。

与非线性相对。

线性模型

#fundamentals

一种模型，为每个特征分配权重以执行model。modelmodelmodel （线性模型还会包含偏差。）相比之下，在深度模型中，特征与预测的关系通常是非线性的。

与深度模型相比，线性模型通常更易于训练，并且可解释性。但是，深度模型可以学习特征之间的复杂关系。

线性回归和逻辑回归是两种类型的线性模型。

点击该图标即可查看算式。

线性模型使用以下公式：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

其中：

y”表示原始预测。（在某些类型的线性模型中，此原始预测将进一步修改。例如，请参阅逻辑回归。）
b 是偏差。
w 是权重，因此 w₁ 是第一个特征的权重，w₂ 是第二个特征的权重，以此类推。
x 是一个特征，因此 x₁ 是第一个特征的值，x₂ 是第二个特征的值，以此类推。

例如，假设一个具有三个特征的线性模型学习了以下偏差和权重：

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

因此，给定了三个特征（x₁、x₂ 和 x₃），线性模型会使用以下方程生成每个预测结果：

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

假设某个特定示例包含以下值：

x₁ = 4
x₂ = -10
x₃ = 5

将这些值插入公式即可生成此示例的预测结果：

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

线性模型不仅包括仅使用线性方程进行预测的模型，还包括更多使用线性方程作为预测公式的一个组成部分的模型。例如，逻辑回归会对原始预测 (y') 进行后处理，以生成介于 0 和 1 之间的最终预测值。

线性回归

#fundamentals

一种机器学习模型，同时满足以下两个条件：

该模型为线性模型。
预测结果为浮点值。（这是线性回归的回归部分。）

对比线性回归与逻辑回归。此外，对比回归与分类。

LIT

学习可解释性工具 (LIT)（以前称为“语言可解释性工具”）的缩写。

LLM

#language

大语言模型的缩写。

逻辑回归

#fundamentals

一种预测概率的回归模型。逻辑回归模型具有以下特征：

该标签为分类标签。“逻辑回归”一词通常是指二元逻辑回归，即用于计算具有两个可能值的标签概率的模型。多项逻辑回归是一种不太常见的变体，用于计算具有两个以上可能值的标签的概率。
训练期间的损失函数为对数损失函数。（对于具有两个以上可能值的标签，可以并行放置多个对数损失单元。）
该模型具有线性架构，而非深度神经网络。但是，此定义的其余部分也适用于预测分类标签的概率的深度模型。

例如，假设有一个逻辑回归模型，该模型会计算输入电子邮件是垃圾邮件或非垃圾邮件的概率。在推理期间，假设模型预测为 0.72。因此，模型会进行以下估算：

电子邮件是垃圾邮件的概率为 72%。
电子邮件不是垃圾邮件的概率为 28%。

逻辑回归模型使用以下两步架构：

模型通过应用输入特征的线性函数来生成原始预测 (y')。
模型将该原始预测结果作为 S 型函数的输入，该函数会将原始预测结果转换为 0 到 1 之间的值（不含 0 和 1）。

与任何回归模型一样，逻辑回归模型可以预测数字。但是，此数字通常会成为二元分类模型的一部分，如下所示：

如果预测数字大于分类阈值，则二元分类模型会预测正类别。
如果预测数量小于分类阈值，则二元分类模型会预测负类别。

logits

分类模型生成的原始（非标准化）预测向量，通常会传递给归一化函数。如果模型要解决多类别分类问题，则 logits 通常会成为 softmax 函数的输入。然后，softmax 函数会生成一个（归一化）概率向量，其中每个可能的类别都对应一个值。

对数损失

#fundamentals

在二元逻辑回归中使用的损失函数。

点击该图标即可查看算式。

以下公式计算对数损失函数：

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

其中：

$(x,y)\in D$ 是包含多个有标签样本（即 $(x,y)$ 对）的数据集。
$y$ 是有标签样本中的标签。由于这是逻辑回归，因此 $y$ 的每个值必须是 0 或 1。
$y'$ 是给定 $x$中的特征集的预测值（介于 0 和 1 之间，不含 0 和 1 之间）。

对数几率

#fundamentals

某个事件几率的对数。

点击该图标即可查看算式。

如果事件是二元概率，则几率是指成功概率 (p) 与失败概率 (1-p) 的比率。例如，假设某个给定事件的成功概率为 90%，失败概率为 10%。在这种情况下，几率的计算公式如下：

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

对数几率就是几率的对数。按照惯例，“对数”是指自然对数，但对数实际上可以是任何大于 1 的底数。遵循惯例，我们示例的对数几率为：

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

对数几率函数是 S 型函数的反函数。

长/短期记忆 (LSTM)

#seq

递归神经网络中的一种单元，用于在手写识别、机器翻译和图片标注等应用中处理数据序列。LSTM 解决了因数据序列较长而训练 RNN 时发生的梯度消失问题问题，它根据 RNN 中先前单元格的新输入和上下文将历史记录保留在内部内存状态中。

LoRA

#language

#生成式 AI

低排名自适应的缩写。

负

#fundamentals

在训练监督式模型期间，衡量模型的预测与其标签的差距。

损失函数计算损失。

损失聚合器

一种机器学习算法，可通过组合多个模型的预测结果并使用这些预测结果进行单次预测来提高模型的性能。因此，损失聚合器可以减少预测的方差并提高预测的准确率。

损失曲线

#fundamentals

损失随训练迭代次数的函数而绘制的图表。下图显示了典型的损失曲线：

损失曲线可以帮助您确定模型何时收敛或过拟合。

损失曲线可以绘制以下所有类型的损失：

训练损失

验证损失

测试损失

另请参阅泛化曲线。

损失函数

#fundamentals

在训练或测试期间，用于计算一批量样本的损失的数学函数。对于预测效果较好的模型，与预测质量不佳的模型相比，损失函数返回的损失要低。

训练的目标通常是尽可能降低损失函数返回的损失。

损失函数种类繁多。请为您正在构建的模型类型选择合适的损失函数。例如：

L₂ 损失（或均方误差）是线性回归的损失函数。

对数损失函数是逻辑回归的损失函数。

损失曲面

权重与损失的图表。梯度下降法旨在找到损失曲面在局部最低点的权重。

低秩自适应 (LoRA)

#language

#生成式 AI

一种算法，用于执行参数高效调优，且仅对大语言模型的一部分参数进行微调。LoRA 具有以下优势：

相较于需要微调模型所有参数的技术，这种技术的微调速度更快。

降低经过微调的模型推断的计算开销。

使用 LoRA 调优的模型可以保持或提高其预测质量。

LoRA 支持一个模型的多个专用版本。

LSTM

#seq

Long Short-Term Memory 的缩写。

M

机器学习

#fundamentals

根据输入数据训练模型的程序或系统。经过训练的模型可以根据从用于训练模型的同一分布中抽取的新（从未见过）数据做出有用的预测。

机器学习是指与这些程序或系统相关的研究领域。

多数类

#fundamentals

分类不平衡的数据集中更为常见的标签。例如，假设一个数据集包含 99% 的负类别标签和 1% 的正向标签，则负类别标签是多数类别。

与少数类相对。

马尔可夫决策过程 (MDP)

#rl

表示决策模型的图表，在该模型中，决策（即操作）在假设马尔可夫属性持有的情况下浏览一系列状态。在强化学习中，状态之间的这些转换将返回一个数字形式的奖励。

	卡萨布兰卡	《费城故事》	Black Panther	神奇女侠	《低俗小说》
用户 1	5.0	3.0	0.0	2.0	0.0
用户 2	4.0	0.0	0.0	1.0	5.0
用户 3	3.0	1.0	4.0	5.0	0.0

马尔可夫属性

#rl

某些环境的属性，其中状态转换完全由当前状态和代理的操作中隐含的信息决定。

遮盖语言模型

#language

一种语言模型，用于预测候选词元填充序列中空白的概率。例如，遮盖语言模型可以计算以下句子中候选字词替换下划线的概率：

帽子里的____回来了。

文献通常使用字符串“MASK”，而不是下划线。例如：

帽子里的“面具”回来了。

大多数现代遮盖语言模型都是双向的。

matplotlib

一个开源 Python 2D 绘制库。matplotlib 可以帮助您可视化机器学习的不同方面。

矩阵分解

#recsystems

在数学中，一种用于查找其点积近似目标矩阵的矩阵的机制。

在推荐系统中，目标矩阵通常保存用户对推荐项的评分。例如，影片推荐系统的目标矩阵可能如下所示，其中正整数表示用户评分，0 表示用户未对影片进行评分：

卡萨布兰卡《费城故事》 Black Panther 神奇女侠《低俗小说》

用户 1 5.0 3.0 0.0 2.0 0.0

用户 2 4.0 0.0 0.0 1.0 5.0

用户 3 3.0 1.0 4.0 5.0 0.0

电影推荐系统旨在预测未分级电影的用户评分。例如，用户 1 会喜欢《黑豹》吗？

推荐系统的一种方法是使用矩阵分解生成以下两个矩阵：

用户矩阵，形状为用户数量 X 嵌入维度数量。

项矩阵，形状为嵌入维度数量 X 项数量。

例如，对我们的三位用户和五个推荐项使用矩阵分解，可以生成以下用户矩阵和项矩阵：

User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5

用户矩阵和项矩阵的点积会生成一个推荐矩阵，该矩阵不仅包含原始用户评分，还包含对每位用户未观看的电影的预测。例如，假设用户 1 对《卡萨布兰卡》的评分为 5.0，。推荐矩阵中与该单元格对应的点积应该在 5.0 左右，该值为：

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

更重要的是，用户 1 会喜欢《黑豹》吗？计算第一行和第三列对应的点积，得到的预测评分为 4.3：

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

矩阵分解通常会生成用户矩阵和项矩阵，这两个矩阵合在一起要比目标矩阵更紧凑。

平均绝对误差 (MAE)

使用 L₁ 损失时每个样本的平均损失。平均绝对误差的计算公式如下：

计算批次的 L₁ 损失。

将 L₁ 损失除以批次中的样本数。

点击该图标即可查看正式数学公式。

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

其中：

$n$ 是样本数。

$y$ 是标签的实际值。

$\hat{y}$ 是模型针对 $y$ 预测的值。

例如，请考虑计算以下这 5 个样本的 L₁ 损失：

示例的实际价值模型的预测值损失（实际数据和预测数据之间的差异）

7 6 1

5 4 1

8 11 3

4 6 2

9 8 1

8 = L₁ 损失

因此，L₁ 损失为 8，样本数量为 5。因此，平均绝对误差为：

Mean Absolute Error = L₁ loss / Number of Examples Mean Absolute Error = 8/5 = 1.6

用均方误差和均方根误差计算的对比平均绝对误差。

均方误差 (MSE)

使用 L₂ 损失时每个样本的平均损失。均方误差的计算方法如下：

实际值	模型的预测	损失	平方损失
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
	16 = L₂ 损失

计算批次的 L₂ 损失。

将 L₂ 损失除以批次中的样本数。

点击该图标即可查看正式数学公式。

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ 其中：

$n$ 是样本数。

$y$ 是标签的实际值。

$\hat{y}$ 是模型对 $y$ 的预测。

例如，请考虑下面这个包含 5 个样本的批次的损失：

实际值模型的预测损失平方损失

7 6 1 1

5 4 1 1

8 11 3 9

4 6 2 4

9 8 1 1

16 = L₂ 损失

因此，均方误差为：

Mean Squared Error = L₂ loss / Number of Examples Mean Squared Error = 16/5 = 3.2

均方误差是一种热门的训练优化器，特别是用于线性回归。

对比均方误差与平均绝对误差和均方根误差。

TensorFlow Playground 使用均方误差来计算损失值。

点击该图标可详细了解离群值。

离群值对均方误差有很大影响。例如，损失 1 就是平方损失 1，但是损失为 3 就是平方损失 9。在上表中，损失 3 的样本占均方误差约 56%，而损失 1 的每个样本仅占均方误差的 6%。

离群值对平均绝对误差的影响不像均方误差一样大。例如，3 项损失仅占平均绝对误差约 38%。

裁剪是防止极端离群值破坏模型的预测能力的一种方式。

网格

#TensorFlow

#GoogleCloud

在机器学习并行编程中，与将数据和模型分配给 TPU 芯片以及定义这些值的分片或复制方式相关的术语。

网格是一个重载术语，可以理解为下列含义之一：

TPU 芯片的物理布局。

用于将数据和模型映射到 TPU 芯片的抽象逻辑结构。

这两种情况都可以将网格指定为形状。

元学习

#language

机器学习的一部分，用于发现或改进学习算法。元学习系统还可以旨在训练模型，以便从少量数据或从先前任务中获得的经验快速学习新任务。元学习算法通常尝试实现以下目标：

改进或了解人工设计的功能（例如初始化程序或优化器）。

提高数据效率和计算效率。

改进泛化。

元学习与少样本学习有关。

指标

#TensorFlow

您关注的统计信息。

目标是机器学习系统尝试优化的指标。

Metrics API (tf.metrics)

一种用于评估模型的 TensorFlow API。例如，tf.metrics.accuracy 用于确定模型的预测与标签匹配的频率。

小批次

#fundamentals

在一次迭代中处理的批量中随机选择的小型子集。小批次的批次大小通常介于 10 到 1,000 个样本之间。

例如，假设整个训练集（整个批次）包含 1000 个样本。进一步假设您将每个小批量的批量大小设置为 20。因此，每次迭代都会从 1,000 个样本中随机抽取 20 个样本确定损失，然后相应地调整权重和偏差。

计算小批量的损失比计算全批量中所有样本的损失要高效得多。

小批量随机梯度下降法

一种使用小批量的梯度下降法。换言之，小批量随机梯度下降法根据一小部分训练数据估算梯度。常规随机梯度下降法使用大小为 1 的小批次。

最大损失函数

生成对抗网络的损失函数，基于生成的数据分布与真实数据之间的交叉熵。

第一篇论文中用到了最小损失函数来描述生成对抗网络。

少数类

#fundamentals

分类不平衡的数据集中不太常见的标签。例如，假设一个数据集包含 99% 的负例标签和 1% 的正例标签，则正例标签为少数类别。

与多数类相对。

点击该图标可查看其他备注。

包含一百万个样本的训练集听起来很棒。但是，如果少数类未得到很好的表示，即使是非常大的训练集也可能不足。减少对数据集中的样本总数的关注，而将更多关注点放在少数类中的样本数量上。

如果您的数据集没有包含足够的少数类样本，请考虑使用降采样（第二项中的定义）对少数类进行补充。

机器学习

机器学习的缩写。

MNIST

#image

由 LeCun、Cortes 和 Burges 编译的公共领域数据集，包含 60000 张图片，每张图片都会显示人类如何手动写出从 0 到 9 的特定数字。每张图像都存储为 28x28 的整数数组，其中每个整数都是 0 到 255（含）之间的灰度值。

MNIST 是机器学习的规范数据集，通常用于测试新的机器学习方法。如需了解详情，请参阅 MNIST 手写数字数据库。

modality

#language

一种概要数据类别。例如，数字、文本、图片、视频和音频是五种不同的模态。

model

#fundamentals

一般而言，任何处理输入数据并返回输出的数学结构。换句话说，模型是系统进行预测所需的一组参数和结构。在监督式机器学习中，模型将样本作为输入，并推断预测作为输出。在监督式机器学习中，模型略有不同。例如：

线性回归模型由一组权重和偏差组成。

神经网络模型由以下部分组成：

一组隐藏层，每个隐藏层包含一个或多个神经元。

与每个神经元相关的权重和偏差。

决策树模型包含以下内容：

树的形状；即条件与叶子连接的模式。

条件和叶子。

您可以保存、恢复或复制模型。

非监督式机器学习也会生成模型，通常一个函数可以将输入样本映射到最合适的集群。

点击该图标可将代数和编程函数与机器学习模型进行比较。

如下代数函数就是一个模型：

f(x, y) = 3x -5xy + y² + 17

上述函数会将输入值（x 和 y）映射到输出。

同样，如下所示的编程函数也是一种模型：

def half_of_greater(x, y): if (x > y): return(x / 2) else return(y / 2)

调用方将参数传递给前面的 Python 函数，然后 Python 函数（通过 return 语句）生成输出。

虽然深度神经网络的数学结构与代数或编程函数截然不同，但深度神经网络仍会接受输入（示例）并返回输出（预测）。

人类程序员手动编写编程函数。相比之下，机器学习模型会在自动训练期间逐渐学习最佳参数。

模型能力

模型可以学习的问题的复杂性。模型可以学习的问题越复杂，模型的能力就越高。模型的容量通常会随着模型参数的数量而增加。有关分类器容量的正式定义，请参阅 VC 维度。

模型级联

#生成式 AI

一种系统，为特定推断查询选择理想的模型model。

假设有一组模型，这些模型从非常大（大量参数）到小得多（参数要少得多）不等。与小型模型相比，超大型模型在推理时消耗的计算资源更多。但是，与较小的模型相比，非常大的模型通常可以推断出更复杂的请求。模型级联决定了推理查询的复杂性，然后选择适当的模型来执行推理。模型级联的主要目的是降低推断成本，因为通常选择较小的模型，而仅为更复杂的查询选择较大的模型。

假设一个小型模型在手机上运行，而该模型的较大版本在远程服务器上运行。良好的模型级联通过使较小的模型能够处理简单的请求，并且仅调用远程模型来处理复杂的请求，可以降低费用和延迟时间。

另请参阅模型路由器。

模型并行处理

#language

一种扩缩训练或推理的方式，将一个模型model的不同部分放置在不同的设备上。model模型并行处理支持因太大而无法适应单个设备的模型。

为了实现模型并行处理，系统通常会执行以下操作：

将模型分片（拆分）为更小的部分。

将这些较小部分的训练分布在多个处理器中。每个处理器都会训练自己的模型部分。

合并结果以创建单个模型。

模型并行处理会减慢训练速度。

另请参阅数据并行。

模型路由器

#生成式 AI

一种算法，用于确定在model中进行推断model的理想model。模型路由器本身通常就是一种机器学习模型，它会逐步学习如何为给定的输入选择最佳模型。但是，模型路由器有时可能是一种更简单的非机器学习算法。

模型训练

确定最佳model的过程。

造势

一种复杂的梯度下降法，在这种算法中，学习步不仅取决于当前步的导数，还取决于紧接在前一步的步的导数。动量涉及计算梯度随时间变化的指数加权移动平均值，类似于物理学中的动量。动量有时可以防止学习过程卡在局部最小值。

多类别分类

#fundamentals

在监督式学习中，一种分类问题，是指数据集中包含两个以上类别的标签。例如，Iris 数据集中的标签必须是以下三个类别之一：

北	此类 N 元语法的名称	示例
2	二元语法	去, 去, 吃午餐, 吃晚饭
3	三元语法	ate 过多, 三位盲人老鼠, bell tolls
4	四元语法	漫步在公园, 尘埃风中, 小男孩 ate lentils

country	矢量
“丹麦”	1	0	0	0	0
“瑞典”	0	1	0	0	0
“挪威”	0	0	1	0	0
“芬兰”	0	0	0	1	0
“冰岛”	0	0	0	0	1

提示类别	示例	备注
问题	`鸽子可以飞多快？`
指令	`写一首关于套利的趣味诗词。`	一条提示，要求大语言模型执行某项操作。
示例	`将 Markdown 代码翻译为 HTML。例如： Markdown: * 列表项 HTML: <ul> <li>列表项</li> </ul>`	此示例提示中的第一句话是指令。提示的其余部分是示例。
角色	`解释为什么物理学博士会在机器学习训练中使用梯度下降法。`	句子的第一部分是指示；短语“要获得物理学博士学位”则是角色部分。
需要模型完成的部分输入	`英国首相居住在`	部分输入提示可以突然结束（如此示例所示）或以下划线结尾。

山鸢尾

维吉尼亚鸢尾

变色鸢尾

利用 Iris 数据集训练的模型，基于新样本预测鸢尾花类型，它执行的是多类别分类。

相比之下，正好区分两个类别的分类问题是二元分类模型。例如，预测“垃圾邮件”或“非垃圾邮件”的电子邮件模型是一种二元分类模型。

在聚类问题中，多类别分类是指两个以上的聚类。

多类别逻辑回归

在多类别分类问题中使用逻辑回归。

多头自注意力

#language

自注意力机制的扩展，针对输入序列中的每个位置多次应用自注意力机制。

Transformer 引入了多头自注意力机制。

多模态模型

#language

一种模型的输入和/或输出包含多个模态。例如，假设某个模型将图片和文本说明（两种模态）作为特征，并输出一个得分，表示文本说明对图片的合适程度。因此，该模型的输入是多模态的，而输出是单模态的。

多项分类

与多类别分类的含义相同。

多项回归

是多类别逻辑回归的同义词。

多任务

一种机器学习技术，其中单个model经过训练可以执行多项model。

多任务模型是通过用适合每项不同任务的数据进行训练创建的。这样，模型就可以学会跨任务共享信息，这有助于模型更有效地学习。

针对多个任务训练的模型通常具有改进的泛化能力，并且在处理不同类型的数据时更可靠。

北

NaN 陷阱

模型中的一个数字在训练期间变成 NaN，这会导致模型中的很多或所有其他数字最终变成 NaN。

NaN 是“无”的缩写。

自然语言理解

#language

根据用户输入或说出的内容确定用户的意图。例如，搜索引擎会使用自然语言理解根据用户输入或说出的内容来确定用户正在搜索的内容。

负类别

#fundamentals

在二元分类中，一种类别称为“正类别”，另一种类别称为“负类别”。正类别是模型要测试的对象或事件，负类别是另一种可能性。例如：

在医学检查中，负类别可以是“非肿瘤”。

电子邮件分类器中的负类别可以是“非垃圾邮件”。

与正类别相对。

负采样

与候选采样的同义词。

神经架构搜索 (NAS)

一种用于自动设计神经网络架构的技术。NAS 算法可以减少训练神经网络所需的时间和资源。

NAS 通常使用：

搜索空间，是一组可能的架构。

健身函数，用于衡量特定架构在执行给定任务时的表现。

NAS 算法通常从一小部分可能的架构开始，然后随着算法详细了解哪些架构是有效的，逐渐扩展搜索空间。健身函数通常基于架构在训练集上的表现，且该算法通常使用强化学习技术进行训练。

事实证明，NAS 算法在为各种任务（包括图像分类、文本分类和机器翻译）寻找高性能架构方面卓有成效。

输出表示

#fundamentals

包含至少一个隐藏层的模型。modelmodel深度神经网络是一种包含多个隐藏层的神经网络。例如，下图显示了一个包含两个隐藏层的深度神经网络。

神经网络中的每个神经元都连接到下一层中的所有节点。例如，在上图中，请注意，第一个隐藏层中的三个神经元分别连接到第二个隐藏层中的两个神经元。

计算机上实现的神经网络有时称为人工神经网络，以便将其与大脑和其他神经系统中的神经网络区分开来。

一些神经网络可以模拟不同特征和标签之间极其复杂的非线性关系。

另请参阅卷积神经网络和循环神经网络。

神经元

#fundamentals

在机器学习中，神经网络中隐藏层中的一个不同单元。每个神经元执行以下两步操作：

计算输入值的加权总和与对应权重的乘积。

将加权和作为输入传递给激活函数。

第一个隐藏层中的神经元接受来自输入层中特征值的输入。除第一个隐藏层之外，任何隐藏层中的神经元接受来自前一个隐藏层中神经元的输入。例如，第二个隐藏层中的神经元接受来自第一个隐藏层中的神经元的输入。

下图突出显示了两个神经元及其输入。

神经网络中的神经元模拟大脑和神经系统其他部分神经元的行为。

N 元语法

#seq

#language

N 个单词的有序序列。例如，“truly madly”属于二元语法。由于顺序具有相关性，因此“madly 真正的”是与“truly madly”不同的二元语法。

北此类 N 元语法的名称示例

2 二元语法 去, 去, 吃午餐, 吃晚饭

3 三元语法 ate 过多, 三位盲人老鼠, bell tolls

4 四元语法 漫步在公园, 尘埃风中, 小男孩 ate lentils

许多自然语言理解 模型依赖 N 元语法来预测用户将输入或说出的下一个字词。例如，假设用户输入了“three blind”。基于三元语法的 NLU 模型可能会预测用户接下来将输入“mice”。

将 N 元语法与字词袋进行对比，后者是无序的字词集。

NLU

#language

自然语言理解的缩写。

节点（决策树）

#df

在决策树中，任何条件或叶。

节点（神经网络）

#fundamentals

隐藏层中的神经元。

节点（TensorFlow 图）

#TensorFlow

TensorFlow 图中的操作。

噪音

从广义上讲，任何遮挡数据集内信号的内容。可以通过各种方式将噪声引入数据。例如：

人工审核者在添加标签时出错。

人类和仪器错误地记录或省略特征值。

非二元条件

#df

包含两种以上结果的条件。例如，以下非二元条件包含三种可能的结果：

非线性

#fundamentals

两个或多个变量之间的关系，无法仅通过加法和乘法表示。线性关系可以表示为线条；非线性关系不能表示为线条。例如，假设存在两个模型，每个模型将单个特征与单个标签相关联。左侧是线性模型，右侧是非线性模型：

未回答偏差

#fairness

请参阅选择偏差。

非平稳性

#fundamentals

值在一个或多个维度（通常为时间）上发生变化的特征。以下面的非平稳性示例为例：

特定商店销售的泳衣数量因季节而异。

在特定地区，在一年中的大部分时间里，某种水果的收获量为零，但在短期内会大很多。

由于气候变化，每年的平均气温会发生变化。

与平稳性形成对比。

标准化

#fundamentals

从广义上讲，将变量的实际值范围转换为标准值范围的过程，例如：

-1 到 +1

0 至 1

正态分布

例如，假设某个特征的实际值范围是 800 到 2,400。作为特征工程的一部分，您可以将实际值归一化为标准范围，例如 -1 到 +1。

归一化是特征工程中的一项常见任务。如果特征向量中的每个数值特征的范围大致相同，则模型的训练速度通常较快（并可以生成更准确的预测）。

新奇事物检测

确定新（新）样本是否来自与训练集相同的分布的过程。换言之，在用训练集进行训练后，新奇检测会确定新样本（推理期间还是额外训练期间）是否属于离群值。

与离群值检测相对。

数值数据

#fundamentals

以整数或实数表示的特征。例如，房屋估价模型可能用数值数据表示房屋大小（以平方英尺或平方米为单位）。如果用数值数据表示特征，则表示特征的值与标签具有数学关系。也就是说，房屋的平方米数可能与房屋价值存在某种数学关系。

并非所有整数数据都应表示为数值数据。例如，世界上某些地区的邮政编码是整数；但是，整数邮政编码在模型中不应表示为数值数据。这是因为邮政编码 20000 的有效性不是邮政编码 10000 的两倍（或一半）。此外，虽然不同的邮政编码确实与不同的房地产价值相关，但我们也不能假设邮政编码 20000 对应的房地产价值是邮政编码 10000 的房地产价值的两倍。邮政编码应表示为分类数据。

数值特征有时称为连续特征。

NumPy

一个开源数学库，在 Python 中提供高效的数组操作。Pandas 基于 NumPy 构建。

O

目标

算法尝试优化的指标。

目标函数

模型要优化的数学公式或指标。例如，线性回归的目标函数通常为均方损失函数。因此，在训练线性回归模型时，训练旨在最大限度地降低均方损失。

在某些情况下，目标是尽可能增大目标函数。例如，如果目标函数为准确率，则目标是最大限度地提高准确率。

另请参阅损失。

倾斜条件

#df

在决策树中，是指涉及多个特征的条件。例如，如果高度和宽度都是特征，则以下为倾斜条件：

height > width

与轴对齐条件相对。

离线

#fundamentals

与静态的含义相同。

离线推理

#fundamentals

模型生成一批预测，然后缓存（保存）这些预测的过程。然后，应用可以访问从缓存推断出的预测，而无需重新运行模型。

例如，假设某个模型每四小时生成一次当地天气预报（预测结果）。每个模型运行后，系统会缓存所有本地天气预报。天气应用会从缓存中检索天气预报。

离线推理也称为静态推理。

与在线推理相对。

独热编码

#fundamentals

将分类数据表示为向量，其中：

一个元素设为 1。

所有其他元素均设置为 0。

独热编码通常用于表示具有有限个可能值的字符串或标识符。例如，假设一个名为 Scandinavia 的特定分类特征具有五个可能的值：

“丹麦”

“瑞典”

“挪威”

“芬兰”

“冰岛”

独热编码可以表示五个值中的每个值，如下所示：

country 矢量

“丹麦” 1 0 0 0 0

“瑞典” 0 1 0 0 0

“挪威” 0 0 1 0 0

“芬兰” 0 0 0 1 0

“冰岛” 0 0 0 0 1

得益于独热编码，模型可以根据这五个国家/地区中的每一个学习不同的连接。

将特征表示为数值数据是独热编码的替代方案。遗憾的是，用数字表示斯堪的纳维亚国家/地区并不是一个不错的选择。例如，请考虑以下数字表示法：

“丹麦”为 0

“Sweden”是 1

“挪威”为 2

“芬兰”是 3

“冰岛”是 4

使用数字编码时，模型将以数学方式解释原始数字，并尝试根据这些数字进行训练。然而，冰岛的面积实际上并没有挪威的两倍（或一半），因此该模型会得出一些奇怪的结论。

单样本学习

一种机器学习方法，通常用于对象分类，旨在通过单个训练样本学习有效的分类器。

另请参阅少样本学习和零样本学习。

单样本提示

#language

#生成式 AI

一条提示，其中包含一个示例，演示大语言模型应如何响应。例如，以下提示包含一个示例，其中显示了一个大型语言模型应如何回答查询。

一个提示的组成部分备注

指定国家/地区的官方货币是什么？ 你希望 LLM 回答的问题。

法国：EUR 举个例子。

印度：实际查询。

不妨使用以下术语来比较和对比“单样本提示”：

零样本提示

小样本提示

一对多

#fundamentals

假设有一个有 N 个类别的分类问题，一个解决方案将由 N 个单独的二元分类器 - 一个二元分类器对应一种可能的结果。例如，假设有一个将样本分类为动物、蔬菜或矿物的模型，一对多解决方案会提供以下三个单独的二元分类器：

动物还是非动物

蔬菜和非蔬菜

矿物和非矿物

online

#fundamentals

与动态的含义相同。

在线推理

#fundamentals

根据需求生成预测。例如，假设某个应用将输入传递给模型并发出预测请求。使用在线推理的系统通过运行模型（并将预测结果返回给应用）来响应请求。

与离线推理相对。

操作 (op)

#TensorFlow

在 TensorFlow 中，任何创建、操纵或销毁张量的过程。例如，矩阵相乘就是一种运算，它会将两个张量作为输入，并生成一个张量作为输出。

优化税

适用于 JAX 的梯度处理和优化库。 Optax 提供了可按自定义方式重新组合以优化参数模型（例如深度神经网络）的构建块，从而促进研究。其他目标包括：

提供可读、经过充分测试且高效的核心组件实现。

将低层级要素整合到自定义优化器（或其他梯度处理组件）中，从而提高效率。

让所有人都可以轻松参与贡献，从而加快新想法的采用。

优化器

梯度下降法的一种具体实现。常用优化器包括：

AdaGrad，表示 ADAptive GRADient descent。

Adam，表示 ADAptive with Momentum。

群外同质性偏差

#fairness

在比较态度、价值观、性格特征和其他特征时，倾向于认为群外成员比群内成员更加相似。群内是指您经常互动的人；群外是指您不经常互动的人。如果您通过要求用户提供有关群外成员的属性来创建数据集，则与参与者为群内成员列出的属性相比，这些属性可能更不那么精细且更具刻板化。

例如，小人国人可能会详细描述其他小人国人的房屋，指出建筑风格、窗户、门和大小方面的细微差异。然而，同样的小人国居民可能只是声称布丁纳吉人住在同一套房子里。

群外同质性偏差是一种群体归因偏差。

另请参阅群内偏差。

离群值检测

识别训练集中的离群值的过程。

与新奇检测相对。

离群数据

与大多数其他值差别很大的值。在机器学习中，以下任意值都是离群值：

值比平均值大大约 3 个标准差的输入数据。

绝对值很高的权重。

预测值与实际值相对较远。

例如，假设 widget-price 是某个模型的特征。假设 widget-price 平均值为 7 欧元，标准差为 1 欧元。因此，包含 12 欧元或 2 欧元的 widget-price 的示例将被视为离群值，因为其中每个价格都是平均值的 5 个标准差。

离群值通常是由拼写错误或其他输入错误引起的。在其他情况下，离群值不是错误；毕竟，与平均值相差五个标准差的值很少见，但几乎不可能。

离群值常常会导致模型训练出现问题。裁剪是管理离群值的一种方式。

开箱评估（OOB 评估）

#df

一种评估决策林质量的机制，方法是对照该决策树的训练中未使用的样本，测试该决策树的决策树。例如，在下图中，请注意，系统基于大约三分之二的样本训练每个决策树，然后针对其余的三分之一样本进行评估。

袋外评估是对交叉验证机制的一种高效、保守的近似计算。在交叉验证中，对于每一轮交叉验证，系统都会训练一个模型（例如，在 10 次交叉验证中训练 10 个模型）。OOB 评估时，训练单个模型。由于 bagging 会在训练期间从每一树中预扣一些数据，因此 OOB 评估可以使用这些数据来近似进行交叉验证。

输出层

#fundamentals

神经网络的“最后一层”。输出层包含预测结果。

下图展示了一个小型深度神经网络，其中包含一个输入层、两个隐藏层和一个输出层：

过拟合

#fundamentals

创建一个与训练数据model高度匹配的模型model，以致模型无法根据新数据做出正确的预测。

正则化可以减少过拟合。用庞大且多样化的训练集进行训练也可以降低过拟合。

点击该图标可查看其他备注。

过拟合就像严格遵循您最喜欢的老师的建议。您很可能能够在该教师的课程中成功，但您可能会“过于适合”这位教师的想法，而在其他课程中则失败。请遵循多位教师给出的建议，您将能更好地适应新的情况。

过采样

在分类不平衡的数据集中重复使用少数类的示例，以创建更平衡的训练集。

例如，假设有一个二元分类问题，其中大多数类别与少数类别的比率为 5,000:1。如果数据集包含一百万个样本，则该数据集仅包含少数类别的大约 200 个样本，这些样本可能太少，无法有效训练。为了克服此缺陷，您可以多次对这 200 个样本进行过采样（重复使用），从而产生足够的样本可用于进行有用的训练。

在过采样时，您需要注意过过拟合。

与欠采样相对。

P

打包数据

一种更高效地存储数据的方法。

打包数据使用压缩格式或以能够更高效地访问数据的其他方式存储数据。打包的数据可最大限度地减少访问数据所需的内存量和计算量，从而提高训练速度和提高模型推断效率。

打包的数据通常与其他技术结合使用，例如数据增强和正则化，进一步提高模型的性能。

pandas

#fundamentals

基于 numpy 构建的面向列的数据分析 API。包括 TensorFlow 在内的许多机器学习框架都支持将 Pandas 数据结构作为输入。如需了解详情，请参阅 Pandas 文档。

参数

#fundamentals

模型在训练期间学习的权重和偏差。例如，在线性回归模型中，参数包括以下公式中的偏差 (b) 和所有权重（w₁、w₂ 等）：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相比之下，超参数则是您（或超参数翻转服务）为模型提供的值。例如，学习速率就是一种超参数。

参数高效微调

#language

#生成式 AI

一组技术，可比完全微调更有效微调大型语言模型 (PLM)。参数高效调优在微调参数时通常要比完全微调少得多，但通常会生成一个大语言模型，其性能与基于完全微调构建的大型语言模型一样（或几乎相同）。

比较和对比参数高效微调与以下工具：

指令调优

提示调整

参数高效微调也称为“参数高效微调”。

参数服务器 (PS)

#TensorFlow

一种作业，负责在分布式设置中跟踪模型参数。

参数更新

在训练期间调整模型的参数的操作，通常在梯度下降法的单次迭代内完成。

偏导数

一种导数，其中除一个变量之外的所有变量都被视为常数。例如，f(x, y) 相对于 x 的偏导数是 f 的导数，只考虑 x 的函数（即保持 y 恒定）。f 对 x 的偏导数仅关注 x 如何变化，而忽略方程中的所有其他变量。fff

参与偏差

#fairness

与未回答偏差的含义相同。请参阅选择偏差。

划分策略

在参数服务器之间分割变量的算法。

帕克斯

一种编程框架，用于训练大规模神经网络模型，因此可以跨越多个 TPU 加速器芯片 切片或 Pod。

Pax 是基于 JAX 构建的 Flax 构建的。

感知机

一种系统（硬件或软件）接受一个或多个输入值，对输入的加权和运行函数，然后计算单个输出值。在机器学习中，函数通常是非线性的，例如 ReLU、S 型或 tanh。例如，以下感知机依靠 S 型函数来处理三个输入值：

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

在下图中，感知机在进入感知机之前获取三项输入，每项输入本身都经过权重修改：

感知机是神经网络中的神经元。

演出

多含义术语，具有以下含义：

软件工程中的标准含义。即：相应软件的运行速度有多快（或有多高效）？

机器学习的含义。在这里，性能可回答以下问题：此model的准确度有多高？也就是说，模型的预测效果如何？

排列变量重要性

#df

一种变量重要性，用于评估在排列特征值后模型预测误差的增加幅度。排列变量重要性是一种独立于模型的指标。

困惑度

一种衡量模型model完成任务表现的指标。例如，假设您的任务是读出用户在手机键盘上输入的单词的前几个字母，并提供一个可能的完整单词列表。此任务的困惑度 (P) 大致表示您需要提供的猜测次数，以便您的列表中包含用户尝试输入的实际字词。

困惑度与交叉熵的关系如下：

$$P= 2^{-\text{cross entropy}}$$

管道

机器学习算法的基础架构。流水线包括收集数据、将数据放入训练数据文件中、训练一个或多个模型，以及将模型导出到生产环境。

流水线

#language

一种模型并行形式，其中模型的处理分为连续的阶段，每个阶段在不同的设备上执行。在一个阶段处理一个批次时，前面的阶段可以处理下一个批次。

另请参阅预演培训。

普吉特语

一个 JAX 函数，用于拆分代码，以便在多个加速器芯片上运行。用户将一个函数传递给 pjit，该函数会返回一个具有等效语义但被编译为可在多种设备（例如 GPU 或 TPU 核心）上运行的 XLA 计算的函数。

借助 pjit，用户可以使用 SPMD 分区器对计算进行分片，而无需重写计算。

截至 2023 年 3 月，pjit 已与 jit 合并。如需了解详情，请参阅分布式数组和自动并行化。

PLM

#language

#生成式 AI

预训练语言模型的缩写。

映射

一个 JAX 函数，用于在多个具有不同输入值的底层硬件设备（CPU、GPU 或 TPU）上执行输入函数的副本。pmap 依赖于 SPMD。

policy

#rl

在强化学习中，是指代理从状态到操作的概率映射。

池化

#image

将由前面的卷积层创建的一个或多个矩阵缩减为较小的矩阵。池化通常涉及取整个池化区域的最大值或平均值。例如，假设我们有以下 3x3 矩阵：

池化运算与卷积运算类似，也会将矩阵分割为多个切片，然后按步长滑动该卷积运算。例如，假设池化运算以 1x1 步长将卷积矩阵分割为 2x2 的切片。如下图所示，会执行四个池化操作。假设每个池化运算都会选择该切片中四个运算的最大值：

池化有助于在输入矩阵中实现平移不变性。

对于视觉应用，池化的更正式名称为空间池化。时间序列应用通常将池化称为时序池化。按照不太正式的说法，池化通常称为“下采样”或“降采样”。

位置编码

#language

一种将序列中词元位置的相关信息添加到词元嵌入的方法。Transformer 模型使用位置编码来更好地了解序列不同部分之间的关系。

位置编码的常见实现使用正弦函数。（具体而言，正弦函数的频率和幅度取决于词元在序列中的位置。）此方法可让 Transformer 模型根据位置学习处理序列的不同部分。

正类别

#fundamentals

您要测试的类。

例如，癌症模型中的正类别可能是“肿瘤”。电子邮件分类器中的正类别可能是“垃圾邮件”。

与负类别相对。

点击该图标可查看其他备注。

“正类别”这个术语可能会让人感到困惑，因为许多测试的“正”结果通常并不是我们期望的结果。例如，在许多医学检查中，正类别对应于肿瘤或疾病。一般来说，您应该希望医生告诉你：“祝贺你！您的测试结果是阴性。” 无论正例类别是测试要寻找的事件，

不可否认，您同时对正类别和负类别进行测试。

后期处理

#fairness

#fundamentals

在运行模型后调整模型的输出。后处理可用于强制执行公平性约束，而无需修改模型本身。

例如，您可以对二元分类器应用后处理，方法是设置分类阈值，以便通过检查某个属性的所有值的真正例率是否相同，保持某个属性的机会相等。

PR AUC（PR 曲线下的面积）

插值精确率/召回率曲线下的面积，通过为分类阈值的不同值绘制（召回率、精确率）点获得。根据计算方式，PR AUC 可能等于模型的平均精确率。

实用技巧

Pax 的核心高性能机器学习库。Praxis 通常称为“图层库”

Praxis 不仅包含 Layer 类的定义，还包含其大部分支持组件，包括：

数据输入

配置库（HParam 和 Fiddle）

优化器

Praxis 提供了 Model 类的定义。

精确度

一种分类模型指标，可回答以下问题：

当模型预测为正类别时，正确率的预测结果所占百分比？

公式如下：

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

其中：

真正例表示模型正确预测了正类别。

假正例表示模型错误地预测了正类别。

例如，假设某个模型进行了 200 次正向预测。在这 200 个正向预测中：

其中 150 为真正例。

其中 50 个为假正例。

在此示例中：

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

与准确率和召回率相对。

精确率与召回率曲线

精确率与召回率与分类阈值下的曲线。

预测

#fundamentals

模型的输出。例如：

二元分类模型的预测可以是正类别，也可以是负类别。

多类别分类模型的预测是一个类别。

线性回归模型的预测结果是一个数字。

预测偏差

一个值，用于指明预测的平均值与数据集内标签的平均值之间的差距。

请勿与机器学习模型中的偏差项或道德和公平性偏差混淆。

预测性机器学习

任何标准（“经典”）机器学习系统。

“预测性机器学习”一词没有正式定义。而是区分一类机器学习系统，并非基于生成式 AI。

预测性对等

#fairness

一个公平性指标，用于检查对于给定的分类器，精确率率是否与考虑选用的子群组相等。

例如，如果一个预测大学接受度的模型在小人国和布丁纳吉人中时的精确率相同，则该模型将满足国籍的预测对等性。

预测性平价有时也称为预测性平价。

如需详细了解预测性对等性，请参阅“公平性定义说明”（第 3.2.1 节）。

预测性费率对等

#fairness

预测性对等性的别称。

预处理

#fairness

在数据用于训练模型之前处理数据。预处理操作非常简单，例如从英语文本语料库中移除英语字典中未出现的单词，或者像重新表示数据点一样复杂，以尽可能消除与敏感属性相关的更多属性。预处理有助于满足公平性限制。

预训练模型

#language

#image

#生成式 AI

已经过训练的模型或模型组件（例如嵌入向量）。有时，您需要将预训练的嵌入向量馈送到神经网络中。而在其他时候，您的模型将自行训练嵌入向量，而不依赖于预训练的嵌入。

术语“预训练语言模型”是指已完成预训练的大语言模型。

预训练

#language

#image

#生成式 AI

使用大型数据集对模型进行的初始训练。一些预训练模型是笨拙的巨型模型，通常必须通过额外的训练进行优化。例如，机器学习专家可能会基于大型文本数据集（例如维基百科中的所有英语页面）预训练大型语言模型。在预训练之后，可以通过以下任何方法进一步优化生成的模型：

蒸馏

微调

指令调优

参数高效调优

提示调整

先验信念

在开始用数据进行训练之前，您对数据的看法。例如，L₂ 正则化依赖于先前的信念，即权重应该很小且应以 0 为中心呈正态分布。

概率回归模型

回归模型。不仅使用每个特征的权重，还使用这些权重的不确定性。概率回归模型会生成一个预测结果以及该预测结果的不确定性。例如，概率回归模型生成的预测结果为 325，标准差为 12。如需详细了解概率回归模型，请参阅 tensorflow.org 上的此 Colab。

概率密度函数

标识正好具有特定值的数据样本的频率的函数。如果数据集的值是连续的浮点数，则很少出现完全匹配。但是，将概率密度函数从 x 值integrating到 y 值可产生 x 到 y 之间的数据样本的预期频率。

例如，假设正态分布平均值为 200，标准差为 30。如需确定 211.4 到 218.7 范围内的数据样本的预期频率，您可以集成概率密度函数，以获得从 211.4 到 218.7 的正态分布。

提示

#language

#生成式 AI

输入的任何文本作为大型语言模型的输入，以便调整模型以使其按某种方式运作。提示可以短至一句话，也可以任意长（例如，一本小说的全文）。提示分为多个类别，如下表所示：

提示类别示例备注

问题 鸽子可以飞多快？

指令 写一首关于套利的趣味诗词。 一条提示，要求大语言模型执行某项操作。

示例 将 Markdown 代码翻译为 HTML。例如： Markdown: * 列表项 HTML: <ul> <li>列表项</li> </ul> 此示例提示中的第一句话是指令。提示的其余部分是示例。

角色 解释为什么物理学博士会在机器学习训练中使用梯度下降法。 句子的第一部分是指示；短语“要获得物理学博士学位”则是角色部分。

需要模型完成的部分输入 英国首相居住在 部分输入提示可以突然结束（如此示例所示）或以下划线结尾。

生成式 AI 模型可以使用文本、代码、图片、嵌入、视频等几乎任何内容来响应提示。

提示式学习

#language

#生成式 AI

某些模型的功能，使它们能够根据任意文本输入调整自身行为（提示）。在基于提示的典型学习范例中，大语言模型通过生成文本来响应提示。例如，假设用户输入以下提示：

总结牛顿第三运动定律。

能够基于提示的学习的模型未经过专门训练，可回答上一条提示。相反，该模型“了解”许多关于物理学的知识、很多关于一般语言规则的知识，以及很多关于构成一般有用答案的内容的知识。这些知识足以提供（希望）有用的答案。通过额外的人类反馈（“回答太复杂了。”或“什么是反应？”），一些基于提示的学习系统可以逐步提高答案的实用性。

提示设计

#language

#生成式 AI

与提示工程的含义相同。

提示工程

#language

#生成式 AI

创建提示，这些提示从大语言模型中引发所需回复的艺术。人类会执行提示工程。编写结构合理的提示是确保大型语言模型给出有用响应的重要部分。提示工程取决于许多因素，包括：

用于预训练和可能对大语言模型进行微调的数据集。

模型用于生成响应的 temperature 和其他解码参数。

如需详细了解如何编写实用的提示，请参阅提示设计简介。

提示设计是提示工程的同义词。

提示调优

#language

#生成式 AI

一种参数高效微调机制，该机制会学习系统附加到实际提示符的“前缀”。

提示调整的一种变体（有时称为前缀调整）是在每层前添加前缀。相比之下，大多数提示调整仅会向输入层添加一个前缀。

点击该图标即可详细了解前缀。

对于提示调整，“前缀”（也称为“软提示”）是一些已学到的任务特定向量，它们附加到实际提示的文本标记嵌入前面。系统会通过冻结所有其他模型参数并针对特定任务进行微调来学习软提示。

代理标签

#fundamentals

用于估算数据集中无法直接提供的标签的数据。

例如，假设您必须训练模型来预测员工的压力水平。您的数据集包含大量预测特征，但不包含名为“压力水平”的标签。不怀气，您选择“工作场所事故”作为压力水平的代理标签。毕竟，压力很大的员工比冷静的员工更容易遇到事故。或者他们呢？工作场所事故实际上可能因多种原因而有所上升和下降。

再举一个例子，假设您希望将“在下雨吗？”作为数据集的布尔值标签，但您的数据集不包含雨点数据。如果有照片，您可以建立带雨伞的照片作为“在下雨吗？”的代理标签。代理标签好吗？或许有可能，但某些文化的人更有可能带雨伞抵御阳光，而不是下雨。

代理标签往往不完美。请尽可能选择实际标签，而不是代理标签。也就是说，当实际标签不存在时，请非常谨慎地选择代理标签，选择最不糟糕的代理标签候选对象。

代理（敏感属性）

#fairness

用作敏感属性的替代项的属性。例如，个人的邮政编码可能用作其收入、种族或民族的替代品。

纯函数

一个函数，其输出仅基于其输入，没有任何附带效应。具体而言，纯函数不使用或更改任何全局状态，例如文件的内容或函数外部变量的值。

纯函数可用于创建线程安全代码，这在跨多个加速器芯片将模型model代码分片时非常有用。model

JAX 的函数转换方法要求输入函数是纯函数。

Q

Q 函数

#rl

在强化学习中，该函数用于预测在某个状态下执行某项操作，然后按照指定的政策预测预期返回。

Q 函数也称为状态-操作值函数。

Q 学习

#rl

强化学习是一种算法，可让代理通过应用贝尔曼方程来学习马尔可夫决策过程的最优 Q 函数。马尔可夫决策过程可为环境建模。

分位数

分位数分桶中的每个存储分区。

分位数分桶

将某个特征的值分发到分桶中，使每个分桶包含相同（或几乎相同）数量的样本。例如，下图将 44 个点分为 4 个存储分区，每个存储分区包含 11 个点。为使图中的每个存储分区包含相同数量的点，某些存储分区跨越不同的 x 值宽度。

44 个数据点，分为 4 个存储分区，每个 11 点。虽然每个存储分区包含相同数量的数据点，但某些存储分区包含的特征值范围比其他存储分区更广泛。

量化

可以通过以下任何一种方式使用的多余术语：

对特定特征实现分位数分桶。
将数据转换为零和 1，以加快存储、训练和推断速度。由于布尔值数据比其他格式更能接受噪声和误差，因此量化可以提高模型正确性。量化方法包括舍入、截断和分箱。
减少用于存储模型参数的位数。例如，假设模型的参数存储为 32 位浮点数。量化会将这些参数从 32 位向下转换为 4、8 或 16 位。量化可减少以下内容：
- 计算、内存、磁盘和网络用量
- 是时候推断预测了
- 功耗
但是，量化有时会降低模型预测的正确性。

队列

#TensorFlow

一种实现队列数据结构的 TensorFlow 操作。通常用于 I/O。

R

RAG

#fundamentals

检索增强生成的缩写。

随机森林

#df

一种决策树集成，其中每个决策树都使用特定的随机噪声进行训练，例如打包 (bagging)。

随机森林是一种决策森林。

随机政策

#rl

在强化学习中，随机选择操作的政策。

排名

一种监督式学习，目标是对一系列项进行排序。

秩（序数）

某个类别在机器学习问题中的序数位置，该维度按从高到低对各个类别进行分类。例如，行为排名系统可以将狗狗的奖励从高到低（枯萎的羽衣甘蓝）排序。

秩（张量）

#TensorFlow

张量中的维度数。例如，标量的秩为 0，向量的秩为 1，矩阵的秩为 2。

请勿与排序（序数）混淆。

标注者

#fundamentals

为样本提供标签的人员。“注释者”是审核者的另一种称呼。

召回

一种分类模型指标，可回答以下问题：

当标准答案是正类别时，模型正确识别为正类别的预测结果所占的百分比是多少？

公式如下：

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

其中：

真正例表示模型正确预测了正类别。
假负例意味着模型错误地预测了负类别。

例如，假设您的模型对标准答案为正类别的样本进行了 200 次预测。在这 200 条预测中：

其中 180 个为真正例。
其中 20 个为假负例。

在此示例中：

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

点击图标可查看有关分类不平衡的数据集的备注。

召回率对于确定正类别很少的分类模型的预测能力尤其有用。例如，假设有一个分类不平衡的数据集，其中某种疾病的正类别仅出现在 100 万人中，只有 10 名患者出现。假设您的模型进行了 500 万个预测，并产生了以下结果：

30 个真正例
20 个假负例
4,999,000 个真负例
950 个假正例

因此，此模型的召回率为：

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

相比之下，此模型的准确率为：

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

这种高的准确性值看起来令人印象深刻，但本质上没有意义。对于分类不平衡的数据集，召回率指标比准确率更有用。

修正线性单元 (ReLU)

#fundamentals

一种激活函数，具有以下行为：

如果输入为负或零，则输出为 0。
如果输入为正，则输出等于输入。

例如：

如果输入为 -3，则输出为 0。
如果输入为 +3，则输出为 3.0。

以下是 ReLU 曲线图：

ReLU 是一种非常流行的激活函数。尽管行为简单，但 ReLU 仍可让神经网络学习特征与标签之间的非线性关系。

循环神经网络

#seq

特意运行多次的神经网络，其中每次运行的部分都会馈送到下一次运行。具体而言，上一次运行中的隐藏层会在下一次运行时为同一隐藏层提供部分输入。循环神经网络在评估序列时特别有用，因此隐藏层可以从神经网络在序列的前几部分上的先前运行中学习。

例如，下图显示了一个运行四次的循环神经网络。请注意，第一次运行时在隐藏层中学习的值将成为第二次运行时相同隐藏层的输入的一部分。同样，第二次运行时在隐藏层中学习的值将成为第三次运行时相同隐藏层的输入的一部分。通过这种方式，循环神经网络会逐步训练和预测整个序列的含义，而不仅仅是单个字词的含义。

运行四次以处理四个输入字词的 RNN。

回归模型

#fundamentals

通俗来说，是指生成数值预测的模型。（相比之下，分类模型会生成类别预测）。例如，以下都是回归模型：

预测特定房屋价值（例如 423,000 欧元）的模型。
用于预测特定树木的预期寿命（如 23.2 年）的模型。
预测特定城市未来六小时内将降雨量（例如 0.18 英寸）的模型。

两种常见的回归模型是：

线性回归：它会找出将标签值最适合特征的直线。
逻辑回归：生成介于 0.0 到 1.0 之间的概率，系统随后通常会将此概率映射到类预测。

并非所有输出数值预测的模型都是回归模型。在某些情况下，数值预测实际上只是一个恰好具有数字类名称的分类模型。例如，预测数字邮政编码的模型是分类模型，而不是回归模型。

正则化

#fundamentals

任何可减少过拟合的机制。常见的正则化类型包括：

L₁ 正则化
L₂ 正则化
dropout 正则化
早停法（这不是正式的正则化方法，但可以有效限制过拟合）

正则化也可以定义为对模型复杂度的惩罚。

点击该图标可查看其他备注。

正则化有违常理。增加正则化通常会增加训练损失，而这令人感到困惑，因为减少训练损失的目标不是最小化训练损失吗？

不，不，目标不是最大程度减少训练损失。目标是对真实示例做出出色的预测。值得注意的是，虽然增加正则化会增加训练损失，但这通常有助于模型根据实际样本作出更好的预测。

正则化率

#fundamentals

一个数字，用于指定训练期间正则化的相对重要性。提高正则化率可以减少过拟合，但可能会降低模型的预测能力。相反，降低或省略正则化率会增加过拟合。

点击该图标即可查看算式。

正则化率通常用希腊字母 lambda 表示。下面简化的 loss 方程展示了 lambda 的影响：

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

其中，正则化是指任何正则化机制，包括：

L₁ 正则化
L₂ 正则化

强化学习 (RL)

#rl

一系列算法，用于学习最佳政策，其目标是在与环境互动时尽可能提高回报。例如，大多数游戏的最终奖励是胜利。强化学习系统通过评估最终导致胜利的一系列游戏动作序列和最终导致失败的序列，可以成为玩复杂游戏的专家。

基于人类反馈的强化学习 (RLHF)

#生成式 AI

#rl

使用人工审核者的反馈提高模型回答的质量。例如，RLHF 机制可以要求用户使用 👍? 或 👎? 表情符号来评价模型的响应质量。然后，系统可以根据该反馈调整未来的响应。

ReLU

#fundamentals

修正线性单元的缩写。

重放缓冲区

#rl

在类似 DQN 的算法中，代理用于存储状态转换以便在体验重放中使用的内存。

复制品

训练集或模型的副本，通常位于另一台机器上。例如，系统可以使用以下策略来实现数据并行：

将现有模型的副本放置在多台机器上。
将训练集的不同子集发送到每个副本。
汇总参数更新。

报告偏差

#fairness

人们撰写动作、结果或属性的频率并不能反映这些行为、结果或属性的实际频率，或者某个属性是某一类个体的特征的程度。报告偏差可能会影响机器学习系统从中学习规律的数据的构成。

例如，在书中，“laughed”比“breathed”更普遍。如果某个机器学习模型根据书本语料库估计大笑和呼吸的相对频率，就很可能会确定笑比呼吸更常见。

相同的矢量表示。

将数据映射到实用特征的过程。

重排序

#recsystems

推荐系统的最后阶段，在此期间，可能会根据一些其他（通常是非机器学习）算法对已评分项进行重新评分。重排序会对在评分阶段生成的一系列推荐项进行评估，然后采取以下操作：

移除用户已购买的商品。
提高较新项的得分。

检索增强生成 (RAG)

#fundamentals

一种提高大型语言模型 (LLM) 输出质量的方法，具体方法是以模型训练后检索到的知识来源为基础。RAG 为训练好的 LLM 提供从可信知识库或文档检索到的信息，从而提高 LLM 响应的准确性。

使用检索增强生成的常见动机包括：

提高模型生成的回答的真实准确度。
向模型授予访问其未进行训练的知识的权限。
更改模型使用的知识。
启用模型以引用来源。

例如，假设化学应用使用 PaLM API 生成与用户查询相关的摘要。当应用后端收到查询时，后端：

搜索（“检索”）与用户查询相关的数据。
将相关化学数据附加到用户的查询中。
指示 LLM 根据附加数据创建摘要。

return

#rl

在强化学习中，给定某种政策和特定状态，返回的值是代理按照政策从状态到剧集结尾时预期能够获得的所有奖励的总和。代理根据获得奖励所需的状态转换来调低奖励，从而解决了预期奖励的延迟性质。

因此，如果折扣系数为 $\gamma$，并且 $r_0, \ldots, r_{N}$表示奖励直到剧集结尾，那么回报计算如下：

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

奖励

#rl

在强化学习中，是指在“状态”下执行某项操作的数值结果，该状态由环境定义。

岭正则化

与 L₂ 正则化的含义相同。岭正则化这一术语更经常用于纯粹的统计学领域，而 L₂ 正则化更常用于机器学习。

循环神经网络

#seq

循环神经网络的缩写。

ROC（接收者操作特征）曲线

#fundamentals

二元分类中不同分类阈值的真正例率与假正例率的图表。

ROC 曲线的形状表明二元分类模型区分正类别与负类别的能力。例如，假设二元分类模型将所有负类别与所有正类别完美分离：

一条数轴，右侧是 8 个正例，左侧是 7 个负例。

上述模型的 ROC 曲线如下所示：

ROC 曲线。x 轴为假正例率，y 轴为真正例率。该曲线具有倒置的 L 形。该曲线的起点为 (0.0,0.0)，然后直线上升到 (0.0,1.0)。然后曲线从 (0.0,1.0) 到 (1.0,1.0)。

相比之下，下图绘制了一个糟糕模型的原始逻辑回归值，该模型根本无法区分负类别和正类别：

包含正例和负类别完全混合的数轴。

此模型的 ROC 曲线如下所示：

ROC 曲线，实际为从 (0.0,0.0) 到 (1.0,1.0) 的直线。

另一方面，在现实世界中，大多数二元分类模型在一定程度上将正类别和负类别分开，但通常并非完美。因此，典型的 ROC 曲线介于以下两种极端情况之间：

ROC 曲线。x 轴为假正例率，y 轴为真正例率。ROC 曲线近似于从西向北横跨罗盘点的抖动弧。

理论上，ROC 曲线上最接近 (0.0,1.0) 的点确定理想分类阈值。但是，其他一些实际问题也会影响理想分类阈值的选择。例如，假负例带来的痛苦可能远远超过假正例。

称为 AUC 的数值指标将 ROC 曲线汇总为单个浮点值。

角色提示

#language

#生成式 AI

提示的可选部分，用于标识生成式 AI 模型回复的目标受众群体。在没有角色提示的情况下，大语言模型提供的答案对提问的人员可能有用，也可能无用。借助角色提示，大型语言模型能够以更适合特定目标受众群体且更有帮助的方式回答问题。例如，以下提示的角色提示部分以粗体显示：

总结这篇文章，获取经济学博士学位。
描述十岁孩子的潮汐是如何运作的。
解释 2008 年金融危机。像对小孩子或金毛寻回犬那样说话。

根

#df

决策树中的起始节点（第一个条件）。按照惯例，图表将根放在决策树的顶部。例如：

包含两个条件和三个叶的决策树。起始条件 (x > 2) 是根。

根目录

#TensorFlow

您指定的目录，用于托管多个模型的 TensorFlow 检查点和事件文件的子目录。

均方根误差 (RMSE)

#fundamentals

均方误差的平方根。

旋转不变性

#image

在图像分类问题中，即使图像的方向发生变化，算法也能成功对图像进行分类。例如，无论网球拍是朝上、侧向还是朝下，该算法仍然可以识别它。请注意，并非总是期望旋转不变；例如，倒置 9 不应被归类为 9。

另请参阅平移不变性和大小不变性。

R 平方

回归指标，用于指示标签中的变化因单个特征或特征集而发生的变化。R 平方值是一个介于 0 和 1 之间的值，可按以下方式解释：

R 平方为 0 表示标签的所有变化均不由特征集引起。
R 平方为 1 表示标签的所有变化都得益于特征集。
介于 0 和 1 之间的 R 平方值表示可以从特定特征或特征集预测标签的变体的程度。例如，R 平方为 0.10 表示标签方差中有 10% 归功于特征集，R 平方为 0.20 表示 20% 归功于特征集，依此类推。

R 平方是模型预测值与标准答案之间的皮尔逊相关系数的平方。

南

采样偏差

#fairness

请参阅选择偏差。

替换抽样

#df

一种从一组候选项（其中可以多次选择同一项）中选择项的方法。短语“带替换”表示每次选择后，选定项会返回到候选项池。反之，即不替换进行采样，这意味着候选项只能选择一次。

以下面的水果组合为例：

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假设系统随机选择 fig 作为第一项。如果使用带替换的采样，系统会从以下集合中选择第二项：

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的，这与之前的设置相同，因此系统可能会再次选择 fig。

如果使用不替换的抽样，一旦选择了某个样本，便无法再次选择。例如，如果系统随机选择 fig 作为第一个样本，那么就无法再次选择 fig。因此，系统会从以下（简化）集合中选择第二个样本：

fruit = {kiwi, apple, pear, cherry, lime, mango}

点击该图标可查看其他备注。

“替换采样”中的“替换”一词会让许多人感到困惑。在英语中，“替换”表示“替换”。但是，“使用替换进行采样”实际上使用的是法语的“替换”定义，这意味着“放回某些内容”。

英语单词 replacement 被翻译成法语单词 remplacement。

SavedModel

#TensorFlow

保存和恢复 TensorFlow 模型时建议使用的格式。SavedModel 是一种无关语言的可恢复序列化格式，可让较高级别的系统和工具创建、使用和转换 TensorFlow 模型。

如需了解完整详情，请参阅《TensorFlow 编程人员指南》中的保存和恢复一章。

实惠

#TensorFlow

一种 TensorFlow 对象，负责保存模型检查点。

标量

单个数字或单个字符串，可以表示为 rank 0 的张量。例如，下面这行代码会在 TensorFlow 中分别创建一个标量：

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

调节

任何改变标签和/或特征值范围的数学转换或技术。某些扩缩形式对于归一化等转换非常有用。

机器学习中常用的扩缩形式包括：

线性缩放，通常使用减法和除法的组合将原始值替换为 -1 到 +1 之间或 0 到 1 之间的数字。
对数缩放，将原始值替换为其对数。
Z 分数归一化：将原始值替换为浮点值，该浮点值表示与特征平均值的标准差数。

scikit-learn

一个热门的开源机器学习平台。请参阅 scikit-learn.org。

评分

#recsystems

推荐系统的一部分，用于为候选生成阶段生成的每个项提供值或排名。

选择偏差

#fairness

从抽样数据中得出的结论错误是由于一个选择过程，该过程会在数据中观察到的样本与未观察到的样本之间产生系统差异。存在以下形式的选择偏差：

覆盖偏差：数据集内表示的群体与机器学习模型进行预测的群体不匹配。
抽样偏差：数据不是从目标群体中随机收集的。
未回答偏差（也称为参与偏差）：某些群体中的用户以不同于其他群体的用户的比率选择不参加问卷调查。

例如，假设您正在创建一个机器学习模型来预测人们对电影的喜爱程度。为了收集训练数据，您向放映该电影的电影院前排的每个人发放一份调查问卷。不言自明，这听起来似乎是收集数据集的合理方法；但是，这种形式的数据收集可能会引入以下形式的选择偏差：

覆盖偏差：通过从选择观看电影的人群中采样，您的模型的预测可能不会泛化到尚未对电影表现出这种兴趣水平的人。
采样偏差：您只对前排的观众进行采样，而不是从预期人群（电影上演的所有人）中随机采样。坐在第一排的观众可能比其他排的观众对电影更感兴趣。
未回答偏差：通常，相较于持有温和意见的人，具有强烈观点的人倾向于更频繁地回答可选调查问卷。由于电影调查问卷是可选的，因此回复更有可能形成双模态分布，而不是正态（钟形）分布。

自注意力层（也称为自注意力层）

#language

将一系列嵌入（例如令牌嵌入）转换为其他嵌入序列的神经网络层。输出序列中的每个嵌入都是通过注意力机制集成输入序列元素的信息构建的。

自注意力的“self”部分指的是涉及它自身而不是其他一些上下文的过程。自注意力是 Transformer 的主要构建块之一，使用字典查询术语，例如“query”“key”和“value”。

自注意力层从一系列输入表示开始，每个字词对应一个表示形式。字词的输入表示法可以是简单的嵌入。对于输入序列中的每个字词，网络都会对该字词与整个字词序列中的每个元素的相关性进行评分。相关性分数决定了字词的最终表示程度与其他字词的表示组合程度。

例如，请参考以下句子：

动物太累了，所以没过街。

下图（选自 Transformer：一种新的语言理解神经网络架构）显示了代词“it”的自注意力层的注意力模式，其中每行的黑暗部分表示每个单词对表示的影响程度：

以下句子出现了两次：动物因为太累而没过街。用线将一句话中的人称代词与另一句中的五个词元（动物、街道、它和句号）连接起来。代词与动物一词之间的联系效果最显著。

自注意力层会突出显示与“它”相关的字词。在本例中，注意力层学习了突出显示它可能指代的字词，为动物分配最高权重。

对于 n 个词元序列，自注意力会分别在 n 次单独转换一系列嵌入，并在序列中的每个位置各进行一次。nnn

另请参阅注意力和多头自注意力。

自监督式学习

一系列技术，可通过从无标签样本创建代理标签，将非监督式机器学习问题转换为监督式机器学习问题。

BERT 等一些基于 Transformer 的模型使用的是自监督学习。

自我监督训练是一种半监督学习方法。

自我训练

自监督学习的变体，在满足以下所有条件时特别有用：

数据集中无标签样本与有标签样本的比率很高。
这是一个分类问题。

自训练的工作原理是迭代以下两个步骤，直到模型不再改进：

使用监督式机器学习，根据有标签样本训练模型。
使用第 1 步中创建的模型针对无标签样本生成预测（标签），将置信度高的样本移到带有预测标签的有标签样本中。

请注意，第 2 步的每次迭代都会添加更多有标签样本，供第 1 步进行训练。

半监督式学习

使用一些数据训练模型，其中一些训练样本有标签，而另一些样本则没有。半监督式学习的一种技术是推断无标签样本的标签，然后使用推断出的标签进行训练以创建新模型。如果获取标签成本高昂，但无标签样本足够多，则半监督式学习会非常有用。

自我训练是一种半监督式学习技术。

敏感属性

#fairness

一种人性属性，可能会基于法律、道德、社会或个人原因予以特别考虑。

情感分析

#language

使用统计算法或机器学习算法来确定某个群体对某项服务、产品、组织或主题的总体态度（积极或消极）。例如，利用自然语言理解，算法可以对大学课程的文本反馈进行情感分析，以确定学生总体上喜欢或不喜欢课程的程度。

序列模型

#seq

一种模型，其输入具有顺序依赖关系。例如，根据之前观看过的一系列视频预测观看的下一个视频。

序列到序列任务

#language

一项任务，可将令牌的输入序列转换为令牌输出序列。例如，下面两种常见的“序列到序列”任务是：

译者：
- 示例输入序列：“我爱你”。
- 示例输出序列：“Je t'aime”。
问答：
- 示例输入序列：“Do I need my car in New York City?”（我在纽约市需要我的汽车吗？）
- 输出序列示例：“No. Please keep your car do you’ve.”（不行。请将车放在家里。）

人份

使经过训练的模型可用于通过在线推理或离线推理进行预测的过程。

形状（张量）

张量的每个维度中的元素数量。形状以整数列表的形式表示。例如，以下二维张量的形状为 [3,4]：

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow 使用行主要（C 样式）格式表示维度的顺序，因此 TensorFlow 中的形状为 [3,4] 而非 [4,3]。换言之，在二维 TensorFlow Tensor 中，形状为[行数、列数]。

分片

#TensorFlow

#GoogleCloud

训练集或模型的逻辑除法。通常，某些进程通过将示例或参数划分为（通常）大小相等的区块来创建分片。然后，系统会将每个分片分配给不同的机器。

将模型分片称为模型并行；数据分片称为数据并行。

缩减

#df

梯度提升中用于控制过拟合的超参数。梯度提升中的收缩类似于梯度下降法中的学习速率。收缩率为 0.0 到 1.0 之间的小数值。与较大的缩减值相比，较低的收缩值在减少过拟合方面表现得更好。

S 型函数

#fundamentals

一个数学函数，用于将输入值“挤压”到受限范围（通常为 0 到 1 或 -1 到 +1）。也就是说，您可以将任何数字（2、100 万、负 100 亿等）传递给 S 型函数，输出仍将处于受限范围内。S 型激活函数的曲线图如下所示：

S 型函数在机器学习中有多种用途，包括：

将逻辑回归或多项回归模型的原始输出转换为概率。
在某些神经网络中充当激活函数。

点击该图标即可查看算式。

针对输入数 x 执行 S 型函数的公式如下：x

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

在机器学习中，x 通常是加权和。

相似度度量

#clustering

在聚类算法中，用于确定任何两个样本的相似度（相似程度）的指标。

单一节目 / 多数据 (SPMD)

一种并行技术，是指在不同设备上对不同的输入数据并行执行相同的计算。SPMD 的目标是更快地获得结果。它是最常见的并行编程方式。

大小不变性

#image

在图像分类问题中，即使图像大小发生变化，算法也能成功对图像进行分类。例如，无论一只猫是消耗 200 万像素还是 20 万像素，该算法仍然可以识别它。请注意，即使是最好的图像分类算法在大小不变性方面仍然有实际的限制。例如，算法（或人类）不太可能对仅消耗 20 像素的猫图片进行正确分类。

另请参阅平移不变性和旋转不变性。

素描

#clustering

非监督式机器学习中的一类算法，对样本执行初步相似度分析。草拟算法使用局部敏感哈希函数来识别可能相似的点，然后将其分组到存储分区中。

草图可以减少计算大型数据集相似度所需的计算量。我们仅计算每个存储分区内的每对点的相似度，而不是计算数据集内每对样本的相似度。

Skip-gram

#language

一种 n 元语法，可以省略（或“跳过”）原始上下文中的字词，表示这 N 个字词本来可能不相邻。更确切地说，“k-skip-n-gram”是指最多可能跳过 k 个单词的 n-gram。

例如，“the quick brown fox”有如下可能的 2-gram：

“快速”
"快速棕色"
"棕色狐狸"

“1-skip-2-gram”是指一对单词之间最多包含 1 个单词的单词。因此，“the quick brown fox”具有以下 1 次跳过 2-gram：

"棕色"
“Quick fox”

此外，所有 2-gram 也是 1-skip-2-gram，因为跳过的单词可能少于一个。

跳过语法 (Skip-gram) 有助于更深入地了解某个字词的上下文。在该示例中，“fox”在 1-skip-2-grams 集中与“quick”直接关联，但在 2-gram 的集合中则没有。

Skip-gram，有助于训练字词嵌入模型。

softmax 函数

#fundamentals

用于确定多类别分类模型中每个可能类别的概率的函数。这些概率相加等于 1.0。例如，下表显示了 softmax 如何分布各种概率：

图片是...	Probability
狗	0.85
猫	0.13
马	0.02

Softmax 也称为“完整 softmax”。

与候选采样相对。

点击该图标即可查看算式。

softmax 方程如下所示：

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

其中：

$\sigma_i$ 为输出矢量。输出向量的每个元素都指定了该元素的概率。输出向量中所有元素的总和为 1.0。输出向量包含与输入向量 $z$ 相同数量的元素。
$z$ 为输入矢量。输入矢量的每个元素都包含一个浮点值。
$K$ 是输入向量（和输出向量）中的元素数量。

例如，假设输入矢量为：

[1.2, 2.5, 1.8]

因此，softmax 按以下方式计算分母：

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

因此，每个元素的 softmax 概率为：

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

因此，输出矢量为：

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ 中三个元素的总和是 1.0。呼！

软提示调整

#language

#生成式 AI

一种针对特定任务调参大语言模型（无需进行资源密集型微调）的技术。软提示调整会自动调整提示来实现相同的目标，而不是重新训练模型中的所有权重。

给定文本提示时，软提示调整通常会将额外的词元嵌入附加到提示上，并使用反向传播算法优化输入。

“硬”提示包含实际令牌，而不是令牌嵌入。

稀疏特征

#language

#fundamentals

一种特征，其值主要为零或空。例如，如果某个特征包含 1 个值和 100 万个值，则属于稀疏特征。相反，密集特征的值主要不为零或为空。

在机器学习中，大量的特征都是稀疏特征。分类特征通常是稀疏特征。例如，在森林中有 300 种可能的树种中，一个样本可能只会识别一棵“枫树”。或者，在视频库的数百万个视频中，只有一个样本可以识别“卡萨布兰卡”。

在模型中，您通常使用独热编码表示稀疏特征。如果独热编码很大，可以在独热编码之上放置一个嵌入层，以提高效率。

稀疏表示法

#language

#fundamentals

仅存储非零元素的位置。

例如，假设名为 species 的分类特征识别特定森林中的 36 种树种。并进一步假设每个示例仅标识一个物种。

您可以使用独热矢量来表示每个样本中的树种。独热矢量将包含单个 1（用于表示该示例中的特定树种）和 35 个 0（代表该示例中未包含的 35 个树种）。因此，maple 的独热表示法可能如下所示：

一个矢量，其中位置 0 到 23 存储值 0，位置 24 存储值 1，位置 25 到 35 存储值 0。

或者，稀疏表示法将仅确定特定物种的位置。如果 maple 在位置 24，则 maple 的稀疏表示法为：

请注意，稀疏表示法比独热表示法更紧凑。

点击图标即可查看稍微复杂的示例。

假设模型中的每个样本必须代表英文句子中的单词，但不一定代表这些单词的顺序。英语包含大约 170,000 个单词，因此英语是一个包含大约 170,000 个元素的分类特征。大多数英语句子使用的都是这 17 万个单词中的一小部分，因此一个示例中的单词集合几乎肯定是稀疏的数据。

请参考以下句子：

My dog is a great dog

您可以使用独热矢量的变体来表示此句子中的字词。在此变体中，向量中的多个单元格可以包含非零值。此外，在此变体中，单元格可以包含 1 以外的整数。虽然“my”“is”“a”和“great”这三个词在句子中只出现一次，但“dog”一词出现了两次。使用独热向量的这种变体来表示这个句子中的字词，可得到以下 170,000 个元素向量：

同一句子的稀疏表示法为：

如果您感到困惑，请点击该图标。

“稀疏表示法”这一术语会让许多人感到困惑，因为稀疏表示法本身并不是稀疏向量。相反，稀疏表示法实际上是稀疏向量的密集表示法。同义词索引表示法比“稀疏表示法”更清晰。

稀疏向量

#fundamentals

值大部分为零的向量。另请参阅稀疏特征和稀疏性。

稀疏性

向量或矩阵中设置为 0（或 Null）的元素数量除以该向量或矩阵中的条目总数。例如，假设有一个包含 100 个元素的矩阵，其中 98 个单元格包含 0。稀疏性的计算方法如下：

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

特征稀疏性是指特征向量的稀疏性；模型稀疏性是指模型权重的稀疏性。

空间池化

#image

请参阅 pooling。

拆分

#df

在决策树中，条件的另一个名称。

分割器

#df

训练决策树时，负责在每个节点上查找最佳条件的例程（和算法）。

SPMD

单个节目 / 多个数据的缩写。

平方合页损失函数

合页损失函数的平方。与常规合页损失相比，平方合页损失函数对离群值的惩罚更严厉。

平方损失

#fundamentals

与 L₂ 损失的含义相同。

预演训练

#language

一种在一系列离散阶段训练模型的策略。目标可以是加快训练过程，也可以是更好的模型质量。

渐进式堆叠方法的示意图如下所示：

阶段 1 包含 3 个隐藏层，阶段 2 包含 6 个隐藏层，阶段 3 包含 12 个隐藏层。
第 2 阶段使用在第 1 阶段的 3 个隐藏层中学到的权重开始训练。第 3 阶段使用在第 2 阶段的 6 个隐藏层中学到的权重开始训练。

三个阶段，分别是第 1 阶段、第 2 阶段和第 3 阶段。每个阶段包含不同数量的层：阶段 1 包含 3 个层，阶段 2 包含 6 个层，阶段 3 包含 12 个层。
第 1 阶段中的 3 个图层成为第 2 阶段的前 3 层。
同样，第 2 阶段中的 6 个层成为第 3 阶段的前 6 层。

另请参阅流水线。

state

#rl

在强化学习中，这些是描述环境当前配置的参数值，代理可使用这些值选择操作。

状态-操作值函数

#rl

是 Q 函数的同义词。

静态

#fundamentals

某项操作只执行一次，而不是连续执行。术语“静态”和“离线”是同义词。以下是在机器学习中静态和离线的常见用法：

静态模型（即离线模型）是指训练一次后使用一段时间的模型。
静态训练（即离线训练）是训练静态模型的过程。
静态推理（或离线推理）是模型一次生成一批预测的过程。

与动态相对。

静态推理

#fundamentals

与离线推理的同义词。

平稳性

#fundamentals

一个特征，其值在一个或多个维度（通常是时间）上不会发生变化。例如，如果某个特征的值在 2021 年和 2023 年看起来大致相同，则该特征表现出平稳性。

在现实世界中，很少有特征表现出平稳性。即使是与稳定性同义的特征（如海平面）也会随时间发生变化。

与非平稳性相对。

步进

一个批次的正向传递和后向传递。

如需详细了解前向传播和反向传播，请参阅反向传播。

步长

与学习速率的含义相同。

随机梯度下降法 (SGD)

#fundamentals

一种梯度下降法，其中批量大小为 1。换言之，SGD 会针对从训练集中均匀随机选择的单个样本进行训练。

步幅

#image

在卷积运算或池化中，后续一系列输入切片的每个维度中的增量。例如，以下动画演示了卷积操作期间的步长 (1,1)。因此，下一个输入切片从上一个输入切片右侧的一个位置开始。当操作到达右侧边缘时，下一个切片将一直移动到左侧，但向下一个位置。

一个 5x5 输入矩阵和一个 3x3 卷积过滤器。由于步长为 (1,1)，因此卷积过滤器将被应用 9 次。第一个卷积切片对输入矩阵左上角的 3x3 子矩阵求值。第二个切片对顶部中间的 3x3 子矩阵求值。第三个卷积切片对右上角的 3x3 子矩阵求值。第四个切片对左侧中间的 3x3 子矩阵求值。第五个切片对中间的 3x3 子矩阵求值。第六个切片对中间右边的 3x3 子矩阵求值。第七个切片对左下方的 3x3 子矩阵求值。第八个切片对底部中间的 3x3 子矩阵求值。第九个切片对右下角的 3x3 子矩阵求值。

上面的示例演示了二维步长。如果输入矩阵是三维的，则步长也是三维的。

结构风险最小化 (SRM)

一种算法，用于平衡两个目标：

需要构建预测性最高的模型（例如损失最低）。
需要使模型尽可能简单（例如强正则化）。

例如，用于最大限度降低训练集损失和正则化的函数就是一种结构风险最小化算法。

与经验风险最小化相对。

下采样

#image

请参阅 pooling。

子词标记

#language

在语言模型中，一个令牌，它是单词的子字符串，可以是整个单词。

例如，像“itemize”这样的单词可以分成“item”（根词）和“ize”（后缀），每个部分都用自己的词法单元表示。通过将不常见的字词拆分为多个片段（称为子字词），语言模型可以对该字词较为常见的组成部分（例如前缀和后缀）执行操作。

相反，像“参加”这样的常用词可能不会分解，并且可能由单个词元表示。

摘要

#TensorFlow

在 TensorFlow 中，在特定步骤计算出的一个或一组值，通常用于在训练期间跟踪模型指标。

监督式机器学习

#fundamentals

使用特征及其相应的标签来训练模型modelmodelmodel。监督式机器学习类似于通过研究一组问题及其相应的答案来学习一个主题。掌握问题和答案之间的对应关系后，学生就可以针对同一主题的新问题（从未见过）提供答案。

与非监督式机器学习相对。

合成特征

#fundamentals

一种特征，不在输入特征之列，而是由一个或多个输入特征组合而成。用于创建合成特征的方法包括：

将连续特征分桶到范围分箱中。
创建特征组合。
将一个特征值与其他特征值或其自身相乘（或除以）。例如，如果 a 和 b 是输入特征，那么以下是合成特征的示例：
- ab
- a²
对特征值应用超越函数。例如，如果 c 是输入特征，则以下是合成特征的示例：
- sin(c)
- ln(c)

通过单独进行归一化或缩放创建的特征不属于合成特征。

T

T5

#language

Google AI 于 2020 年引入的文本到文本迁移学习 模型。T5 是一种基于 Transformer 架构的编码器-解码器模型，使用超大数据集进行训练。它在各种自然语言处理任务中都很有效，如生成文本、翻译语言和以对话方式回答问题。

T5 这一名称取自“Text-to-Text Transfer Transformer”中的五个 T。

T5X

#language

一个开源机器学习框架，旨在构建和训练大规模自然语言处理 (NLP) 模型。T5 在 T5X 代码库（基于 JAX 和 Flax 构建）上实现。

表格 Q 学习

#rl

在强化学习中，通过使用表为状态和操作的每个组合存储 Q 函数来实现 Q 学习。

目标

与标签的含义相同。

目标广告网络

#rl

在深度 Q 学习中，一种神经网络，是主神经网络的稳定近似值，其中主神经网络实现了 Q 函数或政策。然后，您可以使用目标网络预测的 Q 值来训练主网络。因此，您可以防止主网络根据自行预测的 Q 值进行训练时发生反馈环。通过避免这种反馈，训练稳定性提高。

任务

可以使用机器学习技术解决的问题，例如：

分类

回归

聚类

异常值检测

温度

#language

#image

#生成式 AI

一种超参数，用于控制模型输出的随机性。温度越高，输出的随机程度越高，而温度越低，输出的随机性越小。

选择最佳温度取决于具体应用和模型输出的首选属性。例如，在创建可生成广告素材输出的应用时，您可能会提高温度。相反，为了提高模型的准确性和一致性，在构建对图片或文本进行分类的模型时，您可能需要降低温度。

温度通常与 softmax 一起使用。

时态数据

在不同时间点记录的数据。例如，记录的一年中每一天的冬季外套销售额属于时间数据。

张量

#TensorFlow

TensorFlow 程序中的主要数据结构。张量是 N 维（其中 N 可能非常大）数据结构，最常见的是标量、向量或矩阵。张量的元素可以包含整数、浮点值或字符串值。

TensorBoard

#TensorFlow

一个信息中心，用于显示在执行一个或多个 TensorFlow 程序期间保存的摘要。

TensorFlow

#TensorFlow

一个大型分布式机器学习平台。该术语还指 TensorFlow 堆栈中的基本 API 层，该层支持对数据流图进行一般计算。

虽然 TensorFlow 主要用于机器学习，但您也可以将 TensorFlow 用于需要使用数据流图进行数值计算的非机器学习任务。

TensorFlow Playground

#TensorFlow

一款程序，用于可视化不同的超参数对模型（主要是神经网络）训练的影响。若要试用 TensorFlow Playground，请前往 http://playground.tensorflow.org。

TensorFlow Serving

#TensorFlow

一个用于在生产环境中部署经过训练的模型的平台。

张量处理单元 (TPU)

#TensorFlow

#GoogleCloud

一种应用专用集成电路 (ASIC)，可优化机器学习工作负载的性能。这些 ASIC 被部署为 TPU 设备上的多个 TPU 芯片。

张量等级 (Tensor rank)

#TensorFlow

请参阅秩（张量）。

张量形状

#TensorFlow

张量在各种维度中包含的元素数。例如，[5, 10] 张量在另一个维度中的形状为 5，在另一个维度中的形状为 10。

张量大小

#TensorFlow

张量包含的标量总数。例如，[5, 10] 张量的大小为 50。

TensorStore

一个用于高效读取和写入大型多维数组的库。

终止条件

#rl

在强化学习中，用于确定分集何时结束的条件，例如代理达到特定状态或超过阈值状态转换次数。例如，在 tic-tac-toe（也称为“noughts and Crosses”）中，剧集会在玩家标记三个连续空格或标记所有空格时终止。

test

#df

在决策树中，条件的另一个名称。

测试损失

#fundamentals

指标，表示模型在测试集上的损失。构建model时，您通常会尝试最大限度地降低测试损失。这是因为，与较低的训练损失或低验证损失相比，较低测试损失的相关质量信号更强。

卧室数量	浴室数量	房屋存在时间
3	2	15
2	1	72
4	2	34

时间戳	温度
1680561000	10
1680564600	12
1680568200	缺失
1680571800	20
1680575400	21
1680579000	21

如果测试损失与训练损失或验证损失之间存在较大差距，有时表明您需要提高正则化率。

测试集

预留的数据集子集，用于测试经过训练的模型。

按照传统，数据集中的样本分为以下三个不同的子集：

训练集

验证集

一个测试集

数据集中的每个样本应仅属于上述子集之一。例如，一个样本不应同时属于训练集和测试集。

训练集和验证集都与训练模型紧密相关。由于测试集仅与训练间接关联，因此与训练损失或验证损失相比，测试损失偏差偏差较小，质量较高。

文本 span

#language

与文本字符串的特定子部分关联的数组索引 span。例如，Python 字符串 s="Be good now" 中的单词 good 占据从 3 到 6 的文本 span。

tf.Example

#TensorFlow

一种标准协议缓冲区，旨在描述用于机器学习模型训练或推断的输入数据。

tf.keras

#TensorFlow

集成到 TensorFlow 中的 Keras 实现。

阈值（适用于决策树）

#df

在轴对齐条件中，要与特征进行比较的值。例如，75 是以下条件中的阈值：

grade >= 75

这种形式的术语“阈值”不同于“分类阈值”。

时序分析

#clustering

机器学习和统计学的一个子领域，用于分析时态数据。许多类型的机器学习问题都需要时间序列分析，包括分类、聚类、预测和异常检测。例如，您可以使用时间序列分析，根据历史销售数据，预测未来每个月冬季外套的销量。

时间步

#seq

循环神经网络中的一个“展开”单元。例如，下图显示了三个时间步（标记为 t-1、t 和 t+1）：

token

#language

在语言模型中，训练模型并进行预测的原子单元。令牌通常是以下项之一：

单词。例如，短语“dogs like cats”由三个单词令牌组成：“dogs”“like”和“cats”。

字符。例如，短语“bike fish”由 9 个字符标记组成。（请注意，空格会计为一个词元。）

子词 - 单个单词可以是单个词元，也可以是多个词元。子词由根词、前缀或后缀组成。例如，使用子词作为词元的语言模型可能会将“dogs”一词视为两个词法单元（根词“dog”和复数后缀“s”）。同一语言模型可能会将单个单词“taller”视为两个子词（根词“tall”和后缀“er”）。

在语言模型之外的领域中，词元可以表示其他类型的原子单元。例如，在计算机视觉中，令牌可能是图片的子集。

塔

深度神经网络的一个组件，本身就是深度神经网络。在某些情况下，每个塔从独立的数据源读取数据，并且在它们的输出合并到最后一层之前，这些塔保持独立。在其他情况下（例如，在许多 Transformer 的编码器和解码器堆栈/塔中），塔之间相互交叉连接。

TPU

#TensorFlow

#GoogleCloud

张量处理单元的缩写。

TPU 芯片

#TensorFlow

#GoogleCloud

一种具有针对机器学习工作负载优化的片上高带宽内存的可编程线性代数加速器。多个 TPU 芯片部署在 TPU 设备上。

TPU 设备

#TensorFlow

#GoogleCloud

具有多个 TPU 芯片、高带宽网络接口和系统冷却硬件的印刷电路板 (PCB)。

TPU 主进程

#TensorFlow

#GoogleCloud

在宿主机上运行的中央协调过程，用于向 TPU 工作器发送和接收数据、结果、程序、性能和系统运行状况信息。TPU 主实例还负责管理 TPU 设备的设置和关闭。

TPU 节点

#TensorFlow

#GoogleCloud

Google Cloud 上具有特定 TPU 类型的 TPU 资源。TPU 节点从对等 VPC 网络连接到您的 VPC 网络。TPU 节点是在 Cloud TPU API 中定义的资源。

TPU Pod

#TensorFlow

#GoogleCloud

Google 数据中心内的 TPU 设备的特定配置。TPU Pod 中的所有设备都通过专用高速网络相互连接。TPU Pod 是可用于特定 TPU 版本的最大 TPU 设备配置。

TPU 资源

#TensorFlow

#GoogleCloud

您在 Google Cloud 上创建、管理或使用的 TPU 实体。例如，TPU 节点和 TPU 类型是 TPU 资源。

TPU 切片

#TensorFlow

#GoogleCloud

TPU 切片是 TPU Pod 中 TPU 设备的一部分。TPU 切片中的所有设备都通过专用高速网络相互连接。

TPU 类型

#TensorFlow

#GoogleCloud

一个或多个具有特定 TPU 硬件版本的 TPU 设备的配置。在 Google Cloud 上创建 TPU 节点时，您可以选择 TPU 类型。例如，v2-8 TPU 类型是具有 8 个核心的单个 TPU v2 设备。v3-2048 TPU 类型有 256 个联网 TPU v3 设备，总共 2048 个核心。TPU 类型是在 Cloud TPU API 中定义的资源。

TPU 工作器

#TensorFlow

#GoogleCloud

在主机上运行并在 TPU 设备上执行机器学习程序的过程。

训练

#fundamentals

确定构成模型的理想参数（权重和偏差）的过程。在训练期间，系统会读取样本并逐步调整参数。在训练中，每个样本都会使用几次到数十亿次。

训练损失

#fundamentals

一个指标，表示模型在特定训练迭代期间的损失。例如，假设损失函数为均方误差。也许第 10 次迭代的训练损失（均方误差）为 2.2，而第 100 次迭代的训练损失为 1.9。

损失曲线绘制的是训练损失与迭代次数的关系。损失曲线可提供有关训练的以下提示：

向下的斜率表示模型在改进。

如果有一个上升的斜率，则意味着模型在不断变差。

平缓表示模型已达到收敛。

例如，下面在某种程度上进行了一些理想化的损失曲线显示了：

在初始迭代期间有一个陡峭的向下斜坡，这意味着模型可以迅速得到改进。

一个逐渐平缓（但仍在下降）的斜率，直到接近训练结束，这表示以比初始迭代期间更慢的速度继续改进模型。

接近训练结束时的平缓坡，表明收敛。

虽然训练损失很重要，但另请参阅泛化。

训练-应用偏差

#fundamentals

模型在训练期间的性能与同一模型在服务期间的性能之间的差异。

训练集

#fundamentals

用于训练模型的数据集的子集。

通常，数据集中的样本会被划分为以下三个不同的子集：

训练集

验证集

测试集

理想情况下，数据集中的每个样本应仅属于上述子集之一。例如，一个样本不应同时属于训练集和验证集。

轨迹

#rl

在强化学习中，这是表示代理的一系列状态转换的一系列元组，其中每个元组对应于给定状态转换的状态、操作、奖励和下一个状态。

迁移学习

将信息从一个机器学习任务转移到另一个机器学习任务。例如，在多任务学习中，一个模型可以完成多项任务，例如针对不同任务具有不同输出节点的深度模型。迁移学习可能涉及将知识从较简单任务的解决方案迁移到更复杂的任务，或者将知识从数据较多的任务迁移到数据较少的任务中。

大多数机器学习系统只能完成一项任务。迁移学习是迈向人工智能的一个婴儿一步，让一个程序可以解决多个任务。

Transformer

#language

Google 开发的神经网络架构，依靠自注意力机制将一系列输入嵌入转换为一系列输出嵌入，而无需依赖卷积或循环神经网络。Transformer 可以看作是一组自注意力层。

Transformer 可以包含以下任意内容：

一个编码器

解码器

编码器和解码器

编码器将一系列嵌入转换为长度相同的新序列。编码器包含 N 个完全相同的层，每个层包含两个子层。这两个子层应用于输入嵌入序列的每个位置，将序列中的每个元素转换为新的嵌入。第一个编码器子层聚合来自整个输入序列的信息。第二个编码器子层将聚合信息转换为输出嵌入。

解码器将输入嵌入序列转换为长度可能不同的输出嵌入序列。解码器还包含 N 个完全相同的层，其中包含三个子层，其中两个类似于编码器子层。第三个解码器子层会获取编码器的输出，并应用自注意力机制从中收集信息。

博文 Transformer：一种新的语言理解神经网络架构对 Transformer 进行了很好的介绍。

平移不变性

#image

在图像分类问题中，即使图像中对象的位置发生变化，算法也能成功对图像进行分类。例如，无论狗是位于画面的中心还是画面的左端，该算法仍然可以识别它。

另请参阅大小不变性和旋转不变性。

三元语法

#seq

#language

一种 N 元语法，其中 N=3。

真负例 (TN)

#fundamentals

模型正确预测负类别的一个示例。例如，模型推断出某封电子邮件不是垃圾邮件，而该电子邮件确实不是垃圾邮件。

正例 (TP)

#fundamentals

模型正确预测正类别的示例。例如，模型推断出某封电子邮件是垃圾邮件，而该电子邮件确实是垃圾邮件。

真正例率 (TPR)

#fundamentals

与召回率的含义相同。具体来说：

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真正例率是 ROC 曲线的 y 轴。

U

不了解（对敏感特性）

#fairness

存在敏感属性存在，但训练数据中不包含的情况。由于敏感属性通常与数据的其他属性相关联，因此在不知道敏感属性的情况下训练的模型可能仍会对该属性产生截然不同的影响，或违反其他公平性限制。

欠拟合

#fundamentals

生成预测能力较差的模型model，因为模型尚未充分掌握训练数据的复杂性。许多问题都可能会导致欠拟合，包括：

用错误的特征集进行训练。

训练的周期过少或学习速率过低。

使用过高的正则化率进行训练。

在深度神经网络中提供的隐藏层过少。

欠采样

从分类不平衡的数据集的多数类中移除样本，以创建更平衡的训练集。

例如，假设有一个数据集，其中多数类与少数类的比率为 20:1。为了克服类别不平衡问题，您可以创建一个训练集，其中包含所有少数类样本，但仅包含多数类别样本的十分之一，这样就会创建一个 2:1 的训练集类别比率。由于欠采样，这个更均衡的训练集可能会生成更好的模型。或者，这个更均衡的训练集可能包含没有足够的样本来训练有效模型。

与过采样相对。

单向

#language

一种系统，只评估文本目标部分前面的文本。相比之下，双向系统会同时评估文本目标部分之前和之后的文本。如需了解详情，请参阅双向。

单向语言模型

#language

一种语言模型，其概率仅基于在目标词法单元之前（而不是之后）显示的词法单元。与双向语言模型相对。

无标签样本

#fundamentals

包含特征但没有标签的示例。例如，下表显示了房屋估价模型的三个无标签样本，每个样本都有三个特征，但没有房屋价值：

卧室数量浴室数量房屋存在时间

3 2 15

2 1 72

4 2 34

在监督式机器学习中，模型使用有标签样本进行训练，并使用无标签样本进行预测。

在半监督和非监督式学习中，无标签样本在训练过程中使用。

将无标签样本与有标签样本进行对比。

非监督式机器学习

#clustering

#fundamentals

训练模型model，以找出数据集（通常是无标签数据集）中的规律。

非监督式机器学习最常见的用途是将数据聚类为类似的样本组。例如，非监督式机器学习算法可以根据音乐的各种属性对歌曲进行聚类。生成的聚类可以作为其他机器学习算法（例如音乐推荐服务）的输入。当有用的标签不足或缺失时，聚类会有所帮助。例如，在反滥用和反欺诈等领域，聚类有助于人们更好地了解数据。

与监督式机器学习相对。

点击该图标可查看其他备注。

非监督式机器学习的另一个例子是主成分分析 (PCA)。例如，通过对包含数百万购物车内物品的数据集进行主成分分析，可能会发现包含柠檬的购物车通常也含有抗酸药。

根据模型估算提升幅度

一种在营销中常用的建模技术，可针对某种“治疗”对“个体”的“因果效应”（也称为“增量影响”）进行建模。以下是两个示例：

医生可以利用提升建模，根据患者（个体）的年龄和医疗记录来预测手术（治疗）的死亡率降低情况（因果效应）。

营销者可以使用提升情况建模来预测因人（个体）看到的广告（实验组）而提高购买几率（因果效应）。

效果提升建模与分类或回归的不同之处在于，提升建模中始终会缺少某些标签（例如，二元处理方法中的一半标签）。例如，患者有可能接受治疗，也可能不接受治疗；因此，我们只能在上述两种情况中，仅观察患者是否能够治愈。提升模型的主要优势在于，它可以针对未观察到的情况（反事实）生成预测，并使用该模型计算因果效应。

权重上调

向降采样的类别应用一个权重，该权重等于降采样所依据的系数。

用户矩阵

#recsystems

在推荐系统中，由矩阵分解生成的嵌入向量，用于保存有关用户偏好的潜在信号。用户矩阵的每一行都包含单个用户的各种潜在信号的相对强度的信息。以电影推荐系统为例。在该系统中，用户矩阵中的潜在信号可能表示每个用户对特定类型的兴趣，也可能是更难以解读的信号，其中涉及到多种因素的复杂互动。

在用户矩阵中，每个潜在特征对应一行，每个用户对应一行。也就是说，用户矩阵与要进行分解的目标矩阵具有相同的行数。例如，假设某个电影推荐系统有 100 万位用户，用户矩阵将有 100 万行数据。

V

validation

#fundamentals

对模型质量的初始评估。验证功能会根据验证集检查模型的预测结果质量。

由于验证集与训练集不同，因此验证有助于防止过拟合。

您可以考虑将根据验证集评估模型作为第一轮测试，而根据测试集评估模型，将其作为第二轮测试。

验证损失

#fundamentals

一个指标，表示模型在训练的特定迭代期间在验证集上的损失。

另请参阅泛化曲线。

验证集

#fundamentals

数据集的一部分，用于对经过训练的模型执行初始评估。通常，您会基于验证集多次评估经过训练的模型，然后再根据测试集评估模型。

按照传统，您可以将数据集内的样本划分为以下三个不同的子集：

训练集

验证集

测试集

理想情况下，数据集中的每个样本应仅属于上述子集之一。例如，一个样本不应同时属于训练集和验证集。

价值插补

将缺失值替换为可接受的替代值的过程。如果缺少值，您可以舍弃整个示例，也可以使用值插补来挽回示例。

例如，假设一个数据集包含理应每小时记录一次的 temperature 特征。但特定小时没有温度读数。以下是数据集的一部分：

时间戳温度

1680561000 10

1680564600 12

1680568200 缺失

1680571800 20

1680575400 21

1680579000 21

系统可以删除缺失的样本，或者将缺失温度推断为 12、16、18 或 20，具体取决于插补算法。

梯度消失问题

#seq

某些深度神经网络的早期隐藏层的梯度趋势变得非常平坦（低）。逐渐降低的梯度会导致深度神经网络中节点上的权重变化越来越小，从而导致学习很少或根本没有学习。遇到梯度消失问题的模型难以训练或无法训练。Long Short-Term Memory 单元格可解决此问题。

与梯度爆炸问题相对。

变量重要性

#df

一组得分，表示每个特征对模型的相对重要性。

例如，假设某个决策树会估算房价。假设此决策树使用三个特征：尺寸、年龄和风格。如果三个特征的一组可变重要性计算为 {size=5.8, age=2.5, style=4.7}，则尺寸对决策树比年龄或样式更重要。

存在不同的可变重要性指标，这些指标可以让机器学习专家了解模型的不同方面。

变分自编码器 (VAE)

#language

一种自动编码器，可利用输入和输出之间的差异来生成经过修改的输入版本。变分自动编码器对于生成式 AI 非常有用。

VAE 基于变分推断，这是一种估算概率模型参数的方法。

vector

非常多的术语，其含义因数学和科学领域而异。在机器学习中，向量有两个属性：

数据类型：机器学习中的向量通常存储浮点数。

元素数：这是矢量的长度或尺寸。

例如，假设某个特征向量包含 8 个浮点数。此特征向量的长度或维度为 8。请注意，机器学习向量通常具有大量的维度。

您可以将许多不同类型的信息表示为向量。例如：

地球表面的任何位置都可以表示为二维矢量，其中一个维度是纬度，另一个维度是经度。

每 500 只股票的当前价格可以表示为一个 500 维矢量。

有限数量的类别的概率分布可以表示为向量。例如，预测三种输出颜色（红色、绿色或黄色）中的一种的多类别分类系统可以输出矢量 (0.3, 0.2, 0.5) 来表示 P[red]=0.3, P[green]=0.2, P[yellow]=0.5。

各个向量可以串联起来；因此，各种不同的媒体都可以表示为一个向量。某些模型可直接在多种独热编码的串联上运行。

TPU 等专用处理器已经过优化，可对向量执行数学运算。

向量是秩为 1 的张量。

西

Wasserstein 损失

生成对抗网络中常用的损失函数之一，基于生成的数据分布与真实数据之间的地球移动者距离。

权重

#fundamentals

模型乘以另一个值的值。训练是确定模型理想权重的过程；推断是使用这些已学到的权重进行预测的过程。

点击该图标即可查看线性模型中的权重示例。

假设某个线性模型包含两个特征。假设训练确定以下权重（和偏差）：

偏差 b 的值为 2.2

与一个特征相关联的权重 w₁ 为 1.5。

与另一个特征相关联的权重 w₂ 为 0.4。

现在，假设一个具有以下特征值的示例：

一个特征 x₁ 的值为 6。

另一个特征 x₂ 的值为 10。

该线性模型使用以下公式生成预测值 y'：

$$y' = b + w_1x_1 + w_2x_2$$

因此，预测结果为：

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

如果权重为 0，则相应特征对模型没有任何贡献。例如，如果 w₁ 为 0，则 x₁ 的值不相关。

加权交替最小二乘 (WALS)

#recsystems

一种算法，用于在推荐系统中进行矩阵分解期间最大限度减小目标函数，允许对缺失的样本进行降权重。WALS 交替修复行分解和列分解，可最大限度地减小原始矩阵和重构矩阵之间的加权平方误差。这些优化中的每一项优化都可以通过最小二乘凸优化来实现。如需了解详情，请参阅推荐系统课程。

加权和

#fundamentals

所有相关输入值的总和乘以其对应的权重。例如，假设相关输入包含以下内容：

输入值输入权重

2 -1.3

-1 0.6

3 0.4

因此，加权和为：

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加权和是激活函数的输入参数。

宽度模型

一种线性模型，通常具有许多稀疏输入特征。我们之所以称其为“宽度模型”，是因为这种模型是一种特殊类型的神经网络，有大量输入直接连接到输出节点。与深度模型相比，宽模型通常更易于调试和检查。虽然宽模型无法通过隐藏层表示非线性关系，但宽度模型可以使用特征组合和分桶等转换以不同的方式对非线性关系建模。

与深度模型相对。

宽度

神经网络的特定层中的神经元数量。

群众的智慧

#df

平均分配大量人（“人群”）的意见或估计往往可以产生出乎意料的出色结果。例如，假设有一个游戏，玩家猜测包装在一个大罐子中的果冻豆的数量。虽然大多数猜测都不准确，但根据经验表明，所有猜测的平均值与罐中的实际果冻豆数量十分接近。

Ensembles 是对人群智慧的模拟。即使单个模型所做的预测非常不准确，将许多模型的预测结果取平均值往往也会生成出人意料的好预测。例如，虽然单个决策树的预测结果可能很差，但决策森林通常可以做出非常准确的预测。

词嵌入

#language

在嵌入向量内表示字词集中的每个字词；也就是说，将每个字词表示为一个介于 0.0 到 1.0 之间的浮点值的向量。含义相似的字词比含义不同的字词具有更多类似的表示法。例如，carrots、celery 和 cucumbers 的表示法都相对相似，而 airplane、sunglasses 和 toothpaste 的表示法截然不同。

X

XLA（加速线性代数）

适用于 GPU、CPU 和机器学习加速器的开源机器学习编译器。

XLA 编译器从 PyTorch、TensorFlow 和 JAX 等热门机器学习框架获取模型，并对其进行优化，以便在不同的硬件平台（包括 GPU、CPU 和机器学习加速器）上实现高性能执行。

Z

零样本学习

一种机器学习训练，其中模型针对尚未专门训练完成的任务推断预测。换句话说，模型没有获得任何针对特定任务的训练样本，但需要对相应任务进行推断。

零样本提示

#language

#生成式 AI

一个提示，并未提供您希望大语言模型如何响应的示例。例如：

一个提示的组成部分	备注
`指定国家/地区的官方货币是什么？`	你希望 LLM 回答的问题。
`印度`：	实际查询。

大型语言模型可能会提供以下任何响应：

卢比符号
INR
₹
印度卢比
卢比
印度卢比

以上答案都正确，不过您可能更希望使用某种格式。

使用以下术语来比较和对比零样本提示：

单样本提示
小样本提示

Z-score 标准化

#fundamentals

一种缩放技术，将原始特征值替换为浮点值，该浮点值表示与特征的平均值之间的标准差数。例如，假设某个特征的平均值为 800，标准差为 100。下表显示了 Z 分数归一化如何将原始值映射到其 Z 分数：

原始值	Z-score
800	0
950	提升了 1.5
575	-2.25

然后，机器学习模型会根据该特征的 Z 分数（而不是原始值）进行训练。