此页面由 Cloud Translation API 翻译。

机器学习术语表：机器学习基础知识

本页包含机器学习基础知识术语表中的术语。如需查看所有术语，请点击此处。

A

准确性

#fundamentals

#Metric

正确的分类预测数量除以预测总数。具体来说：

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如，如果某个模型做出了 40 次正确预测和 10 次错误预测，那么其准确率为：

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分类为不同类别的正确预测和错误预测提供了具体名称。因此，二元分类的准确率公式如下：

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中：

TP 是真正例（正确预测）的数量。
TN 是真负例（正确预测）的数量。
FP 是假正例（不正确的预测）的数量。
FN 是假负例（不正确的预测）的数量。

比较和对比准确率与精确率和召回率。

点击相应图标可详细了解准确率和分类不平衡的数据集。

虽然在某些情况下，准确率是一个很有价值的指标，但在其他情况下，它却极具误导性。值得注意的是，对于处理分类不平衡的数据集的分类模型，准确率通常不是一个好的评估指标。

例如，假设某个亚热带城市每 100 年只下 25 天雪。由于无雪天数（负类）远多于有雪天数（正类），因此该城市的降雪数据集属于类别不平衡的数据集。假设有一个二元分类模型，它本应预测每天是否会下雪，但实际上每天都只预测“不会下雪”。此模型非常准确，但没有预测能力。下表总结了一个世纪的预测结果：

类别	数字
TP	0
TN	36499
FP	0
FN	25

因此，此模型的准确率为：

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

虽然 99.93% 的准确率看起来非常高，但实际上该模型没有任何预测能力。

对于在类别不平衡的数据集上训练的模型，精确率和召回率通常比准确率更有用。

如需了解详情，请参阅机器学习速成课程中的分类：准确率、召回率、精确率和相关指标。

激活函数

#fundamentals

一种使神经网络能够学习特征与标签之间非线性（复杂）关系的函数。

常用的激活函数包括：

ReLU
Sigmoid

激活函数的图从不是单条直线。例如，ReLU 激活函数的图由两条直线组成：

包含两条线的直角坐标曲线图。第一条线的 y 值恒定为 0，沿 x 轴从 -infinity,0 延伸到 0,-0。
第二行的起始位置为 0,0。此线的斜率为 +1，因此它从 0,0 延伸到 +infinity,+infinity。

Sigmoid 激活函数的图如下所示：

一个二维曲线图，x 值范围为负无穷大到正无穷大，而 y 值范围为接近 0 到接近 1。当 x 为 0 时，y 为 0.5。曲线的斜率始终为正，在 0 和 0.5 处斜率最高，随着 x 的绝对值增加，斜率逐渐减小。

点击相应图标即可查看示例。

在神经网络中，激活函数会处理神经元的所有输入的加权和。为了计算加权和，神经元会将相关值和权重的乘积相加。例如，假设某个神经元的相关输入包含以下内容：

输入值	输入权重
2	-1.3
-1	0.6
3	0.4

因此，加权和为：

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

假设此神经网络的设计者选择 sigmoid 函数作为激活函数。在这种情况下，神经元会计算 -2.0 的 sigmoid，结果约为 0.12。因此，神经元会将 0.12（而非 -2.0）传递到神经网络中的下一层。下图演示了该流程的相关部分：

如需了解详情，请参阅机器学习速成课程中的神经网络：激活函数。

人工智能

#fundamentals

能够解决复杂任务的非人类程序或模型。例如，翻译文本的程序或模型，以及根据放射影像识别疾病的程序或模型都展现出了人工智能。

从形式上讲，机器学习是人工智能的一个子领域。不过，近年来，一些组织开始交替使用人工智能和机器学习这两个术语。

AUC（ROC 曲线下面积）

#fundamentals

#Metric

一个介于 0.0 和 1.0 之间的数字，表示二元分类模型区分正类别和负类别的能力。 AUC 越接近 1.0，模型区分不同类别的能力就越好。

例如，下图显示了一个完美区分正类别（绿色椭圆）和负类别（紫色矩形）的分类模型。这个不切实际的完美模型的 AUC 为 1.0：

一条数轴，一侧有 8 个正例，另一侧有 9 个负例。

相反，下图显示了生成随机结果的分类模型的结果。此模型的 AUC 为 0.5：

一条数轴，上面有 6 个正例和 6 个负例。
示例序列为正、负、正、负、正、负、正、负、正、负、正、负。

是的，上述模型的 AUC 为 0.5，而不是 0.0。

大多数模型都介于这两个极端之间。例如，以下模型在一定程度上区分了正例和负例，因此其 AUC 介于 0.5 和 1.0 之间：

一条数轴，上面有 6 个正例和 6 个负例。
示例序列为负、负、负、负、正、负、正、正、负、正、正、正。

AUC 会忽略您为分类阈值设置的任何值。相反，AUC 会考虑所有可能的分类阈值。

点击该图标可了解 AUC 与 ROC 曲线之间的关系。

AUC 表示 ROC 曲线下的面积。例如，可完美区分正例和负例的模型的 ROC 曲线如下所示：

AUC 是上图中的灰色区域的面积。在这种特殊情况下，面积就是灰色区域的长度 (1.0) 乘以灰色区域的宽度 (1.0)。因此，1.0 与 1.0 的乘积得到的曲线下面积正好是 1.0，这是最高的曲线下面积得分。

相反，完全无法区分类别的分类模型的 ROC 曲线如下所示。此灰色区域的面积为 0.5。

更典型的 ROC 曲线大致如下所示：

手动计算此曲线下的面积非常费力，因此通常由程序计算大多数 AUC 值。

点击相应图标可查看 AUC 的更正式定义。

AUC 是指分类模型认为随机选择的正例确实为正的概率高于随机选择的负例为正的概率。

如需了解详情，请参阅机器学习速成课程中的分类：ROC 和 AUC。

B

反向传播

#fundamentals

在神经网络中实现梯度下降的算法。

训练神经网络需要多次迭代以下双向传递周期：

在前向传递期间，系统会处理一个包含示例的批次，以生成预测结果。系统会将每个预测值与每个标签值进行比较。预测值与标签值之间的差值就是相应示例的损失。系统会汇总所有示例的损失，以计算当前批次的总损失。
在反向传递（反向传播）期间，系统会通过调整所有隐藏层中所有神经元的权重来减少损失。

神经网络通常包含多个隐藏层中的许多神经元。每个神经元以不同的方式影响总体损失。反向传播会确定是增加还是减少应用于特定神经元的权重。

学习速率是一种乘数，用于控制每次向后传递时每个权重增加或减少的程度。与较小的学习速率相比，较大的学习速率会更大幅度地增加或减少每个权重。

从微积分的角度来看，反向传播实现了微积分中的链式法则。也就是说，反向传播会计算误差相对于每个形参的偏导数。

多年前，机器学习从业者必须编写代码才能实现反向传播。Keras 等现代机器学习 API 现在会为您实现反向传播。好，

如需了解详情，请参阅机器学习速成课程中的神经网络。

批处理

#fundamentals

一次训练迭代中使用的示例集。批次大小决定了一个批次中的样本数量。

如需了解批次与周期之间的关系，请参阅周期。

如需了解详情，请参阅机器学习速成课程中的线性回归：超参数。

批次大小

#fundamentals

一个批次中的样本数量。例如，如果批次大小为 100，则模型在每次迭代中处理 100 个样本。

以下是常用的批次大小策略：

随机梯度下降法 (SGD)，其中批次大小为 1。
完整批次，其中批次大小为整个训练集中的样本数量。例如，如果训练集包含 100 万个样本，则批次大小为 100 万个样本。完整批次通常是一种低效的策略。
小批次，其中批次大小通常介于 10 到 1000 之间。小批次通常是最有效的策略。

请参阅以下内容了解详细信息：

生产环境机器学习系统：静态推理与动态推理（机器学习速成课程）。
《深度学习调优指南》。

偏差（道德/公平性）

#responsible

#fundamentals

1. 对某些事物、人或群体有刻板印象、偏见或偏袒。这些偏差会影响数据的收集和解读、系统设计以及用户与系统的互动方式。此类偏差的形式包括：

2. 采样或报告过程中引入的系统性误差。此类偏差的形式包括：

请勿与机器学习模型中的偏差项或预测偏差混淆。

如需了解详情，请参阅机器学习速成课程中的公平性：偏差类型。

偏差（数学概念）或偏差项

#fundamentals

距离原点的截距或偏移。偏差是机器学习模型中的一个形参，可用以下任一符号表示：

b
w₀

例如，在下面的公式中，偏差为 b：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在简单的二维直线中，偏差只是指“y 轴截距”。例如，下图中的直线的偏差为 2。

斜率为 0.5、偏差（y 轴截距）为 2 的直线图。

之所以存在偏差，是因为并非所有模型都从原点 (0,0) 开始。例如，假设某游乐园的门票为 2 欧元，客户每停留 1 小时需额外支付 0.5 欧元。因此，映射总费用的模型具有 2 的偏差，因为最低费用为 2 欧元。

请勿将偏差与道德和公平性偏差或预测偏差混淆。

如需了解详情，请参阅机器学习速成课程中的线性回归。

二元分类

#fundamentals

一种分类任务，用于预测两个互斥的类别之一：

正类别
负类别

例如，以下两个机器学习模型都执行二元分类：

一种用于确定电子邮件是垃圾邮件（正类别）还是非垃圾邮件（负类别）的模型。
一种评估医疗症状以确定某人是否患有特定疾病（正类别）的模型。

与多类别分类相对。

另请参阅逻辑回归和分类阈值。

如需了解详情，请参阅机器学习速成课程中的分类。

分桶

#fundamentals

将单个特征转换为多个二元特征（称为桶或箱），通常根据值区间进行转换。截断的特征通常是连续特征。

例如，您可以将温度范围划分为离散的区间，而不是将温度表示为单个连续的浮点特征，例如：

<= 10 摄氏度为“寒冷”区间。
11-24 摄氏度为“温带”区间。
>= 25 摄氏度为“温暖”区间。

模型将以相同方式处理同一分桶中的每个值。例如，值 13 和 22 都位于温和型分桶中，因此模型会以相同的方式处理这两个值。

点击相应图标可查看其他备注。

如果您将温度表示为连续特征，则模型会将温度视为单个特征。如果您将温度表示为三个分桶，那么模型会将每个分桶视为一个单独的特征。也就是说，模型可以学习每个分桶与标签的单独关系。例如，线性回归模型可以为每个分桶学习单独的权重。

增加分桶数量会增加模型必须学习的关系数量，从而使模型更加复杂。例如，冷、温和暖这三个区间实际上是模型可用于训练的三个单独特征。如果您决定再添加两个分桶（例如，冷冻和热），那么模型现在必须基于五个单独的特征进行训练。

您如何知道要创建多少个分桶，或者每个分桶的范围应该是多少？这些问题的答案通常需要进行大量实验。

如需了解详情，请参阅机器学习速成课程中的数值数据：分箱。

C

分类数据

#fundamentals

特征，拥有一组特定的可能值。例如，假设有一个名为 traffic-light-state 的分类特征，该特征只能具有以下三个可能值之一：

red
yellow
green

通过将 traffic-light-state 表示为分类特征，模型可以了解 red、green 和 yellow 对驾驶员行为的不同影响。

分类特征有时称为离散特征。

与数值数据相对。

如需了解详情，请参阅机器学习速成课程中的处理分类数据。

类别

#fundamentals

标签可以所属的类别。例如：

在检测垃圾邮件的二元分类模型中，这两个类别可能是垃圾邮件和非垃圾邮件。
在识别犬种的多类别分类模型中，类别可能是贵宾犬、比格犬、巴哥犬等。

分类模型可预测类别。相比之下，回归模型预测的是数字，而不是类别。

如需了解详情，请参阅机器学习速成课程中的分类。

分类模型

#fundamentals

预测结果为类别的模型。例如，以下都是分类模型：

一个模型，用于预测输入句子的语言（法语？西班牙语？意大利语？）。
一个模型，用于预测树种（枫树？橡树？猴面包树？）。
用于预测特定医疗状况是阳性还是阴性的模型。

相比之下，回归模型预测的是数字，而不是类别。

以下是两种常见的分类模型：

二元分类
多类别分类

分类阈值

#fundamentals

在二元分类中，一个介于 0 到 1 之间的数字，用于将逻辑回归模型的原始输出转换为正类别或负类别的预测结果。请注意，分类阈值是人为选择的值，而不是通过模型训练选择的值。

逻辑回归模型会输出一个介于 0 到 1 之间的原始值。然后，执行以下操作：

如果此原始值大于分类阈值，则预测为正类别。
如果此原始值小于分类阈值，则预测为负类。

例如，假设分类阈值为 0.8。如果原始值为 0.9，则模型预测为正类别。如果原始值为 0.7，则模型预测为负类别。

分类阈值的选择会严重影响假正例和假负例的数量。

点击相应图标可查看其他备注。

随着模型或数据集的演变，工程师有时也会更改分类阈值。当分类阈值发生变化时，正类预测可能会突然变成负类，反之亦然。

例如，假设有一个二元分类疾病预测模型。假设系统在第一年运行时：

某位患者的原始值为 0.95。
分类阈值为 0.94。

因此，系统会诊断出正类别。（患者倒吸一口气，“糟糕！I'm sick!"）

一年后，这些值可能如下所示：

同一患者的原始值仍为 0.95。
分类阈值更改为 0.97。

因此，系统现在会将该患者重新归类为负类。（“快乐的一天！I'm not sick."）同一患者。不同的诊断。

如需了解详情，请参阅机器学习速成课程中的阈值和混淆矩阵。

分类器

#fundamentals

分类模型的非正式术语。

类别不平衡的数据集

#fundamentals

一种分类的数据集，其中每个类的总标签数量差异很大。例如，假设有一个二元分类数据集，其两个标签的划分如下所示：

100 万个负值标签
10 个正值标签

负标签与正标签的比率为 100,000 比 1，因此这是一个分类不平衡的数据集。

相比之下，以下数据集是类别平衡的，因为负标签与正标签的比率相对接近 1：

517 个负值标签
483 个正值标签

多类别数据集也可能存在类别不平衡问题。例如，以下多类别分类数据集也存在类别不平衡问题，因为一个标签的示例数量远多于其他两个标签：

1,000,000 个标签，类别为“绿色”
200 个标签，类别为“紫色”
350 个带有“橙色”类别的标签

训练类别不平衡的数据集可能会带来特殊挑战。如需了解详情，请参阅机器学习速成课程中的不平衡的数据集。

另请参阅熵、多数类和少数类。

裁剪

#fundamentals

一种处理离群值的方法，通过执行以下一项或两项操作来实现：

将大于最大阈值的特征值减小到该最大阈值。
将小于最小阈值的特征值增加到该最小阈值。

例如，假设某个特定特征的值中只有不到 0.5% 不在 40-60 的范围内。在这种情况下，您可以执行以下操作：

将超过 60（最大阈值）的所有值裁剪到正好 60。
将小于 40（最低阈值）的所有值裁剪到正好 40。

离群值可能会损坏模型，有时会导致训练期间权重溢出。某些离群值也可能会严重影响准确率等指标。剪切是一种限制损坏的常用技术。

梯度裁剪可在训练期间强制使梯度值位于指定范围内。

如需了解详情，请参阅机器学习速成课程中的数值数据：归一化。

混淆矩阵

#fundamentals

一种 NxN 表格，用于总结分类模型做出的正确和错误预测的数量。例如，假设某个二元分类模型的混淆矩阵如下所示：

	肿瘤（预测）	非肿瘤（预测）
肿瘤（标准答案）	18 (TP)	1 (FN)
非肿瘤（标准答案）	6（FP）	452（突尼斯）

上述混淆矩阵显示了以下内容：

在 19 个标准答案为“肿瘤”的预测中，模型正确分类了 18 个，错误分类了 1 个。
在标准答案为“非肿瘤”的 458 次预测中，模型正确分类了 452 次，错误分类了 6 次。

多类别分类问题的混淆矩阵可帮助您发现错误模式。例如，假设有一个 3 类多类分类模型，用于对三种不同的鸢尾花类型（维吉尼亚鸢尾、变色鸢尾和山鸢尾）进行分类，那么该模型的混淆矩阵如下所示。当标准答案为 Virginica 时，混淆矩阵显示，模型更有可能错误地预测为 Versicolor，而不是 Setosa：

	Setosa（预测）	Versicolor（预测）	Virginica（预测）
Setosa（标准答案）	88	12	0
Versicolor（标准答案）	6	141	7
Virginica（标准答案）	2	27	109

再举一个例子，某个混淆矩阵可以揭示，经过训练以识别手写数字的模型往往会将 4 错误地预测为 9，或者将 7 错误地预测为 1。

混淆矩阵包含足够的信息来计算各种效果指标，包括精确率和召回率。

连续特征

#fundamentals

一种浮点特征，具有无限范围的可能值，例如温度或体重。

与离散特征相对。

收敛

#fundamentals

当损失值在每次迭代中的变化非常小或根本没有变化时，即达到收敛状态。例如，以下损失曲线表明模型在大约 700 次迭代时收敛：

笛卡尔图。X 轴是损失。Y 轴是训练迭代次数。在前几次迭代中，损失非常高，但随后急剧下降。在大约 100 次迭代后，损失仍在下降，但下降速度要慢得多。在大约 700 次迭代后，损失保持不变。

如果继续训练无法改进模型，则表示模型已收敛。

在深度学习中，损失值有时会在许多次迭代中保持不变或几乎不变，然后才会最终下降。在损失值长期保持不变的情况下，您可能会暂时产生错误的收敛感。

另请参阅早停法。

如需了解详情，请参阅机器学习速成课程中的模型收敛和损失曲线。

D

DataFrame

#fundamentals

一种热门的 pandas 数据类型，用于表示内存中的数据集。

DataFrame 类似于表格或电子表格。DataFrame 的每一列都有一个名称（标题），每一行都由一个唯一编号标识。

DataFrame 中的每一列都以二维数组的形式构建，但每一列都可以分配自己的数据类型。

另请参阅官方 pandas.DataFrame 参考页面。

数据集（data set 或 dataset）

#fundamentals

原始数据的集合，通常（但不一定）以以下格式之一进行整理：

电子表格
采用 CSV（逗号分隔值）格式的文件

深度模型

#fundamentals

包含多个隐藏层的神经网络。

深度模型也称为深度神经网络。

与宽度模型相对。

密集特征

#fundamentals

一种特征，其中大多数或所有值都不为零，通常是浮点值的 Tensor。例如，以下 10 元素张量是密集张量，因为其中 9 个值不为零：

与稀疏特征相对。

深度

#fundamentals

神经网络中以下各项的总和：

隐藏层的数量
输出层的数量（通常为 1）
任何嵌入层的数量

例如，具有 5 个隐藏层和 1 个输出层的神经网络的深度为 6。

请注意，输入层不会影响深度。

离散特征

#fundamentals

一种特征，包含有限个可能值。例如，值可能仅为 animal、vegetable 或 mineral 的特征是离散（或分类）特征。

与连续特征相对。

动态

#fundamentals

经常或持续做的事情。在机器学习中，“动态”和“在线”是同义词。以下是机器学习中动态和在线的常见用途：

动态模型（或在线模型）是一种会频繁或持续重新训练的模型。
动态训练（或在线训练）是指频繁或持续的训练过程。
动态推理（或在线推理）是指根据需要生成预测的过程。

动态模型

#fundamentals

一种经常（甚至持续）重新训练的模型。动态模型是“终身学习者”，会不断适应不断变化的数据。动态模型也称为在线模型。

与静态模型相对。

E

早停法

#fundamentals

一种正则化方法，涉及在训练损失停止下降之前结束训练。在早停法中，当验证数据集的损失开始增加时（即泛化性能变差时），您会故意停止训练模型。

点击相应图标可查看其他备注。

早停法可能看起来有悖直觉。毕竟，在损失仍在减少时让模型停止训练，可能就像让厨师在甜点完全烤好之前停止烹饪一样。不过，训练模型的时间过长可能会导致过拟合。也就是说，如果您训练模型的时间过长，模型可能会与训练数据过于拟合，以至于无法对新样本做出良好的预测。

与提前退出相对。

嵌入层

#fundamentals

一种特殊的隐藏层，可针对高维分类特征进行训练，以逐步学习低维嵌入向量。与仅基于高维分类特征进行训练相比，嵌入层可让神经网络的训练效率大幅提高。

例如，地球目前支持约 73,000 种树。假设树种是模型中的一个特征，那么模型的输入层将包含一个长度为 73,000 的独热向量。例如，baobab 可能会以如下方式表示：

一个包含 73,000 个元素的数组。前 6,232 个元素的值为 0。下一个元素的值为 1。最后 66,767 个元素的值为零。

包含 73,000 个元素的数组非常长。如果您不向模型添加嵌入层，则由于要乘以 72,999 个零，训练将非常耗时。假设您选择的嵌入层包含 12 个维度。因此，嵌入层将逐渐学习每种树木的新嵌入向量。

在某些情况下，哈希处理是嵌入层的合理替代方案。

如需了解详情，请参阅机器学习速成课程中的嵌入。

周期数

#fundamentals

在训练时，对整个训练集的一次完整遍历，不会漏掉任何一个样本。

一个周期表示 N/批次大小次训练迭代，其中 N 是样本总数。

例如，假设存在以下情况：

该数据集包含 1,000 个示例。
批次大小为 50 个样本。

因此，一个周期需要 20 次迭代：

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

如需了解详情，请参阅机器学习速成课程中的线性回归：超参数。

示例

#fundamentals

一行特征的值，可能还包含一个标签。监督式学习中的示例大致分为两类：

有标签样本包含一个或多个特征和一个标签。在训练期间使用有标签的示例。
无标签样本包含一个或多个特征，但不包含标签。在推理期间会使用无标签样本。

例如，假设您正在训练一个模型，以确定天气条件对学生考试成绩的影响。以下是三个带标签的示例：

功能			标签
温度	湿度	压力	测试分数
15	47	998	良好
19	34	1020	极佳
18	92	1012	差

以下是三个未标记的示例：

温度	湿度	压力
12	62	1014
21	47	1017
19	41	1021

数据集的行通常是示例的原始来源。也就是说，一个示例通常由数据集中的一部分列组成。此外，示例中的特征还可以包括合成特征，例如特征交叉。

如需了解详情，请参阅“机器学习简介”课程中的监督式学习。

F

假负例 (FN)

#fundamentals

#Metric

被模型错误地预测为负类别的样本。例如，模型预测某封电子邮件不是垃圾邮件（负类别），但该电子邮件实际上是垃圾邮件。

假正例 (FP)

#fundamentals

#Metric

被模型错误地预测为正类别的样本。例如，模型预测某封电子邮件是垃圾邮件（正类别），但该电子邮件实际上不是垃圾邮件。

如需了解详情，请参阅机器学习速成课程中的阈值和混淆矩阵。

假正例率 (FPR)

#fundamentals

#Metric

模型错误地将实际负例预测为正例的比例。以下公式用于计算假正例率：

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

假正例率是 ROC 曲线的 x 轴。

如需了解详情，请参阅机器学习速成课程中的分类：ROC 和 AUC。

功能

#fundamentals

机器学习模型的输入变量。一个示例包含一个或多个特征。例如，假设您正在训练一个模型，以确定天气条件对学生考试成绩的影响。下表显示了三个示例，每个示例都包含三个特征和一个标签：

功能			标签
温度	湿度	压力	测试分数
15	47	998	92
19	34	1020	84
18	92	1012	87

与标签相对。

如需了解详情，请参阅“机器学习简介”课程中的监督式学习。

特征组合

#fundamentals

通过“组合”分类或分桶特征形成的合成特征。

例如，假设有一个“情绪预测”模型，它使用以下四个区间之一来表示温度：

freezing
chilly
temperate
warm

并以以下三个区间之一表示风速：

still
light
windy

如果不进行特征交叉，线性模型会针对上述七个不同的分桶分别进行独立训练。因此，模型会基于 freezing 进行训练，而不会基于 windy 进行训练。

或者，您也可以创建温度和风速的特征交叉。此合成特征将具有以下 12 个可能的值：

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

借助特征交叉，模型可以学习freezing-windy天和freezing-still天之间的情绪差异。

如果您根据两个各自具有许多不同分桶的特征创建合成特征，则生成的特征交叉将具有大量可能的组合。例如，如果一个特征有 1,000 个分桶，另一个特征有 2,000 个分桶，那么生成的特征交叉将有 2,000,000 个分桶。

从形式上讲，交叉联接是笛卡尔积。

特征交叉主要用于线性模型，很少用于神经网络。

如需了解详情，请参阅机器学习速成课程中的类别数据：特征交叉。

特征工程

#fundamentals

#TensorFlow

一种包含以下步骤的流程：

确定哪些特征可能在训练模型方面非常有用。
将数据集中的原始数据转换为这些特征的高效版本。

例如，您可能会认为 temperature 是一项有用的功能。然后，您可以尝试使用分桶来优化模型可从不同 temperature 范围中学习的内容。

特征工程有时称为特征提取或特征化。

点击相应图标可查看有关 TensorFlow 的其他注释。

在 TensorFlow 中，特征工程通常是指将原始日志文件条目转换为 tf.Example 协议缓冲区。另请参阅 tf.Transform。

如需了解详情，请参阅机器学习速成课程中的数值数据：模型如何使用特征向量提取数据。

功能集

#fundamentals

机器学习模型训练时采用的一组特征。例如，用于预测房价的模型的简单特征集可能包含邮政编码、房产面积和房产状况。

特征向量

#fundamentals

构成示例的特征值数组。特征向量在训练和推理期间作为输入。例如，具有两个离散特征的模型的特征向量可能如下所示：

[0.92, 0.56]

四个层：一个输入层、两个隐藏层和一个输出层。
输入层包含两个节点，一个节点包含值 0.92，另一个节点包含值 0.56。

每个示例都为特征向量提供不同的值，因此下一个示例的特征向量可能如下所示：

[0.73, 0.49]

特征工程决定了如何在特征向量中表示特征。例如，具有 5 个可能值的二元分类特征可以使用独热编码来表示。在这种情况下，特定示例的特征向量部分将包含四个零和一个位于第三位置的 1.0，如下所示：

[0.0, 0.0, 1.0, 0.0, 0.0]

再举一个例子，假设您的模型包含三个特征：

采用独热编码表示的具有五个可能值的二元分类特征；例如：[0.0, 1.0, 0.0, 0.0, 0.0]
另一个具有三个可能值的二元分类特征，以独热编码表示；例如：[0.0, 0.0, 1.0]
浮点特征；例如：8.3。

在这种情况下，每个示例的特征向量将由 9 个值表示。根据上一个列表中的示例值，特征向量将为：

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

如需了解详情，请参阅机器学习速成课程中的数值数据：模型如何使用特征向量提取数据。

反馈环

#fundamentals

在机器学习中，一种模型预测会影响同一模型或其他模型的训练数据的情况。例如，推荐电影的模型会影响用户看到的电影，进而影响后续的电影推荐模型。

如需了解详情，请参阅机器学习速成课程中的生产环境机器学习系统：需要提出的问题。

G

泛化

#fundamentals

模型针对以前未见过的新数据做出正确预测的能力。能够泛化的模型与过拟合模型正好相反。

点击相应图标可查看其他备注。

您可以使用训练集中的示例来训练模型。因此，模型会学习训练集中的数据特异性。泛化本质上是指模型能否对训练集中没有的样本做出良好的预测。

为了鼓励泛化，正则化有助于模型在训练时减少对训练集中数据特性的精确拟合。

如需了解详情，请参阅机器学习速成课程中的泛化。

泛化曲线

#fundamentals

以迭代次数为自变量的训练损失和验证损失的曲线图。

泛化曲线可以帮助您检测可能出现的过拟合。例如，以下泛化曲线表明出现过拟合，因为验证损失最终明显高于训练损失。

直角坐标图，其中 y 轴标记为“损失”，x 轴标记为“迭代次数”。系统会显示两个图。一个图显示的是训练损失，另一个图显示的是验证损失。
这两个图刚开始相似，但训练损失最终会下降，远低于验证损失。

如需了解详情，请参阅机器学习速成课程中的泛化。

梯度下降法

#fundamentals

一种可最大限度减少损失的数学技术。梯度下降法以迭代方式调整权重和偏差，逐渐找到可将损失降至最低的最佳组合。

梯度下降比机器学习早得多。

如需了解详情，请参阅机器学习速成课程中的线性回归：梯度下降。

标准答案

#fundamentals

现实。

实际发生的事情。

例如，假设有一个二元分类模型，用于预测大学一年级学生是否会在六年内毕业。此模型的标准答案是相应学生是否在 6 年内实际毕业。

点击相应图标可查看其他备注。

我们会根据标准答案评估模型质量。不过，事实真相并不总是完全真实。例如，请考虑以下可能存在的实际情况不完美示例：

在毕业示例中，我们是否确定每位学生的毕业记录始终正确？大学的记录保存是否完美无缺？
假设标签是仪器（例如气压计）测量的浮点值。我们如何确保每台仪器都经过相同的校准，或者每次读数都是在相同的情况下进行的？
如果标签是人为判断的结果，我们如何才能确保每位人工评分者都以相同的方式评估事件？为了提高一致性，专家人工标注者有时会介入。

H

隐藏层

#fundamentals

神经网络中介于输入层（特征）和输出层（预测）之间的层。每个隐藏层都包含一个或多个神经元。例如，以下神经网络包含两个隐藏层，第一个隐藏层有 3 个神经元，第二个隐藏层有 2 个神经元：

四层。第一个层是包含两个特征的输入层。第二层是包含三个神经元的隐藏层。第三层是包含两个神经元的隐藏层。第四层是输出层。每个特征都包含三条边，每条边都指向第二层中的不同神经元。第二层中的每个神经元都包含两条边，每条边都指向第三层中的不同神经元。第三层中的每个神经元都包含一条边，每条边都指向输出层。

深度神经网络包含多个隐藏层。例如，上图所示的是一个深度神经网络，因为该模型包含两个隐藏层。

如需了解详情，请参阅机器学习速成课程中的神经网络：节点和隐藏层。

超参数

#fundamentals

在模型训练的连续运行期间，您或超参数调节服务（例如 Vizier）调整的变量。例如，学习速率就是一种超参数。您可以在一次训练会话之前将学习率设置为 0.01。如果您认为 0.01 过高，或许可以在下一次训练会话中将学习率设置为 0.003。

相比之下，形参是模型在训练期间学习的各种权重和偏差。

如需了解详情，请参阅机器学习速成课程中的线性回归：超参数。

I

独立同分布 (i.i.d)

#fundamentals

从不发生变化且每次抽取的值不依赖于之前抽取的值的分布中抽取的数据。i.i.d. 是机器学习的理想情况 - 一种实用的数学结构，但在现实世界中几乎从未发现过。例如，某个网页的访问者在短时间内的分布可能为 i.i.d.，即分布在该短时间内没有变化，且一位用户的访问行为通常与另一位用户的访问行为无关。不过，如果您扩大时间范围，网页访问者的季节性差异可能会显现出来。

另请参阅非平稳性。

推理

#fundamentals

#generativeAI

在传统机器学习中，推断是指以下过程：通过将训练过的模型应用于无标签样本做出预测。如需了解详情，请参阅“机器学习简介”课程中的监督式学习。

在大语言模型中，推理是指使用训练好的模型针对输入提示生成回答的过程。

推理在统计学中具有略有不同的含义。如需了解详情，请参阅维基百科中有关统计学推断的文章。

输入层

#fundamentals

神经网络中用于存储特征向量的层。也就是说，输入层为训练或推理提供示例。例如，以下神经网络中的输入层包含两个特征：

四个层：一个输入层、两个隐藏层和一个输出层。

可解释性

#fundamentals

能够以人类可理解的方式解释或呈现机器学习模型的推理过程。

例如，大多数线性回归模型都具有很高的可解释性。（您只需查看每个特征的训练权重。）决策森林也具有很高的可解释性。不过，某些模型仍需进行复杂的可视化处理，才能变得可解释。

您可以使用 Learning Interpretability Tool (LIT) 来解读机器学习模型。

迭代

#fundamentals

在训练期间，对模型的参数（即模型的权重和偏差）进行一次更新。批次大小决定了模型在一次迭代中处理的样本数量。例如，如果批次大小为 20，则模型会在调整参数之前处理 20 个样本。

在训练神经网络时，单次迭代涉及以下两个传递：

一次前向传递，用于评估单个批次的损失。
一次反向传递（反向传播），用于根据损失和学习速率调整模型参数。

如需了解详情，请参阅机器学习速成课程中的梯度下降。

L

L₀ 正则化

#fundamentals

一种正则化，用于惩罚模型中非零权重的总数。例如，具有 11 个非零权重的模型会比具有 10 个非零权重的类似模型受到更严重的惩罚。

L₀ 正则化有时称为 L0 范数正则化。

点击相应图标可查看其他备注。

L₀ 正则化在大型模型中通常不切实际，因为 L₀ 正则化会将训练变成凸优化问题。

L₁ 损失

#fundamentals

#Metric

一种损失函数，用于计算实际标签值与模型预测的值之间的差的绝对值。例如，以下是针对包含 5 个示例的批次计算 L₁ 损失的示例：

示例的实际值	模型的预测值	增量的绝对值
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ 损失

L₁ 损失对离群值的敏感性弱于 L₂ 损失。

平均绝对误差是每个样本的平均 L₁ 损失。

点击相应图标即可查看正式的数学公式。

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

其中：

$n$ 是样本数量。
$y$ 是标签的实际值。
$\hat{y}$ 是模型针对 $y$ 预测的值。

如需了解详情，请参阅机器学习速成课程中的线性回归：损失。

L₁ 正则化

#fundamentals

一种正则化，根据权重的绝对值总和按比例惩罚权重。L₁ 正则化有助于使不相关或几乎不相关的特征的权重正好为 0。权重为 0 的特征实际上已从模型中移除。

与 L₂ 正则化相对。

L₂ 损失

#fundamentals

#Metric

一种损失函数，用于计算实际标签值与模型预测的值之间的平方差。例如，以下是针对包含 5 个示例的批次计算 L₂ 损失的示例：

示例的实际值	模型的预测值	增量的平方
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ 损失

由于取平方值，因此 L₂ 损失会放大离群值的影响。也就是说，与 L₁ 损失相比，L₂ 损失对不良预测的反应更强烈。例如，前一个批次的 L₁ 损失将为 8 而不是 16。请注意，一个离群值就占了 16 个中的 9 个。

回归模型通常使用 L₂ 损失作为损失函数。

均方误差是指每个样本的平均 L₂ 损失。 平方损失是 L₂ 损失的另一种叫法。

点击相应图标即可查看正式的数学公式。

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

其中：

$n$ 是样本数量。
$y$ 是标签的实际值。
$\hat{y}$ 是模型针对 $y$ 预测的值。

如需了解详情，请参阅机器学习速成课程中的逻辑回归：损失和正规化。

L₂ 正则化

#fundamentals

一种正则化，根据权重的平方和按比例惩罚权重。L₂ 正则化有助于使离群值（具有较大正值或较小负值）权重接近 0，但又不正好为 0。值非常接近 0 的特征会保留在模型中，但对模型的预测影响不大。

L₂ 正则化始终可以提高线性模型的泛化能力。

与 L₁ 正则化相对。

如需了解详情，请参阅机器学习速成课程中的过拟合：L2 正则化。

有标签示例

#fundamentals

包含一个或多个特征和一个标签的示例。例如，下表显示了房屋估值模型中的三个带标签的示例，每个示例都包含三个特征和一个标签：

卧室数量	浴室数量	房屋年龄	房价（标签）
3	2	15	$345,000
2	1	72	17.9 万美元
4	2	34	39.2 万美元

在监督式机器学习中，模型基于带标签的样本进行训练，并基于无标签的样本进行预测。

将有标签样本与无标签样本进行对比。

如需了解详情，请参阅《机器学习简介》中的监督式学习。

lambda

#fundamentals

与正则化率的含义相同。

Lambda 是一个过载的术语。我们在此关注的是该术语在正则化中的定义。

图层

#fundamentals

神经网络中的一组神经元。以下是三种常见的层类型：

输入层，用于为所有特征提供值。
一个或多个隐藏层，用于发现特征与标签之间的非线性关系。
提供预测的输出层。

例如，下图展示了一个包含 1 个输入层、2 个隐藏层和 1 个输出层的神经网络：

具有一个输入层、两个隐藏层和一个输出层的神经网络。输入层包含两个特征。第一个隐藏层包含 3 个神经元，第二个隐藏层包含 2 个神经元。输出层由单个节点组成。

在 TensorFlow 中，层也是 Python 函数，以张量和配置选项作为输入，然后生成其他张量作为输出。

学习速率

#fundamentals

一个浮点数，用于告知梯度下降算法在每次迭代时调整权重和偏差的幅度。例如，0.3 的学习速率调整权重和偏差的力度是 0.1 的学习速率的三倍。

学习速率是一个重要的超参数。如果您将学习速率设置得过低，训练将耗时过长。如果您将学习速率设置得过高，梯度下降法通常难以实现收敛。

点击相应图标可查看更详细的数学解释。

在每次迭代期间，梯度下降算法都会将学习速率与梯度相乘。所得的乘积称为梯度步长。

如需了解详情，请参阅机器学习速成课程中的线性回归：超参数。

线性

#fundamentals

一种仅通过加法和乘法即可表示的两个或多个变量之间的关系。

线性关系的图是一条直线。

与非线性相对。

线性模型

#fundamentals

一种为每个特征分配一个权重以进行预测的模型。（线性模型还包含偏差。）相比之下，深度模型中特征与预测之间的关系通常是非线性的。

与深度模型相比，线性模型通常更易于训练，且可解释性更强。不过，深度模型可以学习特征之间的复杂关系。

线性回归和逻辑回归是两种类型的线性模型。

点击相应图标即可查看数学公式。

线性模型遵循以下公式：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

其中：

y' 是原始预测结果。（在某些类型的线性模型中，此原始预测结果将进一步修改。例如，请参阅逻辑回归。）
b 是偏差。
w 是一个权重，因此 w₁ 是第一个特征的权重，w₂ 是第二个特征的权重，依此类推。
x 是一个特征，因此 x₁ 是第一个特征的值，x₂ 是第二个特征的值，依此类推。

例如，假设一个具有三个特征的线性模型学习了以下偏差和权重：

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

因此，如果有三个特征（x₁、x₂ 和 x₃），线性模型会使用以下等式来生成每个预测值：

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

假设某个特定示例包含以下值：

x₁ = 4
x₂ = -10
x₃ = 5

将这些值代入公式，即可得出本示例的预测值：

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

线性模型不仅包括仅使用线性方程进行预测的模型，还包括使用线性方程作为预测公式的一个组成部分的更广泛的模型。例如，逻辑回归会对原始预测值 (y') 进行后处理，以生成介于 0 到 1 之间（不含 0 和 1）的最终预测值。

线性回归

#fundamentals

一种机器学习模型，同时满足以下两个条件：

该模型是一个线性模型。
预测值是浮点值。（这是线性回归的回归部分。）

将线性回归与逻辑回归进行对比。此外，还要将回归与分类进行对比。

如需了解详情，请参阅机器学习速成课程中的线性回归。

逻辑回归

#fundamentals

一种可预测概率的回归模型。逻辑回归模型具有以下特征：

标签为分类。逻辑回归一词通常是指二元逻辑回归，即计算具有两个可能值的标签的概率的模型。一种不太常见的变体是多项式逻辑回归，它会计算具有两个以上可能值的标签的概率。
训练期间的损失函数为对数损失函数。（对于具有两个以上可能值的标签，可以并行放置多个 Log Loss 单位。）
该模型采用线性架构，而非深度神经网络。不过，此定义的其余部分也适用于预测类别标签概率的深度模型。

例如，假设有一个逻辑回归模型，用于计算输入电子邮件是垃圾邮件或非垃圾邮件的概率。在推理过程中，假设模型预测值为 0.72。因此，模型会估计：

电子邮件有 72% 的可能性是垃圾邮件。
电子邮件不是垃圾邮件的概率为 28%。

逻辑回归模型采用以下两步架构：

模型通过应用输入特征的线性函数来生成原始预测结果 (y')。
该模型使用原始预测结果作为 sigmoid 函数的输入，该函数会将原始预测结果转换为介于 0 和 1 之间的值（不包括 0 和 1）。

与任何回归模型一样，逻辑回归模型也会预测一个数值。不过，此数字通常会成为二元分类模型的一部分，如下所示：

如果预测的数值大于分类阈值，则二元分类模型会预测为正类别。
如果预测的数字小于分类阈值，二元分类模型会预测负类别。

如需了解详情，请参阅机器学习速成课程中的逻辑回归。

对数损失

#fundamentals

二元逻辑回归中使用的损失函数。

点击相应图标即可查看数学公式。

以下公式用于计算对数损失：

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

其中：

$(x,y)\in D$ 是包含多个有标签样本（即 $(x,y)$ 对）的数据集。
$y$ 是有标签样本中的标签。由于这是逻辑回归，因此 $y$ 的每个值必须是 0 或 1。
$y'$ 是对于特征集 $x$的预测值（介于 0 和 1 之间，不含两端值）。

如需了解详情，请参阅机器学习速成课程中的逻辑回归：损失和正规化。

对数几率

#fundamentals

某个事件的对数几率。

点击相应图标即可查看数学公式。

如果事件是二元概率，则几率是指成功概率 (p) 与失败概率 (1-p) 的比率。例如，假设某个给定事件的成功概率为 90%，失败概率为 10%。在这种情况下，赔率的计算方式如下：

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

对数几率就是几率的对数。按照惯例，“对数”是指自然对数，但对数实际上可以是任何大于 1 的底数。按照惯例，我们示例的对数几率为：

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

对数几率函数是 S 型函数的反函数。

损失

#fundamentals

#Metric

在 监督式模型的训练期间，用于衡量模型的预测与标签之间的差距。

损失函数用于计算损失。

如需了解详情，请参阅机器学习速成课程中的线性回归：损失。

损失曲线

#fundamentals

以训练迭代次数为自变量的损失函数图。下图显示了典型的损失曲线：

一个损失与训练迭代次数的笛卡尔图，显示了初始迭代的损失快速下降，随后是逐渐下降，最后在最终迭代期间斜率平缓。

损失曲线可帮助您确定模型何时收敛或过拟合。

损失曲线可以绘制以下所有类型的损失：

训练损失
验证损失
测试损失

另请参阅泛化曲线。

如需了解详情，请参阅机器学习速成课程中的过拟合：解读损失曲线。

损失函数

#fundamentals

#Metric

在训练或测试期间，用于计算一批示例的损失的数学函数。对于做出良好预测的模型，损失函数会返回较低的损失；对于做出不良预测的模型，损失函数会返回较高的损失。

训练的目标通常是尽量减少损失函数返回的损失。

损失函数有很多不同的种类。根据您要构建的模型类型选择合适的损失函数。例如：

L₂ 损失（或均方误差）是线性回归的损失函数。
对数损失是逻辑回归的损失函数。

M

机器学习

#fundamentals

一种通过输入数据训练模型的程序或系统。经过训练的模型可以根据从与训练该模型时使用的数据集具有相同分布的新（从未见过）数据集中提取的数据做出有用的预测。

机器学习还指与这些程序或系统相关的研究领域。

如需了解详情，请参阅机器学习简介课程。

多数类

#fundamentals

分类不平衡的数据集内更为常见的标签。例如，假设一个数据集内包含 99% 的负标签和 1% 的正标签，那么负标签为多数类。

与少数类相对。

如需了解详情，请参阅机器学习速成课程中的数据集：不平衡的数据集。

小批次

#fundamentals

在一次迭代中处理的批次的一小部分随机选择的子集。小批次的批次大小通常介于 10 到 1,000 个样本之间。

例如，假设整个训练集（完整批次）包含 1,000 个样本。进一步假设您将每个小批次的批次大小设置为 20。因此，每次迭代都会确定 1,000 个示例中随机 20 个示例的损失，然后相应地调整权重和偏差。

计算小批次的损失比计算完整批次中所有示例的损失要高效得多。

如需了解详情，请参阅机器学习速成课程中的线性回归：超参数。

少数类

#fundamentals

分类不平衡的数据集内不常见的标签。例如，假设一个数据集内包含 99% 的负标签和 1% 的正标签，那么正标签为少数类。

与多数类相对。

点击相应图标可查看其他备注。

包含 100 万个示例的训练集听起来很棒。不过，如果少数类的代表性较差，那么即使训练集非常大，也可能不够。不要过分关注数据集中的样本总数，而要更加关注少数类中的样本数。

如果您的数据集中包含的少数类示例不足，请考虑使用下采样（定义见第二个项目符号）来补充少数类。

如需了解详情，请参阅机器学习速成课程中的数据集：不平衡的数据集。

模型

#fundamentals

一般来说，任何处理输入数据并返回输出的数学结构。换句话说，模型是系统进行预测所需的一组形参和结构。在监督式机器学习中，模型将示例作为输入，并推断出预测结果作为输出。在监督式机器学习中，模型略有不同。例如：

线性回归模型由一组权重和一个偏差组成。
神经网络模型包含：
- 一组隐藏层，每个隐藏层都包含一个或多个神经元。
- 与每个神经元相关联的权重和偏差。
决策树模型包含：
- 树的形状；即条件和叶的连接模式。
- 条件和休假。

您可以保存、恢复或复制模型。

非监督式机器学习也会生成模型，通常是一个可以将输入示例映射到最合适的聚类的函数。

点击相应图标，比较代数函数和编程函数与机器学习模型。

以下代数函数就是一个模型：

  f(x, y) = 3x -5xy + y² + 17

上述函数将输入值（x 和 y）映射到输出。

同样，以下编程函数也是一种模型：

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

调用方将实参传递给上述 Python 函数，而 Python 函数会生成输出（通过 return 语句）。

虽然深度神经网络的数学结构与代数函数或编程函数截然不同，但深度神经网络仍然会接受输入（一个示例）并返回输出（一个预测）。

人类程序员手动编写编程函数。相比之下，机器学习模型会在自动训练期间逐步学习最佳参数。

多类别分类

#fundamentals

在监督式学习中，一种分类问题，其中数据集包含两个以上的标签类别。例如，Iris 数据集中的标签必须是以下三个类别之一：

setosa 鸢尾花
弗吉尼亚鸢尾
杂色鸢尾

如果模型是使用 Iris 数据集训练的，并且可以根据新示例预测 Iris 类型，则该模型执行的是多类别分类。

相比之下，如果分类问题要区分的类别正好是两个，则属于二元分类模型。例如，预测电子邮件是垃圾邮件还是非垃圾邮件的电子邮件模型就是二元分类模型。

在聚类问题中，多类别分类是指两个以上的聚类。

如需了解详情，请参阅机器学习速成课程中的神经网络：多类别分类。

否

负类别

#fundamentals

#Metric

在二元分类中，一种类别称为正类别，另一种类别称为负类别。正类别是模型正在测试的事物或事件，负类别则是另一种可能性。例如：

在医学检查中，负类别可以是“非肿瘤”。
在电子邮件分类模型中，负类别可以是“非垃圾邮件”。

与正类别相对。

输出表示

#fundamentals

包含至少一个隐藏层的模型。深度神经网络是一种包含多个隐藏层的神经网络。例如，下图显示了一个包含两个隐藏层的深度神经网络。

具有一个输入层、两个隐藏层和一个输出层的神经网络。

神经网络中的每个神经元都连接到下一层中的所有节点。例如，在上图中，请注意第一个隐藏层中的每个神经元都分别连接到第二个隐藏层中的两个神经元。

在计算机上实现的神经网络有时称为人工神经网络，以区别于大脑和其他神经系统中的神经网络。

某些神经网络可以模拟不同特征与标签之间极其复杂的非线性关系。

另请参阅卷积神经网络和循环神经网络。

如需了解详情，请参阅机器学习速成课程中的神经网络。

神经元

#fundamentals

在机器学习中，指神经网络的隐藏层中的一个独立单元。每个神经元都会执行以下两步操作：

计算输入值与其对应权重的加权和。
将加权和作为输入传递给激活函数。

第一个隐藏层中的神经元接受来自输入层中特征值的输入。任何隐藏层（第一个隐藏层除外）中的神经元都会接受来自前一个隐藏层中神经元的输入。例如，第二个隐藏层中的神经元接受来自第一个隐藏层中神经元的输入。

下图突出显示了两个神经元及其输入。

具有一个输入层、两个隐藏层和一个输出层的神经网络。突出显示了两个神经元：一个位于第一个隐藏层中，另一个位于第二个隐藏层中。第一个隐藏层中突出显示的神经元会接收输入层中两个特征的输入。第二个隐藏层中突出显示的神经元会接收来自第一个隐藏层中三个神经元的输入。

神经网络中的神经元会模拟大脑和神经系统其他部位的神经元行为。

节点（神经网络）

#fundamentals

隐藏层中的一个神经元。

如需了解详情，请参阅机器学习速成课程中的神经网络。

非线性

#fundamentals

一种无法仅通过加法和乘法表示的两个或多个变量之间的关系。线性关系可以用直线表示，而非线性关系则不能用直线表示。例如，假设有两个模型，每个模型都将单个特征与单个标签相关联。左侧的模型是线性模型，右侧的模型是非线性模型：

两个地块。一个图是直线，因此这是线性关系。
另一个图是曲线，因此这是非线性关系。

如需尝试不同类型的非线性函数，请参阅机器学习速成课程中的神经网络：节点和隐藏层。

非平稳性

#fundamentals

一种值会随一个或多个维度（通常是时间）而变化的特征。例如，请考虑以下非平稳性示例：

特定商店的泳衣销量会随季节而变化。
特定地区中特定水果的收获量在一年中的大部分时间为零，但在短时间内会很大。
由于气候变化，年平均气温正在发生变化。

与平稳性相对。

归一化

#fundamentals

从广义上讲，是将变量的实际值范围转换为标准值范围的过程，例如：

-1 至 +1
0 至 1
Z 得分（大致介于 -3 到 +3 之间）

例如，假设某个特征的实际值范围为 800 到 2,400。作为特征工程的一部分，您可以将实际值归一化到标准范围内，例如 -1 到 +1。

归一化是特征工程中的一项常见任务。如果特征向量中的每个数值特征都具有大致相同的范围，模型通常会更快地完成训练（并生成更好的预测结果）。

另请参阅 Z 得分归一化。

如需了解详情，请参阅机器学习速成课程中的数值数据：归一化。

数值数据

#fundamentals

用整数或实数表示的特征。例如，房屋估值模型可能会将房屋面积（以平方英尺或平方米为单位）表示为数值数据。将特征表示为数值数据表明，特征的值与标签之间存在数学关系。也就是说，房屋的平方米数可能与房屋的价值存在某种数学关系。

并非所有整数数据都应表示为数值数据。例如，世界某些地区的邮政编码是整数；不过，整数邮政编码不应在模型中表示为数值数据。这是因为邮政编码 20000 的效果并不是邮政编码 10000 的两倍（或一半）。此外，虽然不同的邮政编码确实与不同的房地产价值相关联，但我们不能假设邮政编码为 20000 的房地产价值是邮政编码为 10000 的房地产价值的两倍。邮政编码应表示成分类数据。

数值特征有时称为连续特征。

如需了解详情，请参阅机器学习速成课程中的处理数值数据。

O

离线

#fundamentals

与 static 的含义相同。

离线推理

#fundamentals

模型生成一批预测，然后缓存（保存）这些预测的过程。然后，应用可以从缓存中访问推理出的预测结果，而无需重新运行模型。

例如，假设有一个模型每 4 小时生成一次本地天气预报（预测）。每次运行模型后，系统都会缓存所有本地天气预报。天气应用从缓存中检索预报。

离线推理也称为静态推理。

与在线推理相对。如需了解详情，请参阅机器学习速成课程中的生产环境中的机器学习系统：静态推理与动态推理。

独热编码

#fundamentals

将分类数据表示为一个向量，其中：

一个元素设置为 1。
所有其他元素均设置为 0。

独热编码常用于表示拥有有限个可能值的字符串或标识符。例如，假设某个名为 Scandinavia 的分类特征有五个可能的值：

"丹麦"
“瑞典”
“挪威”
“芬兰”
“冰岛”

独热编码可以将这五个值分别表示为：

国家/地区	向量
"丹麦"	1	0	0	0	0
“瑞典”	0	1	0	0	0
“挪威”	0	0	1	0	0
“芬兰”	0	0	0	1	0
“冰岛”	0	0	0	0	1

借助独热编码，模型可以根据这五个国家/地区中的每一个来学习不同的关联。

将特征表示为数值数据是独热编码的替代方案。遗憾的是，以数字形式表示斯堪的纳维亚国家/地区并不是一个好的选择。例如，请考虑以下数字表示法：

“丹麦”为 0
“瑞典”为 1
“挪威”为 2
“芬兰”为 3
“冰岛”是 4

借助数值编码，模型将以数学方式解读原始数字，并尝试基于这些数字进行训练。不过，冰岛的某项指标实际上并非挪威的两倍（或一半），因此模型会得出一些奇怪的结论。

如需了解详情，请参阅机器学习速成课程中的类别型数据：词汇和独热编码。

一对多

#fundamentals

假设某个分类问题有 N 个类别，一种解决方案包含 N 个单独的二元分类模型 - 一个二元分类模型对应一种可能的结果。例如，假设有一个模型可将示例分类为动物、植物或矿物，那么一对多解决方案将提供以下三个单独的二元分类模型：

动物与非动物
蔬菜与非蔬菜
矿物质与非矿物质

在线

#fundamentals

与动态的含义相同。

在线推理

#fundamentals

根据需求生成预测。例如，假设某个应用将输入内容传递给模型，并发出预测请求。使用在线推理的系统会通过运行模型来响应请求（并将预测结果返回给应用）。

与离线推理相对。

如需了解详情，请参阅机器学习速成课程中的生产环境中的机器学习系统：静态推理与动态推理。

输出层

#fundamentals

神经网络的“最终”层。输出层包含预测结果。

下图展示了一个小型深度神经网络，其中包含一个输入层、两个隐藏层和一个输出层：

过拟合

#fundamentals

创建的模型与训练数据过于匹配，以致于模型无法根据新数据做出正确的预测。

正则化可以减少过拟合。在庞大而多样的训练集上进行训练也有助于减少过拟合。

点击相应图标可查看其他备注。

过拟合就像只严格遵循自己最喜欢的老师的建议一样。您可能在该教师的课堂上取得成功，但可能会“过度拟合”该教师的想法，而在其他课堂上失败。听取多位教师的建议有助于您更好地适应新情况。

如需了解详情，请参阅机器学习速成课程中的过拟合。

P

pandas

#fundamentals

基于 numpy 构建的面向列的数据分析 API。许多机器学习框架（包括 TensorFlow）都支持将 Pandas 数据结构作为输入。如需了解详情，请参阅 Pandas 文档。

参数

#fundamentals

模型在训练期间学习的权重和偏差。例如，在线性回归模型中，参数包括以下公式中的偏差 (b) 和所有权重（w₁、w₂ 等）：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相比之下，超参数是您（或超参数调节服务）提供给模型的值。例如，学习速率就是一种超参数。

正类别

#fundamentals

#Metric

您要测试的类。

例如，在癌症模型中，正类别可以是“肿瘤”。在电子邮件分类模型中，正类别可以是“垃圾邮件”。

与负类别相对。

点击相应图标可查看其他备注。

“正类别”一词可能会令人困惑，因为许多测试的“阳性”结果往往是不良结果。例如，在许多医学检查中，正类别对应于肿瘤或疾病。一般来说，您希望医生对您说：“恭喜！您的检测结果为阴性。” 无论如何，正类别都是测试要寻找的事件。

诚然，您同时测试了正类和负类。

后处理

#responsible

#fundamentals

在模型运行后调整模型输出。后期处理可用于强制执行公平性限制，而无需修改模型本身。

例如，可以对二元分类模型应用后处理，方法是设置分类阈值，以通过检查真正例率对于某个属性的所有值是否相同，来确保该属性的机会均等。

精确度

#fundamentals

#Metric

一种分类模型指标，可为您提供以下信息：

当模型预测为正类别时，预测正确的百分比是多少？

公式如下：

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

其中：

真正例是指模型正确预测了正类别。
假正例是指模型错误地预测了正类别。

例如，假设某个模型做出了 200 次正预测。在这 200 个正例预测中：

其中 150 个是真正例。
其中 50 个是假正例。

在此示例中：

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

与准确率和召回率形成对比。

如需了解详情，请参阅机器学习速成课程中的分类：准确率、召回率、精确率和相关指标。

预测

#fundamentals

模型的输出。例如：

二元分类模型的预测结果要么是正类别，要么是负类别。
多类别分类模型的预测结果是一个类别。
线性回归模型的预测结果是一个数值。

代理标签

#fundamentals

用于逼近未在数据集内直接提供的标签的数据。

例如，假设您必须训练一个模型来预测员工压力水平。您的数据集包含许多预测性特征，但不包含名为“压力水平”的标签。您毫不气馁，选择“工作场所事故”作为压力水平的代理标签。毕竟，压力大的员工比心态平静的员工更容易发生事故。还是会？或许，工作场所事故的发生率实际上会因多种原因而上升和下降。

再举一个例子，假设您希望将下雨了吗？设为数据集的布尔型标签，但该数据集不包含下雨数据。如果有照片，您能够以人们带着雨伞的照片作为“在下雨吗？”的代理标签。这是一个好的代理标签吗？可能，但某些文化背景的人可能更倾向于带伞防晒，而不是防雨。

代理标签通常并不完美。如果可以，请选择实际标签，而不是代理标签。不过，如果缺少实际标签，请非常谨慎地选择代理标签，选择最不糟糕的代理标签候选对象。

如需了解详情，请参阅机器学习速成课程中的数据集：标签。

R

RAG

#fundamentals

检索增强生成的缩写。

评分者

#fundamentals

为示例提供标签的人员。 “注释者”是评分者的另一种称呼。

如需了解详情，请参阅机器学习速成课程中的类别型数据：常见问题。

召回

#fundamentals

#Metric

一种分类模型指标，可为您提供以下信息：

当标准答案为正类别时，模型正确识别为正类别的预测所占的百分比是多少？

公式如下：

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

其中：

真正例是指模型正确预测了正类别。
假负例是指模型错误地预测了负类别。

例如，假设您的模型对评估依据为正类别的样本进行了 200 次预测。在这 200 个预测中：

其中 180 个是真正例。
20 个为假负例。

在此示例中：

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

点击有关类别不平衡数据集的注释图标。

召回率对于确定正类别很少的分类模型的预测能力特别有用。例如，假设有一个类别不平衡的数据集，其中某种疾病的正类别仅出现在 100 万名患者中的 10 名患者中。假设您的模型进行了 500 万次预测，结果如下：

30 个真正例
20 个假负例
4,999,000 个真负例
950 个假正例

因此，此模型的召回率为：

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

相比之下，此模型的准确率为：

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

如此高的准确率看起来令人印象深刻，但实际上毫无意义。对于类别不平衡的数据集，召回率比准确率更有用。

如需了解详情，请参阅分类：准确率、召回率、精确率和相关指标。

修正线性单元 (ReLU)

#fundamentals

一种激活函数，具有以下行为：

如果输入为负数或零，则输出为 0。
如果输入为正数，则输出等于输入。

例如：

如果输入为 -3，则输出为 0。
如果输入为 +3，则输出为 3.0。

以下是 ReLU 的图：

ReLU 是一种非常热门的激活函数。尽管 ReLU 的行为很简单，但它仍然能够让神经网络学习特征与标签之间的非线性关系。

回归模型

#fundamentals

从非正式意义上讲，一种生成数值预测的模型。（相比之下，分类模型会生成类别预测结果。）例如，以下都是回归模型：

预测特定房屋价值（以欧元为单位）的模型，例如 423,000 欧元。
一种模型，用于预测特定树木的预期寿命（以年为单位），例如 23.2 年。
一种模型，用于预测未来 6 小时内某个城市将降雨多少英寸，例如 0.18。

以下是两种常见的回归模型：

线性回归，用于找到最能将标签值与特征拟合的直线。
逻辑回归，它会生成一个介于 0.0 和 1.0 之间的概率，系统通常会将该概率映射到类预测。

并非所有输出数值预测的模型都是回归模型。在某些情况下，数值预测实际上只是一个恰好具有数值类别名称的分类模型。例如，预测数值邮政编码的模型是分类模型，而不是回归模型。

正则化

#fundamentals

任何可减少过拟合的机制。常见的正则化类型包括：

L₁ 正则化
L₂ 正则化
dropout 正则化
早停法（这不是正式的正则化方法，但可以有效限制过拟合）

正则化也可以定义为对模型复杂性的惩罚。

点击相应图标可查看其他备注。

正则化是反直觉的。增加正则化通常会增加训练损失，这令人困惑，因为我们的目标不是最大限度地减少训练损失吗？

实际上，并非如此。目标不是尽量减少训练损失。目标是针对真实世界中的示例做出出色的预测。值得注意的是，尽管增加正则化会增加训练损失，但通常有助于模型对实际示例做出更好的预测。

如需了解详情，请参阅机器学习速成课程中的过拟合：模型复杂性。

正则化率

#fundamentals

一个数字，用于指定训练期间正则化的相对重要性。提高正则化率可减少过拟合，但可能会降低模型的预测能力。相反，降低或省略正则化率会增加过拟合。

点击相应图标即可查看数学公式。

正则化率通常用希腊字母 lambda 表示。从下面简化的损失公式中可以看出 lambda 的影响：

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

其中，正则化是指任何正则化机制，包括：

L₁ 正则化
L₂ 正则化

如需了解详情，请参阅机器学习速成课程中的过拟合：L2 正则化。

ReLU

#fundamentals

修正线性单元的缩写。

检索增强生成 (RAG)

#fundamentals

一种技术，通过将大语言模型 (LLM) 的输出与模型训练后检索到的知识源进行接地，来提高 LLM 的输出质量。 RAG 通过为经过训练的 LLM 提供从可信知识库或文档中检索到的信息，提高了 LLM 回答的准确性。

使用检索增强生成的常见动机包括：

提高模型生成回答的事实准确性。
让模型能够访问其未经训练的知识。
更改模型使用的知识。
使模型能够引用来源。

例如，假设某个化学应用使用 PaLM API 生成与用户查询相关的摘要。当应用的后端收到查询时，后端会执行以下操作：

搜索（“检索”）与用户查询相关的数据。
将相关化学数据附加（“扩充”）到用户查询中。
指示 LLM 根据附加的数据创建摘要。

ROC（接收者操作特征）曲线

#fundamentals

#Metric

在二元分类中，针对不同的分类阈值，绘制真正例率与假正例率的对比图。

ROC 曲线的形状表明了二元分类模型区分正类别和负类别的能力。例如，假设某个二元分类模型能够完美区分所有负类别和所有正类别：

一条数轴，右侧有 8 个正例，左侧有 7 个负例。

上述模型的 ROC 曲线如下所示：

ROC 曲线。x 轴为假正例率，y 轴为真正例率。曲线呈倒 L 形。曲线从 (0.0,0.0) 开始，直接向上移动到 (0.0,1.0)。然后，曲线从 (0.0,1.0) 变为 (1.0,1.0)。

相比之下，下图绘制了一个糟糕模型的原始逻辑回归值，该模型根本无法区分负类和正类：

一条数轴，正例和负类完全混杂在一起。

相应模型的 ROC 曲线如下所示：

ROC 曲线，实际上是从 (0.0,0.0) 到 (1.0,1.0) 的直线。

与此同时，在现实世界中，大多数二元分类模型都会在一定程度上区分正类别和负类别，但通常不会完全区分。因此，典型的 ROC 曲线介于这两个极端之间：

ROC 曲线。x 轴为假正例率，y 轴为真正例率。ROC 曲线近似于一条从西到北穿过各个方位的抖动弧线。

从理论上讲，ROC 曲线上最接近 (0.0,1.0) 的点可确定理想的分类阈值。不过，还有一些现实世界中的问题会影响理想分类阈值的选择。例如，假负例造成的损失可能远高于假正例。

一种名为 AUC 的数值指标可将 ROC 曲线汇总为单个浮点值。

均方根误差 (RMSE)

#fundamentals

#Metric

均方误差的平方根。

S

S 型函数

#fundamentals

一种数学函数，可将输入值“压缩”到有限的范围内，通常为 0 到 1 或 -1 到 +1。也就是说，您可以向 sigmoid 函数传递任何数字（2、100 万、负 10 亿，等等），输出结果仍会在限定范围内。 Sigmoid 激活函数的图如下所示：

Sigmoid 函数在机器学习中有多种用途，包括：

将逻辑回归模型或多项式回归模型的原始输出转换为概率。
在某些神经网络中充当激活函数。

点击相应图标即可查看数学公式。

对于输入数字 x，S 型函数的公式如下：

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

在机器学习中，x 通常是加权和。

softmax

#fundamentals

一种函数，可确定多类别分类模型中每个可能类别的概率。这些概率之和正好为 1.0。例如，下表显示了 softmax 如何分布各种概率：

图片是...	Probability
狗	0.85
猫	.13
马	.02

Softmax 也称为完整版 Softmax。

与候选采样相对。

点击相应图标即可查看数学公式。

Softmax 方程式如下所示：

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

其中：

$\sigma_i$ 是输出向量。输出向量的每个元素都指定了相应元素的概率。输出向量中所有元素的总和为 1.0。输出向量包含的元素数量与输入向量 $z$ 相同。
$z$ 是输入向量。输入向量的每个元素都包含一个浮点值。
$K$ 是输入向量（和输出向量）中的元素数量。

例如，假设输入向量为：

[1.2, 2.5, 1.8]

因此，softmax 会按如下方式计算分母：

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

因此，每个元素的 softmax 概率为：

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

因此，输出向量为：

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ 中三个元素的总和为 1.0。好，

如需了解详情，请参阅机器学习速成课程中的神经网络：多类别分类。

稀疏特征

#fundamentals

一种值主要为零或为空的特征。例如，包含一个 1 值和一百万个 0 值的特征就是稀疏特征。相比之下，密集特征的值大多不为零或为空。

在机器学习中，出人意料的是，有大量特征是稀疏特征。分类特征通常是稀疏特征。例如，在森林中可能存在的 300 种树木中，单个示例可能仅标识出枫树。或者，在视频库中数百万个可能的视频中，单个示例可能仅标识“卡萨布兰卡”。

在模型中，您通常使用独热编码来表示稀疏特征。如果 one-hot 编码很大，您可以在 one-hot 编码之上放置一个嵌入层，以提高效率。

稀疏表示法

#fundamentals

仅存储稀疏特征中非零元素的位置。

例如，假设某个名为 species 的分类特征用于标识特定森林中的 36 种树木。进一步假设每个示例仅标识一个物种。

您可以使用 one-hot 向量来表示每个示例中的树种。一个独热向量将包含一个 1（用于表示该示例中的特定树种）和 35 个 0（用于表示该示例中不存在的 35 个树种）。因此，maple 的独热表示法可能如下所示：

一个向量，其中位置 0 到 23 的值为 0，位置 24 的值为 1，位置 25 到 35 的值为 0。

或者，稀疏表示法只会识别特定物种的位置。如果 maple 位于位置 24，则 maple 的稀疏表示法将仅为：

请注意，稀疏表示法比 one-hot 表示法紧凑得多。

点击此图标可查看一个稍复杂的示例。

假设模型中的每个示例都必须表示英语句子中的单词（但不能表示这些单词的顺序）。英语大约有 17 万个单词，因此英语是一个具有大约 17 万个元素的类别型特征。大多数英语句子只使用这 17 万个字词中极小的一部分，因此单个示例中的字词集几乎肯定是稀疏数据。

请看以下句子：

My dog is a great dog

您可以使用 one-hot 向量的变体来表示此句子中的字词。在此变体中，向量中的多个单元格可以包含非零值。此外，在此变体中，一个单元格可以包含除 1 以外的整数。虽然“my”“is”“a”和“great”这几个字词在句子中只出现了一次，但“dog”一词出现了两次。使用这种单热向量变体来表示此句子中的字词会生成以下 17 万元素向量：

同一句子的稀疏表示法如下所示：

如果您有任何疑问，请点击相应图标。

“稀疏表示”这个术语让很多人感到困惑，因为稀疏表示本身不是稀疏向量。相反，稀疏表示实际上是稀疏向量的密集表示。同义词索引表示法比“稀疏表示法”更清晰一些。

如需了解详情，请参阅机器学习速成课程中的处理分类数据。

稀疏向量

#fundamentals

值大部分为零的向量。另请参阅稀疏特征和稀疏度。

平方损失函数

#fundamentals

#Metric

与 L₂ 损失的含义相同。

静态

#fundamentals

一次性完成，而不是持续进行。术语“static”（静态）和“offline”（离线）是同义词。以下是机器学习中静态和离线的常见用途：

静态模型（或离线模型）是一种只训练一次，然后使用一段时间的模型。
静态训练（或离线训练）是指训练静态模型的过程。
静态推理（或离线推理）是指模型一次生成一批预测结果的过程。

与动态相对。

静态推理

#fundamentals

与离线推理的含义相同。

平稳性

#fundamentals

一种在一个或多个维度（通常是时间）上值保持不变的特征。例如，如果某个特征在 2021 年和 2023 年的值大致相同，则该特征表现出平稳性。

在现实世界中，很少有特征表现出平稳性。即使是与稳定性同义的特征（例如海平面）也会随时间变化。

与非平稳性相对。

随机梯度下降法 (SGD)

#fundamentals

一种梯度下降算法，其中批次大小为 1。换句话说，SGD 会基于从训练集中随机均匀选择的单个样本进行训练。

如需了解详情，请参阅机器学习速成课程中的线性回归：超参数。

监督式机器学习

#fundamentals

根据特征及其对应的标签训练模型。监督式机器学习类似于通过研究一系列问题及其对应的答案来学习某个知识。在掌握问题与答案之间的映射关系后，学生便可以回答同一主题的新问题（从未见过的问题）。

与非监督式机器学习相对。

如需了解详情，请参阅“机器学习简介”课程中的监督式学习。

合成特征

#fundamentals

一种特征，不在输入特征之列，而是从一个或多个输入特征组装而来。用于创建合成特征的方法包括：

对连续特征进行分桶，以分为多个区间分箱。
创建特征组合。
将一个特征值与其他特征值或其本身相乘（或相除）。例如，如果 a 和 b 是输入特征，则以下是合成特征的示例：
- ab
- a²
将超越函数应用于要素值。例如，如果 c 是输入特征，则以下是合成特征的示例：
- sin(c)
- ln(c)

仅通过归一化或缩放创建的特征不属于合成特征。

T

测试损失

#fundamentals

#Metric

一种表示模型针对测试集的损失的指标。在构建模型时，您通常会尝试最大限度地减少测试损失。这是因为，与较低的训练损失或较低的验证损失相比，较低的测试损失是更强的质量信号。

测试损失与训练损失或验证损失之间的差距过大有时表明您需要提高正则化率。

训练

#fundamentals

确定构成模型的理想参数（权重和偏差）的过程。在训练期间，系统会读入个示例，并逐渐调整参数。训练会使用每个示例几次到数十亿次不等。

如需了解详情，请参阅“机器学习简介”课程中的监督式学习。

训练损失

#fundamentals

#Metric

一种指标，表示模型在特定训练迭代期间的损失。例如，假设损失函数为均方误差。例如，第 10 次迭代的训练损失（均方误差）为 2.2，第 100 次迭代的训练损失为 1.9。

损失曲线绘制的是训练损失与迭代次数的关系图。损失曲线可提供以下有关训练的提示：

下降斜率表示模型正在改进。
向上倾斜表示模型效果越来越差。
平坦的斜率表示模型已达到收敛。

例如，以下有些理想化的损失曲线显示：

初始迭代期间的陡峭下降斜率，表示模型改进速度很快。
斜率逐渐变平（但仍向下），直到接近训练结束时，这表示模型仍在不断改进，但速度比初始迭代期间略慢。
训练结束时斜率趋于平缓，表明模型已收敛。

训练损失与迭代次数的对比图。此损失曲线以陡峭的下降斜率开头。斜率逐渐变平，直至变为零。

虽然训练损失很重要，但另请参阅泛化。

训练-应用偏差

#fundamentals

模型在训练期间的性能与同一模型在应用期间的性能之间的差异。

训练集

#fundamentals

用于训练模型的数据集子集。

传统上，数据集中的示例分为以下三个不同的子集：

理想情况下，数据集中的每个示例都应仅属于上述子集之一。例如，单个示例不应同时属于训练集和验证集。

如需了解详情，请参阅机器学习速成课程中的数据集：划分原始数据集。

真负例 (TN)

#fundamentals

#Metric

模型正确预测负类别的示例。例如，模型推断出某封电子邮件不是垃圾邮件，而该电子邮件确实不是垃圾邮件。

真正例 (TP)

#fundamentals

#Metric

模型正确预测正类别的示例。例如，模型推断出某封电子邮件是垃圾邮件，而该电子邮件确实是垃圾邮件。

真正例率 (TPR)

#fundamentals

#Metric

与召回率的含义相同。具体来说：

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真正例率是 ROC 曲线的 y 轴。

U

欠拟合

#fundamentals

生成具有较差预测能力的模型，因为模型未完全发现训练数据的特征。许多问题都可能导致欠拟合，包括：

用错误的特征集进行训练。
训练周期过少或学习速率过低。
以过高的正则化率进行训练。
深度神经网络中包含的隐藏层过少。

如需了解详情，请参阅机器学习速成课程中的过拟合。

无标签示例

#fundamentals

包含特征但不包含标签的示例。例如，下表显示了房屋估值模型中的三个未标记示例，每个示例都包含三个特征，但没有房屋价值：

卧室数量	浴室数量	房屋年龄
3	2	15
2	1	72
4	2	34

在监督式机器学习中，模型基于带标签的样本进行训练，并基于无标签的样本进行预测。

在半监督式和非监督式学习中，在训练期间会使用无标签样本。

将无标签示例与有标签示例进行对比。

非监督式机器学习

#clustering

#fundamentals

训练模型，以找出数据集（通常是无标签数据集）内的规律。

非监督式机器学习最常见的用途是将数据聚类为不同的组，使相似的样本位于同一组中。例如，无监督机器学习算法可以根据音乐的各种属性对歌曲进行聚类。生成的聚类可以作为其他机器学习算法（例如音乐推荐服务）的输入。当有用的标签很少或没有时，聚类分析可以提供帮助。例如，在反滥用和反欺诈等领域，聚类有助于人们更好地了解数据。

与监督式机器学习相对。

点击相应图标可查看其他备注。

非监督式机器学习的另一个例子是主成分分析 (PCA)。例如，通过对包含数百万购物车中物品的数据集进行主成分分析，可能会发现有柠檬的购物车中往往也有抗酸药。

如需了解详情，请参阅“机器学习简介”课程中的什么是机器学习？。

V

验证

#fundamentals

对模型质量的初步评估。验证会根据验证集检查模型预测的质量。

由于验证集与训练集不同，因此验证有助于防范过拟合。

您可以将根据验证集评估模型视为第一轮测试，将根据测试集评估模型视为第二轮测试。

验证损失

#fundamentals

#Metric

一种指标，表示模型在特定训练迭代期间，在验证集上的损失。

另请参阅泛化曲线。

验证集

#fundamentals

数据集的子集，用于针对经过训练的模型执行初始评估。通常，在针对测试集评估模型之前，您会先针对验证集评估经过训练的模型多次。

传统上，您会将数据集中的示例划分为以下三个不同的子集：

理想情况下，数据集中的每个示例都应仅属于上述子集之一。例如，单个示例不应同时属于训练集和验证集。

如需了解详情，请参阅机器学习速成课程中的数据集：划分原始数据集。

W

重量

#fundamentals

模型乘以另一个值的值。训练是确定模型理想权重的过程；推理是使用这些学习到的权重进行预测的过程。

点击该图标可查看线性模型中权重的示例。

假设有一个具有两个特征的线性模型。假设训练确定了以下权重（和偏差）：

偏差 b 的值为 2.2
与某个特征关联的权重 w₁ 为 1.5。
与另一个特征关联的权重 w₂ 为 0.4。

现在，假设一个示例具有以下特征值：

一个特征（x₁）的值为 6。
另一个特征 x₂ 的值为 10。

此线性模型使用以下公式生成预测值 y'：

$$y' = b + w_1x_1 + w_2x_2$$

因此，预测结果为：

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

如果权重为 0，则相应特征对模型没有任何影响。例如，如果 w₁ 为 0，则 x₁ 的值无关紧要。

如需了解详情，请参阅机器学习速成课程中的线性回归。

加权和

#fundamentals

所有相关输入值与其对应权重的乘积之和。例如，假设相关输入包含以下内容：

输入值	输入权重
2	-1.3
-1	0.6
3	0.4

因此，加权和为：

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加权和是激活函数的输入实参。

Z

Z 分数归一化

#fundamentals

一种缩放技术，用于将原始特征值替换为表示该特征与平均值之间相差的标准差数量的浮点值。例如，假设某个特征的平均值为 800，标准差为 100。下表显示了 Z 得分归一化如何将原始值映射到其 Z 得分：

原始值	Z 分数
800	0
950	+1.5
575	-2.25

然后，机器学习模型会根据相应特征的 Z 得分进行训练，而不是根据原始值进行训练。

如需了解详情，请参阅机器学习速成课程中的数值数据：归一化。

机器学习术语表：机器学习基础知识 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

A

准确性

点击相应图标可详细了解准确率和分类不平衡的数据集。

激活函数

点击相应图标即可查看示例。

人工智能

AUC（ROC 曲线下面积）

点击该图标可了解 AUC 与 ROC 曲线之间的关系。

点击相应图标可查看 AUC 的更正式定义。

B

反向传播

批处理

批次大小

偏差（道德/公平性）

偏差（数学概念）或偏差项

二元分类

分桶

点击相应图标可查看其他备注。

C

分类数据

类别

分类模型

分类阈值

点击相应图标可查看其他备注。

分类器

类别不平衡的数据集

裁剪

混淆矩阵

连续特征

收敛

D

DataFrame

数据集（data set 或 dataset）

深度模型

密集特征

深度

离散特征

动态

动态模型

E

早停法

点击相应图标可查看其他备注。

嵌入层

周期数

示例

F

假负例 (FN)

假正例 (FP)

假正例率 (FPR)

功能

特征组合

特征工程

点击相应图标可查看有关 TensorFlow 的其他注释。

功能集

特征向量

反馈环

G

泛化

点击相应图标可查看其他备注。

泛化曲线

梯度下降法

标准答案

点击相应图标可查看其他备注。

H

隐藏层

超参数

I

独立同分布 (i.i.d)

推理

输入层

可解释性

迭代

L

L0 正则化

点击相应图标可查看其他备注。

L1 损失

点击相应图标即可查看正式的数学公式。

L1 正则化

L2 损失

机器学习术语表：机器学习基础知识

L₀ 正则化

L₁ 损失

L₁ 正则化

L₂ 损失

L₂ 正则化