此页面由 Cloud Translation API 翻译。

机器学习术语表：图像模型

本页面包含图片模型术语表术语。如需查看所有术语表术语，请点击此处。

A

增强现实

#image

一种将计算机生成的图像叠加到用户的真实世界视图上，从而提供合成视图的技术。

自动编码器

#language

#image

一种学习从输入中提取最重要的信息的系统。自编码器是编码器和解码器的组合。自动编码器依赖于以下两步式过程：

编码器将输入映射到（通常）有损低维（中间）格式。
解码器通过将低维格式映射到原始高维输入格式来构建原始输入的有损版本。

端到端训练的方法是让解码器尝试尽可能接近地根据编码器的中间格式重建原始输入。由于中间格式比原始格式小（维度较低），因此自动编码器会被迫了解输入中的哪些信息是必要的，因此输出不会与输入完全相同。

例如：

如果输入数据是图形，那么非精确副本将与原始图形类似，但稍微做了一些修改。也许非精确复制会移除原始图形中的噪声或填充一些缺失的像素。
如果输入数据是文本，则自动编码器会生成模仿（但并不等同于）原始文本的新文本。

另请参阅变分自编码器。

自回归模型

#language

#image

#生成式 AI

一种模型，会根据自身之前的预测推断出相应的预测model。例如，自动回归语言模型会根据先前预测的词元预测下一个词元。所有基于 Transformer 的大语言模型都是自动回归模型。

相比之下，基于 GAN 的图像模型通常不是自动回归模型，因为它们在单次正向传播中生成图像，而不是逐步生成图像。但是，某些图片生成模型会自动回归，因为它们是按步骤生成图片。

B

边界框

#image

在图片中，感兴趣区域（如下图中的狗）周围矩形的 (x, y) 坐标。

一只狗坐在沙发上的照片。一个绿色边界框，其左上角坐标为 (275, 1271)，右下角坐标为 (2954, 2761)，它圈出了狗的身体

C

卷积

#image

简单来说，在数学中，两个函数的组合。在机器学习中，卷积会将卷积过滤器和输入矩阵混合，以训练权重。

机器学习中的“卷积”一词通常是卷积运算或卷积层的简写形式。

如果没有卷积，机器学习算法必须学习大型张量中每个单元的单独权重。例如，用 2K x 2K 图片训练的机器学习算法将被迫查找 400 万个单独的权重。得益于卷积，机器学习算法只需要计算卷积过滤器中每个单元的权重，从而大大减少了训练模型所需的内存。应用卷积过滤器时，它只是跨单元复制，每个单元都会与过滤器相乘。

卷积过滤器

#image

卷积运算中的两个参与者之一。（另一个参与方是输入矩阵切片。）卷积过滤器是一种矩阵，具有与输入矩阵相同的秩，但形状更小。例如，假设有一个 28x28 的输入矩阵，过滤器可以是任何小于 28x28 的二维矩阵。

在摄影操作中，卷积过滤器中的所有细胞通常都设置为由 1 和 0 构成的恒定模式。在机器学习中，卷积过滤器通常先使用随机数字，然后由网络训练理想值。

卷积层

#image

一个深度神经网络层，卷积过滤器会在其中传递输入矩阵。以下面的 3x3 卷积过滤器为例：

一个 3x3 矩阵，具有以下值：[[0,1,0], [1,0,1], [0,1,0]]

下面的动画展示了一个卷积层，其中包含 9 个涉及 5x5 输入矩阵的卷积运算。请注意，每个卷积运算都在不同的 3x3 输入矩阵切片上执行。生成的 3x3 矩阵（右侧）由 9 个卷积运算的结果组成：

显示两个矩阵的动画。第一个矩阵是 5x5 矩阵：[[128,97,53,201,198]、[35,22,25,200,195]、[37,24,28,197,182]、[33,28,92,195,179,4]、第二个矩阵是 3x3 矩阵：[[181,303,618], [115,338,605], [169,351,560]]。
第二个矩阵通过对 5x5 矩阵的不同 3x3 子集应用卷积过滤器 [[0, 1, 0], [1, 0, 1], [0, 1, 0]] 来计算。

卷积神经网络

#image

一种神经网络，其中至少有一个层是卷积层。典型的卷积神经网络包含以下几层的组合：

卷积层
池化层
密集层

卷积神经网络在解决某些类型的问题（例如图像识别）方面取得了巨大成功。

卷积运算

#image

以下是两步数学运算：

对卷积过滤器和输入矩阵切片执行元素级乘法。（输入矩阵切片与卷积过滤器具有相同的秩和大小。）
对所得乘积矩阵中所有值求和。

以下面的 5x5 输入矩阵为例：

5x5 矩阵：[[128,97,53,201,198]、[35,22,25,200,195]、[37,24,28,197,182]、[33,28,92,195,179]、[10,17]、[30,17]。

现在请想象以下 2x2 卷积过滤器：

2x2 矩阵：[[1, 0], [0, 1]]

每个卷积操作都涉及一个 2x2 的输入矩阵切片。例如，假设我们使用输入矩阵左上角的 2x2 切片。因此，对此切片的卷积运算如下所示：

将卷积过滤器 [[1, 0], [0, 1]] 应用于输入矩阵左上角的 2x2 部分，即 [[128,97], [35,22]]。卷积过滤器会使 128 和 22 保持不变，但会将 97 和 35 清零。因此，卷积运算的结果为 150 (128+22)。

卷积层由一系列卷积运算组成，每个卷积运算都对输入矩阵的不同切片执行操作。

D

数据增强

#image

通过转换现有样本来创建更多样本，人为扩大训练样本的范围和数量。例如，假设图片是您的一个特征，但您的数据集没有足够的图片示例供模型学习有用的关联。理想情况下，您应向数据集添加足够的已加标签图片，使您的模型能够正确训练。如果做不到这一点，数据增强可以旋转、拉伸和反射每张图像，从而生成原始图片的许多变体，从而可能生成足够的加标签数据来实现出色的训练。

深度可分离卷积神经网络 (sepCNN)

#image

一种基于 Inception 的卷积神经网络架构，但其中 Inception 模块被替换为深度可分离的卷积。也称为 Xception。

深度可分离卷积（也称为“可分离卷积”）将标准 3D 卷积分解为两个计算效率更高的独立卷积操作：第一个是深度卷积，深度为 1 (n x n μ × Scaled a point)。

如需了解详情，请参阅 Xception：使用深度可分离卷积进行深度学习。

降采样

#image

一个多含义术语，可以理解为下列两种含义之一：

减少功能中的信息量，以便更高效地训练模型。例如，在训练图片识别模型之前，将高分辨率图片降采样为低分辨率格式。
针对比例过高的类别样本进行训练，以改进对代表性不足的类别的模型训练。例如，在分类不平衡的数据集中，模型往往需要了解很多关于多数类的信息，而对少数类类别的了解不足。降采样有助于平衡多数类别和少数类的训练量。

F

微调

#language

#image

#生成式 AI

在预训练模型上执行的第二轮特定任务的训练，以针对特定使用场景优化其参数。例如，一些大型语言模型的完整训练序列如下所示：

预训练：使用大量通用数据集（例如所有英语维基百科页面）训练大型语言模型。
微调：训练预训练模型，以执行特定任务，例如响应医疗查询。微调通常涉及成百上千个侧重于特定任务的样本。

再举一个例子，大型图片模型的完整训练序列如下所示：

预训练：基于一个大型通用图片数据集（例如维基媒体共享资源中的所有图片）训练大型图片模型。
微调：训练预训练模型以执行特定任务，例如生成虎鲸的图片。

微调可以采用以下策略的任意组合：

修改预训练模型的所有现有参数。这有时称为“完全微调”。
仅修改预训练模型的部分现有参数（通常是最靠近输出层的层），同时保持其他现有参数不变（通常是最靠近输入层的层）。请参阅参数高效调优。
添加更多层，通常在最接近输出层的现有层之上。

微调是一种迁移学习。因此，微调可能会使用与训练预训练模型不同的损失函数或模型类型。例如，您可以微调预训练的大型图片模型，以生成可返回输入图片中鸟类数量的回归模型。

使用以下术语来比较和对比微调：

G

生成式 AI

#language

#image

#生成式 AI

一个新兴的变革性领域，但没有正式定义。也就是说，大多数专家认为，生成式 AI 模型可以创建（“生成”）以下各项：

复杂
连贯
原图

例如，生成式 AI 模型可以创建复杂的论文或图片。

一些早期技术（包括 LSTM 和 RNN）也可以生成连贯的原创内容。一些专家将这些早期技术视为生成式 AI，而另一些专家则认为，真正的生成式 AI 需要的输出比这些早期技术能够产生的更复杂的输出。

与预测性机器学习相对。

I

图像识别

#image

对图片中的对象、模式或概念进行分类的过程。图像识别也称为“图像分类”。

如需了解详情，请参阅机器学习实践课程：图像分类。

交并比 (IoU)

#image

两个集合的交集除以其并集所得的值。在机器学习图片检测任务中，IoU 用于衡量模型的预测边界框相对于标准答案边界框的准确度。在这种情况下，两个框的 IoU 是重叠面积与总面积之间的比率，其值介于 0（预测边界框和标准答案边界框不重叠）到 1（预测边界框和标准答案边界框具有完全相同的坐标）之间。

例如，如下图所示：

预测的边界框（用于划分模型预测画中夜桌所在位置的坐标）用紫色勾勒出去。
标准答案边界框（分隔画面中夜桌实际所在位置的坐标）用绿色勾勒出去。

梵高画作《阿尔勒的文森特卧室》，床旁的夜桌周围有两个不同的边界框。标准答案边界框（绿色）完美地勾勒出了夜表。预测边界框（紫色）向标准答案边界框向下和向右偏移 50%；它封闭了夜间表格的右下四分之一，但缺少表格的其余部分。

在这里，预测框和标准答案的边界框（左下方）的交集为 1，预测的边界框和标准答案的边界框（右下方）的并集为 7，因此 IoU 为 \(\frac{1}{7}\)。

与上图相同，但每个边界框分为四个象限。共有七个象限，因为标准答案边界框的右下象限和预测边界框的左上角象限彼此重叠。这个重叠部分（以绿色突出显示）表示交集，其面积为 1。

与上图相同，但每个边界框分为四个象限。共有七个象限，因为标准答案边界框的右下象限和预测边界框的左上角象限彼此重叠。由两个边界框包围的整个内部（以绿色突出显示）表示并集，其面积为 7。

K

关键点

#image

图片中特定特征的坐标。例如，对于区分花卉种类的图片识别模型，关键点可以是每个花瓣的中心、枝干、茎干等。

L

landmarks

#image

与关键点的含义相同。

M

MNIST

#image

由 LeCun、Cortes 和 Burges 编译的公共领域数据集，包含 60000 张图片，每张图片都会显示人类如何手动写出从 0 到 9 的特定数字。每张图像都存储为 28x28 的整数数组，其中每个整数都是 0 到 255（含）之间的灰度值。

MNIST 是机器学习的规范数据集，通常用于测试新的机器学习方法。如需了解详情，请参阅 MNIST 手写数字数据库。

P

池化

#image

将由前面的卷积层创建的一个或多个矩阵缩减为较小的矩阵。池化通常涉及取整个池化区域的最大值或平均值。例如，假设我们有以下 3x3 矩阵：

3x3 矩阵 [[5,3,1], [8,2,5], [9,4,3]]。

池化运算与卷积运算类似，也会将矩阵分割为多个切片，然后按步长滑动该卷积运算。例如，假设池化运算以 1x1 步长将卷积矩阵分割为 2x2 的切片。如下图所示，会执行四个池化操作。假设每个池化运算都会选择该切片中四个运算的最大值：

输入矩阵为 3x3，值为：[[5,3,1], [8,2,5], [9,4,3]]。输入矩阵的左上角 2x2 子矩阵是 [[5,3], [8,2]]，因此左上角的池化运算会生成值 8（该值为 5、3、8 和 2 的最大值）。输入矩阵右上角的 2x2 子矩阵是 [[3,1], [2,5]]，因此右上角的池化运算会生成值 5。输入矩阵左下角 2x2 子矩阵是 [[8,2], [9,4]]，因此左下角池化运算产生值 9。输入矩阵的右下角 2x2 子矩阵是 [[2,5], [4,3]]，因此右下角池化运算会得到值 5。总而言之，池化运算产生 2x2 矩阵 [[8,5], [9,5]]。

池化有助于在输入矩阵中实现平移不变性。

对于视觉应用，池化的更正式名称为空间池化。时间序列应用通常将池化称为时序池化。按照不太正式的说法，池化通常称为“下采样”或“降采样”。

预训练模型

#language

#image

#生成式 AI

已经过训练的模型或模型组件（例如嵌入向量）。有时，您需要将预训练的嵌入向量馈送到神经网络中。而在其他时候，您的模型将自行训练嵌入向量，而不依赖于预训练的嵌入。

术语“预训练语言模型”是指已完成预训练的大语言模型。

预训练

#language

#image

#生成式 AI

使用大型数据集对模型进行的初始训练。一些预训练模型是笨拙的巨型模型，通常必须通过额外的训练进行优化。例如，机器学习专家可能会基于大型文本数据集（例如维基百科中的所有英语页面）预训练大型语言模型。在预训练之后，可以通过以下任何方法进一步优化生成的模型：

R

旋转不变性

#image

在图像分类问题中，即使图像的方向发生变化，算法也能成功对图像进行分类。例如，无论网球拍是朝上、侧向还是朝下，该算法仍然可以识别它。请注意，并非总是期望旋转不变；例如，倒置 9 不应被归类为 9。

另请参阅平移不变性和大小不变性。

南

大小不变性

#image

在图像分类问题中，即使图像大小发生变化，算法也能成功对图像进行分类。例如，无论一只猫是消耗 200 万像素还是 20 万像素，该算法仍然可以识别它。请注意，即使是最好的图像分类算法在大小不变性方面仍然有实际的限制。例如，算法（或人类）不太可能对仅消耗 20 像素的猫图片进行正确分类。

另请参阅平移不变性和旋转不变性。

空间池化

#image

请参阅 pooling。

步幅

#image

在卷积运算或池化中，后续一系列输入切片的每个维度中的增量。例如，以下动画演示了卷积操作期间的步长 (1,1)。因此，下一个输入切片从上一个输入切片右侧的一个位置开始。当操作到达右侧边缘时，下一个切片将一直移动到左侧，但向下一个位置。

一个 5x5 输入矩阵和一个 3x3 卷积过滤器。由于步长为 (1,1)，因此卷积过滤器将被应用 9 次。第一个卷积切片对输入矩阵左上角的 3x3 子矩阵求值。第二个切片对顶部中间的 3x3 子矩阵求值。第三个卷积切片对右上角的 3x3 子矩阵求值。第四个切片对左侧中间的 3x3 子矩阵求值。第五个切片对中间的 3x3 子矩阵求值。第六个切片对中间右边的 3x3 子矩阵求值。第七个切片对左下方的 3x3 子矩阵求值。第八个切片对底部中间的 3x3 子矩阵求值。第九个切片对右下角的 3x3 子矩阵求值。

上面的示例演示了二维步长。如果输入矩阵是三维的，则步长也是三维的。

下采样

#image

请参阅 pooling。

T

温度

#language

#image

#生成式 AI

一种超参数，用于控制模型输出的随机性。温度越高，输出的随机程度越高，而温度越低，输出的随机性越小。

选择最佳温度取决于具体应用和模型输出的首选属性。例如，在创建可生成广告素材输出的应用时，您可能会提高温度。相反，为了提高模型的准确性和一致性，在构建对图片或文本进行分类的模型时，您可能需要降低温度。

温度通常与 softmax 一起使用。

平移不变性

#image

在图像分类问题中，即使图像中对象的位置发生变化，算法也能成功对图像进行分类。例如，无论狗是位于画面的中心还是画面的左端，该算法仍然可以识别它。

另请参阅大小不变性和旋转不变性。