机器学习术语表:图像模型

本页面包含图片模型术语表。如需查看所有术语表,请点击此处

增强现实

#image

一种技术,将计算机生成的图像叠加在用户的真实世界视图上,从而提供合成视图。

Autoencoder

#language
#image

一种系统学习如何从输入中提取最重要的信息。自编码器是编码器解码器的组合。自动编码器依赖于以下两个步骤:

  1. 编码器将输入映射到(通常)有损低维(中间)格式。
  2. 解码器通过将低维格式映射到原始高维输入格式来构建原始输入的有损版本。

对自编码器进行端到端训练,方法是让解码器尝试尽可能接近编码器的中间格式重建原始输入。由于中间格式比原始格式小(维度更低),因此自动编码器必须学习输入中的哪些信息是必要的,输出与输入并不完全相同。

例如:

  • 如果输入数据是图形,则非精确副本将与原始图形类似,但稍微修改了。或许,非精确副本会去除原始图形中的噪声或填充一些缺失的像素。
  • 如果输入数据是文本,则自动编码器会生成模仿(但并不等同于)原始文本的新文本。

另请参阅变体自动编码器

自回归模型

#language
#image
#生成式 AI

一种模型model,用于根据自身先前的预测推断预测。例如,自动回归语言模型会根据先前预测的令牌来预测下一个令牌。所有基于 Transformer大型语言模型都是自回归模型。

相比之下,基于 GAN 的图像模型通常不是自动回归模型,因为它们在单次正向传递中生成图像,而不是逐步以迭代方式生成。不过,某些图片生成模型是自动回归模型,因为它们会逐步生成图片。

B

边界框

#image

在图片中,所关注区域(如下图中的狗)周围矩形的 (x, y) 坐标为 (x, y) 坐标。xx

一只狗坐在沙发上的照片。一个绿色边界框,其左上坐标为 (275, 1271),右下角坐标为 (2954, 2761),围绕狗的身体

C

卷积

#image

简单来说,在数学中是两个函数的混合。在机器学习中,卷积会将卷积过滤器和输入矩阵混合在一起,以训练权重

机器学习中的“卷积”一词通常是卷积运算卷积层的简写方式。

如果没有卷积,机器学习算法必须学习大型张量中每个单元的单独权重。例如,用 2K x 2K 图片训练的机器学习算法将被迫找出 400 万个单独的权重。得益于卷积,机器学习算法只需计算卷积过滤器中每个单元的权重,大大减少了训练模型所需的内存。应用卷积过滤器后,它只需跨单元格进行复制,每个单元格都会与过滤器相乘。

卷积过滤器

#image

卷积运算中的两个参与者之一。(另一个参与者是输入矩阵的一部分。)卷积过滤器是一种矩阵,其与输入矩阵相同,但形状较小。例如,给定一个 28x28 的输入矩阵,过滤器可以是小于 28x28 的任何二维矩阵。

在照片处理中,卷积过滤器中的所有细胞通常都设置为恒定的 1 和 0 模式。在机器学习中,卷积过滤器通常会以随机数字作为种子,然后由网络训练理想值。

卷积层

#image

深度神经网络的一个层,卷积过滤器会在该层中传递输入矩阵。以下面的 3x3 卷积过滤器为例:

包含以下值的 3x3 矩阵:[[0,1,0], [1,0,1], [0,1,0]]

下面的动画展示了一个卷积层,它包含 9 个卷积运算,涉及 5x5 输入矩阵。请注意,每个卷积运算都针对一个不同的 3x3 输入矩阵切片。生成的 3x3 矩阵(右侧)包含 9 次卷积运算的结果:

此动画显示两个矩阵。第一个矩阵是 5x5 矩阵:[[128,97,53,201,198]、[35,22,25,200,195]、[37,24,28,197,182]、[33,28,92,195,179,4]、第二个矩阵是 3x3 矩阵:[[181,303,618], [115,338,605], [169,351,560]]。第二个矩阵通过对 5x5 矩阵的不同 3x3 子集应用卷积过滤器 [[0, 1, 0], [1, 0, 1], [0, 1, 0]] 来计算。

卷积神经网络

#image

一种神经网络,其中至少有一个层是卷积层典型的卷积神经网络包含以下层的某种组合:

卷积神经网络在解决某些类型的问题(例如图像识别)方面取得了巨大成功。

卷积运算

#image

以下两步数学运算:

  1. 卷积过滤器和输入矩阵切片执行元素级乘法。(输入矩阵切片与卷积过滤器具有相同的秩和大小。)
  2. 对所得乘积矩阵中所有值的总和。

以下面的 5x5 输入矩阵为例:

5x5 矩阵:[[128,97,53,201,198]、[35,22,25,200,195]、[37,24,28,197,182]、[33,28,92,195,179]、[31,40.17]

现在,假设有以下 2x2 卷积过滤器:

2x2 矩阵:[[1, 0], [0, 1]]

每个卷积运算都涉及一个 2x2 输入矩阵切片。例如,假设我们使用输入矩阵左上角的 2x2 切片。因此,对此切片的卷积运算如下所示:

将卷积过滤器 [[1, 0], [0, 1]] 应用于输入矩阵左上角的 2x2 部分,即 [[128,97], [35,22]]。卷积过滤器会使 128 和 22 保持不变,但会将 97 和 35 归零。因此,卷积运算得到值 150 (128+22)。

卷积层由一系列卷积运算组成,其中每个卷积运算都对不同的输入矩阵切片。

D

数据增强

#image

人为增加 训练样本的范围和数量 通过转换现有样本来增加 例如,假设图片是您的其中一个特征,但您的数据集中没有足够的图片示例供模型学习实用关联。理想情况下,您应向数据集添加足够多的已加标签图片,使模型能够正确训练。如果做不到这一点,数据增强可以旋转、拉伸和反射每张图像,以生成原始照片的多个变体,从而可能生成足够的带标签数据以实现出色的训练。

深度可分离的卷积神经网络 (sepCNN)

#image

基于 Inception卷积神经网络架构,但其 Inception 模块被替换为深度可分离的卷积。也称为 Xception。

深度可分离的卷积(也称为“可分离卷积”)可将标准的 3-D 卷积分解为两个计算效率更高的单独卷积运算:首先是深度卷积,深度为 1(n x n convolution,宽度为 1,宽度为 1),第二项为

如需了解详情,请参阅 Xception:利用深度可分离卷积进行深度学习

降采样

#image

一个多含义术语,可以理解为下列两种含义之一:

  • 减少特征中的信息量,以便更高效地训练模型。例如,在训练图片识别模型之前,将高分辨率图片降采样为较低的分辨率格式。
  • 使用比例过高的过度代表的类别样本进行训练,以改进对缺乏足够代表的类别的模型训练。例如,在分类不平衡数据集中,模型往往会学习大量关于多数类的信息,但对少数类的了解不够充分。降采样有助于平衡多数类别和少数类的训练量。

F

微调

#language
#image
#生成式 AI

预训练模型执行的第二次特定于任务的训练,以针对特定使用场景优化其参数。例如,某些大型语言模型的完整训练序列如下所示:

  1. 预训练:基于庞大的通用数据集(例如所有英语维基百科页面)训练大型语言模型。
  2. 微调:训练预训练模型以执行特定任务,例如响应医疗查询。微调通常涉及成百上千个侧重于特定任务的示例。

再举一个例子,大型图片模型的完整训练序列如下所示:

  1. 预训练:基于一个庞大的通用图片数据集(例如维基媒体共享文档中的所有图片)训练大型图片模型。
  2. 微调:训练预训练模型以执行特定任务,例如生成虎鲸的图片。

微调策略可采用以下策略的任意组合:

  • 修改预训练模型的所有现有参数这有时称为“完全微调”。
  • 仅修改预训练模型的部分现有参数(通常是最靠近输出层的层),同时保持其他现有参数不变(通常是最靠近输入层的层)。请参阅参数高效微调
  • 添加更多层,通常在最接近输出层的现有层之上。

微调是一种迁移学习因此,微调可能会使用与训练预训练模型不同的损失函数或不同的模型类型。例如,您可以对预训练的大型图片模型进行微调,以生成可返回输入图片中鸟类数量的回归模型。

使用以下术语比较微调和对比:

G

生成式 AI

#language
#image
#生成式 AI

一种新兴的变革性字段,没有正式定义。 尽管如此,大多数专家都认同生成式 AI 模型可以创建(“生成”)以下各项:

  • 复杂
  • 连贯
  • 原图

例如,生成式 AI 模型可以创建复杂的论文或图片。

一些早期技术(包括 LSTMRNN)也可以生成原始且连贯的内容。一些专家将这些早期技术视为生成式 AI,而另一些专家则认为真正的生成式 AI 需要的输出比这些早期技术生成的更为复杂。

预测性机器学习相对。

I

图像识别

#image

对图片中的对象、模式或概念进行分类的过程。图像识别也称为“图像分类”。

如需了解详情,请参阅机器学习实践:图像分类

交并比 (IoU)

#image

两组的交集除以其并集。在机器学习图片检测任务中,IoU 用于衡量模型的预测边界框相对于标准答案边界框的准确度。在这种情况下,两个框的 IoU 是重叠面积与总面积之间的比率,其值范围为 0(预测边界框和标准答案边界框不重叠)到 1(预测边界框和标准答案边界框具有完全相同的坐标)。

例如,如下图所示:

  • 预测边界框(模型预测画面中夜桌所在位置的坐标分隔)以紫色勾勒。
  • 标准答案边界框(这是画中夜桌实际所在位置的坐标)以绿色勾勒。

梵高的画作《Vincent's Bedroom in Arles》,床边的桌子周围有两个不同的边界框。标准答案边界框(用绿色表示)完美地限定了夜间表格。预测的边界框(紫色)偏移 50%,向下和标准答案边界框向右移动;它圈了睡桌的右下方四分之一,但缺少表的其余部分。

在这里,预测的边界框和标准答案的边界框(左下方)的交集为 1,预测的边界框和标准答案的边界框的并集(右下方)为 7,因此 IoU 为 \(\frac{1}{7}\)。

图片与上图相同,但每个边界框分为四个象限。总共有七个象限,因为标准答案边界框的右下角象限和预测边界框的左上角象限彼此重叠。这个重叠部分(以绿色突出显示)表示交叉部分,面积为 1。 图片与上图相同,但每个边界框分为四个象限。总共有七个象限,因为标准答案边界框的右下角象限和预测边界框的左上角象限彼此重叠。由两个边界框包围的整个内部(以绿色突出显示)表示并集,面积为 7。

K

关键点

#image

图片中特定特征的坐标。例如,对于区分花卉种类的图片识别模型,关键点可能是每个花瓣的中心、茎、花柱等。

L

landmarks

#image

关键点的含义相同。

M

MNIST

#image

一个由 LeCun、Cortes 和 Burges 编译的公共领域数据集,包含 60000 张图片,每张图片都显示了人类如何手动写下从 0 到 9 的特定数字。每张图像存储为一个 28x28 的整数数组,其中每个整数是 0 到 255(含)之间的灰度值。

MNIST 是机器学习的规范数据集,通常用于测试新的机器学习方法。如需了解详情,请参阅 MNIST 手写数字数据库

P

池化

#image

将前面的卷积层创建的矩阵缩减为较小的矩阵。池化通常涉及取整个池化区域的最大值或平均值。例如,假设我们有以下 3x3 矩阵:

3x3 矩阵 [[5,3,1], [8,2,5], [9,4,3]]。

池化运算与卷积运算一样,会将矩阵分割为多个切片,然后按步长滑动该卷积运算。例如,假设池化运算以 1x1 步长将卷积矩阵分割为 2x2 片。如下图所示,进行了四个池化运算。假设每个池化运算都会选择该切片中四个值的最大值:

输入矩阵为 3x3,值为:[[5,3,1], [8,2,5], [9,4,3]]。输入矩阵左上角的 2x2 子矩阵是 [[5,3], [8,2]],因此左上角的池化运算会生成值 8(该值为 5、3、8 和 2 的最大值)。输入矩阵右上角的 2x2 子矩阵是 [[3,1], [2,5]],因此右上角池化运算会生成值 5。输入矩阵左下角 2x2 子矩阵是 [[8,2], [9,4]],因此左下角池化运算产生值 9。输入矩阵右下角的 2x2 子矩阵是 [[2,5], [4,3]],因此右下角池化运算会生成值 5。总而言之,池化运算产生 2x2 矩阵 [[8,5], [9,5]]。

池化有助于在输入矩阵中强制执行平移不变性

视觉应用的池化更正式地称为“空间池化”。时间序列应用通常将池化称为时序池化。按照不太正式的说法,池化通常称为“下采样”或“降采样”。

预训练模型

#language
#image
#生成式 AI

已经过训练的模型或模型组件(例如嵌入向量)。有时,您需要将预训练的嵌入向量馈送到神经网络中。在其他时候,您的模型将自行训练嵌入向量,而不是依赖于预训练的嵌入。

术语预训练语言模型是指已完成预训练大型语言模型

预训练

#language
#image
#生成式 AI

基于大型数据集开始模型训练。一些预训练模型是笨拙的巨人,通常必须通过额外的训练来进行优化。例如,机器学习专家可能会基于庞大的文本数据集(例如维基百科中的所有英语页面)预训练大型语言模型。在预训练之后,可通过以下任何技术进一步优化生成的模型:

R

旋转不变性

#image

在图像分类问题中,即使图像的方向发生变化,算法也能成功对图像进行分类。例如,无论网球拍向上、侧向还是向下,该算法仍然可以识别它。请注意,并非总是希望旋转不变;例如,上下颠倒的 9 不应归类为 9。

另请参阅平移不变性大小不变性

大小不变性 (size invariance)

#image

在图像分类问题中,即使图像的大小发生变化,算法也能够成功对图像进行分类。例如,无论猫是消耗 200 万像素还是 20 万像素,该算法仍然可以识别它。请注意,即使是最好的图片分类算法在大小不变性方面也存在实际限制。例如,算法(或人类)不太可能对仅消耗 20 像素的猫图片进行正确分类。

另请参阅平移不变性旋转不变性

空间池化

#image

请参阅 pooling

步幅

#image

在卷积运算或池化中,下一个系列输入切片的每个维度的增量。例如,以下动画展示了卷积运算期间的 (1,1) 步幅。因此,下一个输入切片从上一个输入切片右侧的一个位置开始。当操作到达右侧边缘时,下一个切片会移动到最左侧,但向下一个位置。

一个 5x5 输入矩阵和一个 3x3 卷积过滤器。由于步长是 (1,1),因此卷积过滤器将应用 9 次。第一个卷积切片会对输入矩阵左上角的 3x3 子矩阵求值。第二个切片对顶部中间的 3x3 子矩阵求值。第三个卷积切片对右上角的 3x3 子矩阵求值。第四个切片对中间左边的 3x3 子矩阵求值。第五个切片对中间 3x3 子矩阵求值。第六个切片对中右侧 3x3 子矩阵求值。第七个切片对左下角的 3x3 子矩阵求值。第八个切片对中下下方 3x3 子矩阵求值。第九个切片对右下角的 3x3 子矩阵求值。

前面的示例演示了二维步长。如果输入矩阵是三维的,那么步长也是三维。

下采样

#image

请参阅 pooling

T

温度

#language
#image
#生成式 AI

一个超参数,用于控制模型输出的随机性。温度越高,随机输出的随机性越高,而温度越低,随机输出越少。

选择最佳温度取决于具体应用和所需的模型输出属性。例如,在创建可生成广告素材输出的应用时,您可能会提高温度。相反,为了提高模型的准确性和一致性,在构建对图片或文本进行分类的模型时,您可能需要降低温度。

温度通常与 softmax 一起使用。

平移不变性

#image

在图像分类问题中,即使图像中对象的位置发生变化,算法也能够成功对图像进行分类。例如,无论狗是位于画面中央还是画面最左端,该算法仍然可以识别它。

另请参阅大小不变性旋转不变性