机器学习术语表:图片模型

本页面包含图片模型术语表术语。如需了解所有术语表术语,请点击此处

应用

增强现实

#image

一种技术,将计算机生成的图像叠加到用户现实世界的视角,从而提供复合视图。

自动编码器

#language
#image

这个系统学习如何从输入中提取最重要的信息。自动编码器是编码器解码器的组合。自动编码器依赖于以下两个步骤:

  1. 编码器将输入映射到(通常)有损低维度(中间)格式。
  2. 解码器通过将较低维度的格式映射到原始的高维度输入格式来构建有损版本。

我们对编码器进行端到端训练,方法是让解码器尽可能从编码器的中间格式重建原始输入。由于中间格式比原始格式要小(维度更低),因此自动编码器必须了解输入中的哪些信息是重要信息,且输出与输入并不完全相同。

例如:

  • 如果输入数据是图形,则非精确副本将与原始图形类似,但略有改动。例如,非完全匹配的副本可能会移除原始图形中的噪声或填充某些缺失的像素。
  • 如果输入数据是文本,则自动编码器将生成模仿原始文本(但并不完全相同)的新文本。

另请参阅变体自编码器

自动回归模型

#language
#image
#通用 AI

一种模型,用于根据其自身的预测结果来推断预测结果。例如,自动回归语言模型会根据先前预测的令牌来预测下一个令牌。所有基于转换器大型语言模型都是自动回归的。

相比之下,基于 GAN 的图片模型通常不是自动回归的,因为它们在单次前向传递中不会重复生成图片。但是,某些图片生成模型会自动回归,因为它们会逐步生成图片。

B

边界框

#image

在图像中,矩形 (x, y) 的坐标位于某个相关区域(例如下图中的狗)周围。

一张狗坐在沙发上的照片。一个绿色边界框,左上坐标为 (275, 1271),右下角坐标为 (2954, 2761),环绕着狗身

C

卷积

#image

在数学中,随意是指两种函数的混合。在机器学习中,卷积混合使用卷积过滤器和输入矩阵来训练权重

在机器学习中,“卷积”一词通常是指卷积运算卷积层

在没有卷积的情况下,机器学习算法需要学习大型张量中每个单元格的单独权重。例如,使用 2K x 2K 图片训练的机器学习算法将被迫查找 400 万个单独的权重。得益于卷积,机器学习算法只需找到卷积过滤器中每个单元格的权重,从而大大减少训练模型所需的内存。应用卷积过滤器时,只需将其复制到所有单元格中,使每个卷积都乘以过滤器。

卷积过滤器

#image

卷积运算中的两位演员之一。(另一个执行方是输入矩阵的一部分)。卷积过滤器是一种与输入矩阵具有相同的矩阵,但其形状较小。 例如,对于 28x28 输入矩阵,该过滤器可以是小于 28x28 的任何 2D 矩阵。

在照片操作中,卷积过滤器中的所有单元格通常设置为 1 和 0 的恒定模式。在机器学习中,卷积过滤器通常以随机数作为种子,然后网络会训练理想值。

卷积层

#image

一个深度神经网络层,其中卷积过滤器输入例如,请考虑以下 3x3 卷积过滤器

具有以下值的 3x3 矩阵:[[0,1,0], [1,0,1], [0,1,0]]

以下动画显示由 9 个卷积运算(其中涉及 5x5 输入矩阵)组成的卷积层。请注意,每个卷积运算都针对不同的 3x3 输入矩阵切片执行。生成的 3x3 矩阵(右侧)由 9 个卷积运算的结果组成:

显示两个矩阵的动画。第一个矩阵是 5x5 矩阵:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,117]177,177]第二个矩阵是 3x3 矩阵:[[181,303,618], [115,338,605], [169,351,560]]。
第二个矩阵是对 5x5 矩阵的不同 3x3 子集应用卷积过滤器 [[0, 1, 0], [1, 0, 1], [0, 1, 0]]。

卷积神经网络

#image

一种神经网络,其中至少一个层是卷积层。典型的卷积神经网络由以下层的某种组合组成:

卷积神经网络在某些类型的问题(如图像识别)上取得了巨大成功。

卷积运算

#image

以下两步数学运算:

  1. 卷积过滤器和输入矩阵切片进行元素级乘法。(输入矩阵的切片与卷积过滤器具有相同的排名和大小。)
  2. 对得到的产品矩阵中的所有值进行求和。

例如,假设存在以下 5x5 输入矩阵:

5x5 矩阵:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [11,47,177]

现在,假设以下 2x2 卷积过滤器:

2x2 矩阵:[[1, 0], [0, 1]]

每个卷积运算都涉及一个输入 2x2 输入矩阵。例如,假设我们使用输入矩阵左上角的 2x2 切片。因此,该切片的卷积运算如下所示:

将卷积过滤器 [[1, 0], [0, 1]] 应用于输入矩阵的左上角 2x2 部分,即 [[128,97], [35,22]]。
          
          卷积过滤器使 128 和 22 保持不变,但 97 和 35 为零。因此,卷积运算会产生 150 (128+22) 值。

卷积层由一系列卷积运算组成,每个卷积运算处理不同的输入矩阵切片。

D

数据增强

#image

通过转换现有示例,人为地增加训练示例的范围和数量,以创建更多示例。例如,假设图片是您的特征之一,但数据集包含的图片不足以让模型学习有用的关联。理想情况下,您应该向数据集添加足够多的标签图片,使您的模型能够正确训练。如果无法做到这一点,数据增强可以旋转、拉伸和反映每张图像,以生成原始图片的许多变体,并可能产生足够的带标签数据以实现出色的训练效果。

深度可分离卷积神经网络 (sepCNN)

#image

基于 Inception卷积神经网络架构,但 Inception 模块已被深度分离的卷积取代。也称为 Xception。

深度可分离卷积(也称为可拆分卷积)可将标准的 3D 卷积分解为两个计算效率更高的卷积:首先,深度为 1 (n 🇪? n 🇪? 1),深度为 1 (深度 n 🇪? 1),其次是点宽 (1)。

如需了解详情,请参阅 Xception:使用深度可分离卷积的深度学习

降采样

#image

多余字词是指以下任何一种情况:

  • 减少特征中的信息量,以更高效地训练模型。例如,在训练图像识别模型之前,将高分辨率图像降采样为较低的分辨率格式。
  • 使用比例偏高的类别示例进行比例偏低的训练,以提升针对缺乏足够代表的类别的模型训练效果。例如,在类别不均衡数据集中,模型往往会学到大多数类别,但不会充分了解少数类降采样有助于在多数类和少数类之间平衡训练量。

F

微调

#language
#image
#通用 AI

针对预训练模型执行第二项任务特定训练传递,以针对特定用例优化其参数。例如,某些大型语言模型的完整训练序列如下所示:

  1. 预训练:在庞大的常规数据集(例如所有英语版维基百科页面)上训练一个大型语言模型。
  2. 微调:训练预训练模型以执行特定的任务,例如响应医疗查询。微调通常需要涉及特定任务的数百或数千个示例。

再举一个例子,大型图片模型的完整训练序列如下所示:

  1. 预训练:在庞大的通用图片数据集(例如 Wikimedia Commons 中的所有图片)上训练大型图片模型。
  2. 微调:训练预训练模型以执行特定任务,例如生成虎鲸图片。

微调可能涉及以下策略的任意组合:

  • 修改所有预训练模型的现有参数。这有时称为完全微调
  • 仅修改部分预训练模型的现有参数(通常是最接近输出层的层),而保持其他现有参数保持不变(通常最接近输入层的层)。
  • 添加更多层(通常位于最靠近输出层的现有层之上)。

微调是一种迁移学习形式。因此,微调可能会使用不同于训练预训练模型的损失函数或模型类型。例如,您可以微调预训练的大型图片模型,以生成回归模型,以返回输入图片中的鸟类数量。

使用下列术语比较和微调微调:

G

生成式 AI

#language
#image
#通用 AI

没有正式定义的新兴转换字段。也就是说,大多数专家都同意生成 AI 模型可以创建(“生成”)以下全部内容:

  • 复杂
  • 连贯
  • 原图

例如,生成 AI 模型可以创建复杂的论文或图片。

一些早期技术(包括 LSTMRNN)也可以生成原创内容并且具有一致性。一些专家认为这些早期的技术属于生成式 AI,而另一些专家则认为真正的生成式 AI 需要比这些早期技术能够生成的更复杂的输出。

预测性机器学习相对。

I

图像识别

#image

对图片中的对象、图案或概念进行分类的过程。 图像识别也称为图像分类

如需了解详情,请参阅机器学习实践:图像分类

交并比 (IoU)

#image

两组的交集除以它们的并集。在机器学习图像检测任务中,IoU 用于衡量模型预测的边界框相对于标准答案边界框的准确性。在这种情况下,两个框的 IoU 是重叠区域与总面积之间的比率,并且其值范围为 0(预测的边界框和标准答案边界框没有重叠)到 1(预测的边界框和标准答案边界框具有完全相同的坐标)。

例如,在下图中:

  • 预测的边界框(坐标用于预测模型在画中的夜间表所在的位置)以紫色轮廓。
  • 标准答案边界框(坐标中绘制的夜间表格实际所在位置的坐标)以绿色轮廓显示。

梵高在《阿尔勒的卧室》中绘有“文森特卧室”(Bincent's Bedroom in Arles) 的画面,床边的夜桌旁放置了两个不同的边界框。标准答案边界框(绿色)完美地环绕了夜表。预测的边界框(以紫色表示)在标准答案边界框的右侧和右侧偏移 50%;它会包围夜间表格的右下角,但会缺少表格的其余部分。

在这里,用于预测的边界框和标准答案的交集(左下角)为 1,预测和标准答案的边界框的并集为 7,因此 IoU 为 \(\frac{1}{7}\)。

与上文相同,但每个边界框划分为四个象限。总共有 7 个象限,因为标准答案边界框的右下角象限与预测边界框的左上角象限相互重叠。此重叠部分(以绿色突出显示)表示交叉路口,面积为 1。 与上文相同,但每个边界框划分为四个象限。总共有 7 个象限,因为标准答案边界框的右下角象限与预测边界框的左上角象限相互重叠。两个边界框围成的整个内部(以绿色突出显示)代表联合体,并且具有 7 面积。

K

关键点

#image

图片中特定地图项的坐标。例如,对于一种图片识别模型,用于区分花卉种类,每个花瓣、茎、花瓣等中心都可能是关键点。

L

landmarks

#image

要点的含义相同。

M

MNIST

#image

由 LeCun、Cortes 和 Burges 编译的公共领域数据集,其中包含 60000 张图片,每张图片都显示人类如何手动写入 0-9 之间的特定数字。每张图片都存储为 28x28 个整数数组,其中每个整数都是 0 到 255(含 0 和 255)之间的灰度值。

MNIST 是机器学习的规范数据集,通常用于测试新的机器学习方法。如需了解详情,请参阅 MNIST 手写数字数据库

P

池化

#image

将由之前的卷积层创建的矩阵缩减为较小的矩阵。 池化通常涉及对共用区域使用最大值或平均值。例如,假设我们有以下 3x3 矩阵:

3x3 矩阵 [[5,3,1], [8,2,5], [9,4,3]]。

池化运算与卷积运算类似,它会将该矩阵拆分为多个切片,然后按步长滑动该卷积运算。例如,假设池化运算以 1x1 步长的方式将卷积矩阵划分为 2x2 个切片。如下图所示,发生了四项池化操作。假设每次池化运算都会选择该切片中第四项的最大值:

输入矩阵为 3x3,值为:[[5,3,1], [8,2,5], [9,4,3]]。
          输入矩阵的左上角 2x2 子矩阵为 [[5,3], [8,2]],因此左上角池化运算会生成值 8(最大值为 5、3、8 和 2)。输入矩阵右上角的 2x2 子矩阵为 [[3,1], [2,5]],因此右上角池化运算会生成值 5。输入矩阵的左 2x2 子矩阵为 [[8,2], [9,4]],因此左边池化运算会产生值 9。输入矩阵右下角的 2x2 子矩阵为 [[2,5], [4,3]],因此右下角池化运算会产生值 5。总而言之,池化运算会产生 2x2 矩阵 [[8,5], [9,5]]。

池化有助于在输入矩阵中强制执行翻译不变性

视觉应用池化更正式地称为空间池化。时序应用通常将池化称为时间池化。一种不太正式的概念是池化,通常称为下采样或降采样。

预训练模型

#language
#image
#通用 AI

已经过训练的模型或模型组件(例如嵌入向量)。有时,您需要将预训练的嵌入向量馈送到神经网络中。有时,模型会自行训练嵌入向量,而不是依赖预训练的嵌入。

术语预训练语言模型是指经过预训练大型语言模型

预训练

#language
#image
#通用 AI

基于大型数据集对模型的初始训练。一些预训练模型是笨拙的巨型模型,通常必须通过额外的训练加以优化。例如,机器学习专家可以在庞大的文本数据集(例如维基百科中的所有英语页面)上预训练大型语言模型。预训练后,您可以通过以下任一方法进一步优化生成的模型:

(右)

旋转不变

#image

在图像分类问题中,即使图像的方向发生变化,算法也会成功对图像进行分类。例如,无论网球拍是朝上、侧向还是下推,算法仍然可以识别它。请注意,旋转不变性并非总是可取的;例如,不应将倒立的 9 归类为 9。

另请参阅翻译不变性大小不变性

S

大小不变性

#image

在图像分类问题中,即使图像的大小发生变化,算法也会成功对图像进行分类。例如,算法仍然可以识别猫是消耗 200 万像素还是 20 万像素。请注意,即使是最好的图像分类算法,在大小不变性方面仍然具有实际限制。例如,算法(或人工)不太可能将只占用 20 个像素的猫图片正确分类。

另请参阅翻译不变性旋转不变性

空间池化

#image

请参阅

步长

#image

在卷积运算或池化中,下一个系列输入切片的每个维度中的增量。例如,以下动画展示了在卷积运算期间的步进 (1,1)。因此,下一个输入切片会从上一个输入切片的右侧开始一个位置。当操作到达右侧边缘时,下一个切片将一直向左,但是向下移动一个位置。

一个输入 5x5 矩阵和一个 3x3 卷积过滤器。由于步长为 (1,1),因此会应用卷积过滤器 9 次。第一个卷积切片会评估输入矩阵的左上角 3x3 子矩阵。第二个切片会评估顶部中间的 3x3 子矩阵。第三个卷积切片会评估右上角的 3x3 子矩阵。第四部分会评估中间的 3x3 子矩阵。第五个切片会评估中间的 3x3 子矩阵。第六个切片评估的是中间右侧 3x3 子矩阵。第七个切片会评估左下角的 3x3 子矩阵。第八个切片会评估中下层 3x3 子矩阵。第九个切片会评估右下角的 3x3 子矩阵。

上面的示例演示了二维步长。如果输入矩阵是三维,那么步长也将是三维。

下采样

#image

请参阅

T

温度

#language
#image
#通用 AI

一个超参数,用于控制模型输出的随机性程度。温度越高,输出越随机,而温度越低,输出越随机。

选择最佳温度取决于特定应用以及模型输出的所需属性。例如,在创建创建广告素材输出的应用时,您可能需要调高温度。相反,在构建用于对图片或文本进行分类的模型时,您可能需要降低温度,以提高模型的准确性和一致性。

温度通常与 softmax 一起使用。

翻译不变性

#image

在图像分类问题中,即使对象在图像中的位置发生变化,算法也会成功对图像进行分类。例如,算法仍然可以识别狗,无论它位于画面的中心还是画面的左端。

另请参阅大小不变性旋转不变