机器学习术语表:图片模型

本页面包含图片模型术语表术语。如需了解所有术语表,请点击此处

A

增强现实

#image

一种技术,可在用户的现实世界视图中叠加计算机生成的图像,从而提供复合视图。

B

边界框

#image

在图片中,矩形以 (x, y) 坐标为中心,位于目标区域,比如下图中的狗。

照片中一只小狗坐在沙发上。左上坐标为 (275, 1271) 且右下角坐标为 (2954, 2761) 的绿色边界框环绕着狗狗的身体

C

卷积

#image

从数学的角度来说,休闲是指两个函数的结合。在机器学习中,卷积混合卷积过滤器和输入矩阵以训练权重

机器学习中的“卷积”一词通常是指卷积运算卷积层的简写形式。

如果没有卷积,机器学习算法将需要为大型张量中的每个单元格学习单独的权重。例如,使用 2K x 2K 图像进行训练的机器学习算法将被迫查找 400 万个单独的权重。借助卷积,机器学习算法只需查找卷积过滤器中每个单元的权重,即可显著降低训练模型所需的内存。应用卷积过滤器时,它只会跨单元格进行复制,这样每个卷积过滤器都会与过滤器相乘。

卷积过滤器

#image

卷积运算中的两个执行方之一。(另一个参与者是输入矩阵的切片。)卷积过滤器是一种与输入矩阵具有相同的矩阵,但其形状较小。例如,对于 28x28 的输入矩阵,过滤器可以是小于 28x28 的任何 2D 矩阵。

在照片处理中,卷积过滤器中的所有单元格通常设置为 1 和 0 的恒定模式。在机器学习中,卷积过滤器通常使用随机数作为种子,然后网络训练理想值。

卷积层

#image

一层深度神经网络,其中卷积过滤器会传递一层矩阵。例如,请考虑以下 3x3 卷积过滤器

一个具有以下值的 3x3 矩阵:[[0,1,0]、[1,0,1]、[0,1,0]]

以下动画显示由 9 个卷积运算(涉及 5x5 输入矩阵)组成的卷积层。请注意,每个卷积运算都针对不同的 3x3 输入矩阵切片执行。生成的 3x3 矩阵(右侧)由 9 个卷积运算的结果组成:

显示两个矩阵的动画。第一个矩阵为 5x5 矩阵:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,177],[33,28,99,197,177], 37,177], 37第二个矩阵是 3x3 矩阵:[[181,303,618], [115,338,605], [169,351,560]]。
第二种矩阵通过在 5x5 矩阵的不同 3x3 子集上应用卷积过滤器 [[0, 1, 0], [1, 0, 1], [0, 1, 0]] 来计算。

卷积神经网络

#image

一种神经网络,其中至少有一个层是卷积层。典型的卷积神经网络由以下层的某些组合组成:

卷积神经网络在某些类型的问题(如图像识别)上取得了巨大成功。

卷积运算

#image

以下两步数学运算:

  1. 卷积过滤器和输入矩阵切片执行元素级乘法。(输入矩阵切片与卷积过滤器具有相同的排名和大小。)
  2. 对所乘积矩阵中的所有值求和。

例如,请参考以下 5x5 输入矩阵:

5x5 矩阵:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [11,47,11,47]

现在,我们假设有以下 2x2 卷积过滤器:

2x2 矩阵:[[1, 0], [0, 1]]

每个卷积运算都涉及单个 2x2 输入矩阵切片。例如,假设我们使用输入矩阵左上角的 2x2 切片。因此,对此切片进行卷积运算如下所示:

将卷积过滤器 [[1, 0], [0, 1]] 应用于输入矩阵左上角的 2x2 部分,即 [[128,97], [35,22]]。卷积过滤器将保留 128 和 22,但 97 和 35 均为零。因此,卷积运算会生成值 150 (128+22)。

卷积层由一系列卷积运算组成,其中每个卷积运算都针对不同的输入矩阵切片。

D

数据增强

#image

通过转换现有的示例创建更多示例,人为地扩大训练示例的范围和数量。例如,假设图片是您的特征之一,但您的数据集未包含足够的图片样本,导致模型无法学习有用的关联情况。理想情况下,您应向数据集添加足够的已加标签图片,才能使您的模型正确训练。如果做不到这一点,数据增强可以旋转、拉伸和反射每个图像,以生成原始图片的多个变体,从而可能产生足够的已加标签数据来实现出色的训练。

深度可分离卷积神经网络 (sepCNN)

#image

一个基于 Inception卷积神经网络架构,但其 Inception 模块已被深度可分离的卷积取代。也称为 Xception。

深度可分离卷积(也称为简写为可分离卷积)将标准的 3D 卷积运算分为两个计算效率更高的卷积:首先是深度为 1 (n 🇪? n ∧ 1) 的深度卷积,其次是宽度为 1、2 的点卷积。

如需了解详情,请参阅 Xception:使用深度可分离卷积进行深度学习

降采样

#image

多含义术语,可以理解为以下两种含义之一:

  • 减少特征中的信息量,以便更高效地训练模型。例如,在训练图片识别模型之前,将高分辨率图片降采样为低分辨率格式。
  • 使用高比例的低级别类别示例进行训练,以改善使用较少代表的类别的模型训练。例如,在类别不平衡的数据集中,模型往往会了解关于大多数类的信息,但对少数类知之甚少。降采样有助于平衡多数类和少数类的训练量。

I

图像识别

#image

对图片中的对象、图案或概念进行分类的过程。 图片识别也称为图片分类

如需了解详情,请参阅机器学习实践课程:图像分类

交并比 (IoU)

#image

两组的交集除以它们的并集。在机器学习图片检测任务中,IoU 用于衡量模型预测的边界框相对于标准答案边界框的准确性。在本例中,两个框的 IoU 是重叠区域与总区域之间的比率,其值范围为 0(预测边界框和标准答案边界框不重叠)到 1(预测边界框和标准边界框边界框的坐标完全相同)。

例如,在下图中:

  • 预测的边界框(表示模型预测画作中夜间表格所在位置的坐标)以紫色轮廓表示。
  • 真实边框(用于限制画作中实际所在位置的坐标)以绿色边框显示。

梵高的画作“阿尔勒的卧室”,位于床边的夜桌旁,有两个不同的边界框。标准边框(绿色)会完美地围住夜晚的桌子。预测的边界框(以紫色表示)在标准答案边界框的右下方偏移 50%,位于封闭表的右下角,但缺少表的其余部分。

在这里,用于预测的边界框和标准答案的交集(左下方)为 1,而预测边界框与标准答案的并集(右下方)为 7,因此 IoU 为 \(\frac{1}{7}\)。

与上面的图片相同,但每个边界框划分为四个象限。总计 7 个象限,因为标准答案边界框的右下象限和预测边界框的左象限彼此重叠。此重叠部分(用绿色突出显示)表示交叉部分,面积为 1。 与上面的图片相同,但每个边界框划分为四个象限。总共有 7 个象限,因为标准答案边界框的右下象限和预测边界框的左象限彼此重叠。由两个边界框括起来的整个内部(以绿色突出显示)表示并集,面积 7。

K

要点

#image

图片中特定特征的坐标。例如,对于区分花卉种类的图像识别模型,关键点可能是每个花瓣、茎干、杜鹃花等的中心。

L

landmarks

#image

要点的含义相同。

M

MNIST

#image

由 LeCun、Cortes 和 Burges 编制的公共领域数据集,其中包含 60000 张图片,每张图片展示了人类如何手动书写 0 到 9 之间的特定数字。每个图片都存储为 28x28 的整数数组,其中每个整数是 0 到 255(含 0 和 255)之间的灰度值。

MNIST 是机器学习的规范数据集,通常用于测试新的机器学习方法。如需了解详情,请参阅 MNIST 手写数字数据库

P

池化

#image

将由之前的卷积层创建的矩阵缩减为较小的矩阵。池化通常涉及取整个池化区域的最大值或平均值。例如,假设我们有以下 3x3 矩阵:

3x3 矩阵 [[5,3,1], [8,2,5], [9,4,3]]。

池化运算与卷积运算类似,它会将矩阵拆分为多个切片,然后按步长滑动该卷积运算。例如,假设池化运算以 1x1 步长将卷积矩阵划分为 2x2 切片。如下图所示,进行了四个池化操作。假设每个池化运算都会选择该切片中四个值的最大值:

输入矩阵为 3x3,值为 [[5,3,1], [8,2,5], [9,4,3]]。输入矩阵左上角的 2x2 子矩阵为 [[5,3], [8,2]],因此左上角的池化运算会生成值 8(最大值为 5、3、8 和 2)。输入矩阵右上角的 2x2 子矩阵为 [[3,1], [2,5]],因此右上角的池化运算会产生值 5。输入矩阵左下 2x2 子矩阵为 [[8,2], [9,4]],因此左下角的池化运算会产生值 9。输入矩阵右下角的 2x2 子矩阵为 [[2,5], [4,3]],因此右下角的池化运算会产生值 5。总之,池化运算会生成 2x2 矩阵 [[8,5], [9,5]]。

池化有助于在输入矩阵中实现翻译不变性

视觉应用池化的正式名称为空间池化。时序应用通常将池化称为时序池化。不太正式的池化通常称为下采样降采样

R

旋转不变性

#image

在图像分类问题中,即使图像的方向发生变化,算法也能成功对图像进行分类。例如,无论网球拍是朝上、侧向还是朝下,该算法仍然可以识别它。请注意,并不总是需要旋转不变;例如,上下颠倒的 9 不应归类为 9。

另请参阅翻译不变性大小不变性

S

大小不变性

#image

在图像分类问题中,即使图像大小发生变化,算法也能成功对图像进行分类。例如,无论猫消耗的是 200 万像素还是 20 万像素,该算法仍然可以识别它。请注意,即使是最好的图片分类算法,在大小不变性方面仍然具有实际的限制。例如,一种算法(或人工算法)不太可能将仅使用 20 个像素的猫图像正确分类。

另请参阅翻译不变性旋转不变性

空间池化

#image

请参阅池化

步长

#image

在卷积运算或池化中,下一个系列的输入切片的每个维度中的增量。例如,以下动画展示了卷积运算过程中的步长 (1,1)。因此,下一个输入切片会从上一个输入切片的右侧开始一个位置。当操作到达右边缘时,下一个 Slice 一直移至左侧,但向下移动一个位置。

一个 5x5 输入矩阵和一个 3x3 卷积过滤器。由于步长是 (1,1),因此将应用卷积过滤器 9 次。第一个卷积切片会评估输入矩阵左上角的 3x3 子矩阵。第二个切片会评估顶部中间 3x3 子矩阵。第三个卷积切片会评估右上角的 3x3 子矩阵。第四个切片会评估左侧中间 3x3 子矩阵。第五个切片会评估中间的 3x3 子矩阵。第六个部分用于评估右侧右侧 3x3 子矩阵。第七个切片评估左下方的 3x3 子矩阵。第八个切片会评估底部中间 3x3 子矩阵。第九个切片会评估右下角的 3x3 子矩阵。

上面的示例演示了一个二维步长。如果输入矩阵是三维,那么步长也是三维。

子采样

#image

请参阅池化

T

平移不变性

#image

在图片分类问题中,即使图片中的对象位置发生变化,算法也能成功对图片进行分类。例如,无论狗是在画面的中心还是画面的左端,算法仍然可以识别它。

另请参阅大小不变性旋转不变性