机器学习实践:图像分类

卷积神经网络简介

卷积神经网络 (CNN) 可用于逐步提取越来越高级别的图像内容表示结果,这一发现标志着图像分类模型的构建取得了重大突破。CNN 不会通过预处理数据得出纹理和形状等特征,而是仅将图像的原始像素数据用作输入,然后“学习”如何提取这些特征,最终推断出这些特征构成的对象。

首先,CNN 会接收一个输入特征图:三维矩阵,其中前两个维度的大小分别与图像的长度和宽度(以像素为单位)对应。第三个维度的大小为 3(对应于彩色图像的 3 个通道:红色、绿色和蓝色)。CNN 包括多个模块,每个模块执行三个操作。

1. 卷积

卷积会提取输入特征图的图块,并向这些图块应用过滤器以计算新特征,生成输出特征图(也称为“卷积特征”,大小和深度可能与输入特征图的不同)。卷积由以下两个参数定义:

  • 所提取图块的大小(通常为 3x3 或 5x5 像素)。
  • 输出特征图的深度,对应于应用的过滤器数量。

在进行卷积期间,过滤器(大小与图块大小相同的矩阵)会有效地在输入特征图的网格上沿水平和垂直方向滑动,一次移动一个像素,从而提取每个对应的图块(参见图 3)。

在 4x4 特征图上执行 3x3 卷积运算 图 3. 在 5x5 输入特征图(深度为 1)上执行 3x3 卷积(深度也为 1)。在 5x5 特征图中,可以提取图块的 3x3 位置有 9 个,因此该卷积会生成一个 3x3 输出特征图。

对于每个过滤器-图块对,CNN 会对过滤器矩阵和图块矩阵执行元素级乘法运算,然后对所得矩阵的所有元素求和,得出一个值。每个过滤器-图块对的每个结果值都会输出到卷积特征矩阵中(参见图 4a 和 4b)

5x5 特征图和 3x3 卷积 图 4a. 左图:5x5 输入特征图(深度为 1)。右图:3x3 卷积(深度为 1)。

图 4b. 左图:在 5x5 输入特征图上执行 3x3 卷积。右图:生成的卷积特征。点击输出特征图中的值即可查看其计算方式。

在训练期间,CNN 会“学习”过滤器矩阵的最优值,以便能够从输入特征图中提取有意义的特征(纹理、边缘、形状)。随着应用于输入特征图的过滤器数量(输出特征图的深度)不断增加,CNN 可以提取的特征数量也会增加。但需要做出权衡的地方是,过滤器构成了 CNN 要使用的大部分资源,因此,添加的过滤器越多,训练时间越长。此外,添加到网络的每个过滤器带来的增量价值都比上一个过滤器少,因此,工程师希望构建这样一种网络:尽量使用最少的过滤器提取出正确分类图像所需的必要特征。

2. ReLU

每次执行卷积运算后,CNN 都会向卷积特征应用修正线性单元 (ReLU) 转换,以便将非线性规律引入模型中。ReLU 函数 \(F(x)=max(0,x)\)会针对 x > 0 的所有值返回 x,针对 x ≤ 0 的所有值返回 0。

3. 池化

ReLU 之后是池化步骤,即 CNN 会降低卷积特征的采样率(以节省处理时间),从而减少特征图的维数,同时仍保留最关键的特征信息。此过程常用的算法称为最大池化

最大池化采用的运算方式与卷积的运算方式类似。我们在特征图上滑动并提取指定大小的图块。对于每个图块,最大值会输出到新的特征图,所有其他值都被舍弃。最大池化运算采用以下两个参数:

  • 最大池化过滤器的大小(通常为 2x2 像素)
  • Stride:各提取图块间隔的距离(以像素为单位)。最大池化与卷积不同:在执行卷积期间,过滤器在特征图上逐个像素滑动,而在最大池化过程中,步长会确定每个图块的提取位置。对于 2x2 过滤器,步长为 2 表示最大池化运算将从特征图中提取所有非重叠 2x2 图块(参见图 5)。

使用 2x2 过滤器和步长 2 在 4x4 特征图上执行最大池化运算的动画效果

图 5. 左图:使用 2x2 过滤器和步长 2 在 4x4 特征图上执行最大池化运算。右图:最大池化运算的输出。请注意,此时生成的特征图为 2x2,仅保留了每个图块的最大值。

全连接层

卷积神经网络的末端是一个或多个全连接层(当两个层“完全连接”时,第一层中的每个节点都与第二层中的每个节点相连)。全连接层的作用是根据卷积提取的特征进行分类。通常,最后的全连接层会包含一个 softmax 激活函数,该函数会针对模型尝试预测的每个分类标签输出一个概率值(范围为:0-1)。

图 6 展示了卷积神经网络的端到端结构。

卷积神经网络的端到端示意图,显示了输入、两个卷积模块和两个用于分类的全连接层

图 6. 上图中显示的 CNN 包含两个用于提取特征的卷积模块(卷积 + ReLU + 池化)和两个用于分类的全连接层。其他 CNN 可能包含更多或更少的卷积模块和全连接层。工程师会经常进行试验,以便为模型找出可产生最佳结果的配置。