卷积神经网络中不同类型的卷积方式介绍

之前在文章《<模型汇总_1>牛逼的深度卷积神经网络CNN》详细介绍了卷积神经网络的基本原理，以及常见的基本模型，如LeNet，VGGNet，AlexNet，ReseNet，Inception Net的基本结构和原理。今天主要总结一下，卷积神经网络家族中，不同类型的卷积方式以及它们各自的优点。为了简单起见，我们仅从2维的角度介绍。

文末提供相关资料下载地址

卷积基本概念

首先，我们首先回顾一下卷积相关的基本概念，定义一个卷积层需要的几个参数。

2维卷积使用卷积核大小为3，步长为1和Padding

卷积核大小（Kernel Size）：卷积核大小定义了卷积的视野。2维中的常见选择是3 - 即3x3像素矩阵。

步长（Stride）：步长定义遍历图像时卷积核的移动的步长。虽然它的默认值通常为1，但我们可以使用值为2的步长来对类似于MaxPooling的图像进行下采样。

填充（Padding）：填充定义如何处理样本的边界。Padding的目的是保持卷积操作的输出尺寸等于输入尺寸，因为如果卷积核大于1，则不加Padding会导致卷积操作的输出尺寸小于输入尺寸。

输入和输出通道（Channels）：卷积层通常需要一定数量的输入通道（I），并计算一定数量的输出通道（O）。可以通过I * O * K来计算所需的参数，其中K等于卷积核中参数的数量，即卷积核大小。

下面介绍几种常见的卷积方式。

扩张卷积（Dilated Convolution）

（又称Atrous Convolution）

2维卷积，卷积核大小为3，扩张率（dilation rate）为2，无Padding

扩张卷积在进行卷积操作时引入了另一个参数，即扩张率，用以捕捉像素之间的long dependency。扩张率定义了卷积核中的值与值之间的间隔。扩张率为2的3x3卷积核将具有与与5x5卷积核相同的视野，而只使用9个参数。想象一下，使用一个5x5卷积核并删除第二行和列。

这样操作，使得在相同的计算成本下，卷积计算具有更宽的视野，可以捕捉更长的依赖关系。扩张卷积在实时图像分割领域特别受欢迎。适用于需要更加宽泛的视野并且不用多个卷积或更大的卷积核情况。

典型的网络如WaveNet，论文下载地址：https://arxiv.org/abs/1609.03499

Fully Convoluted Network，论文下载地址https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf

可变形（Deformable）卷积

我们常见的卷积核（filter）一般都是呈长方形或正方形的，规则的卷积核往往会限制特征抽取的有效性，更为有效的做法是让卷积和具有任意的形状，那么卷积核是否可以呈圆形或者随意的形状呢？答案是可行的，如下图所示，典型的代表就是Deformable Convolution Network。

对比上图所示的a、b两图可以发现，任意形状的的卷积核使得网络可以重点关注一些重要的区域，更能有效且准确的抽取输入图像的特征。

怎么样来实现呢？

如上图所示，网络会根据原始的卷积，如图a所示，学习一个offset偏量，通过一些列的旋转、尺度变换、缩放等Transform变换，改变成成任意形状的卷积核，如b、c、d图所示。

Offet代表的Transform怎么实现呢？

在deformable convolution中，会进行两次卷积，第一次卷积计算得到offset的卷积核，第二次是利用第一步得到的offset卷积核进行常规的卷积得到最终输出。重点是第一步中获得offset卷积核。先从input feature map中通过卷积（conv）计算得到offset field，在基于offset field得到最终的offset。注意，offset得到的输出通道数是input feature map的两倍，因为offset包含了在x和y两个方向上的偏置项。

具体细节可以看考Deformable convolution Network的论文：https://arxiv.org/abs/1703.06211

深度可分离（Depth Separable）卷积

在可分离的卷积中，我们可以将卷积核操作拆分成多个步骤。我们用y = conv（x，k）表示卷积，其中y是输出图像，x是输入图像，k是卷积核。接下来，假设k由公式：k = k1.dot（k2）计算。这就是一个可分离的卷积，因为我们可以使用大小分别为k1和k2两个卷积核进行2个1D卷积来取得相同的结果，而不是用一个大小k进行二维卷积。

Sobel X和Y卷积核

以Sobel卷积核为例，通常用于图像处理。我们可以通过向量[1，0，-1]乘以向量[1,2,1] 来获得相同的卷积核。执行相同的操作，只需要6而不是9个参数。

上面的例子就是所谓的空间可分离卷积，但在深度学习中并不是这样做的。这样介绍主要是举个例子，不至于使人迷惑。在神经网络中，通常使用称为深度可分离卷积的网络，典型的网络Xception Net，示意图如下图所示。

深度可分离卷积在执行空间卷积的同时，保持通道（Channels）之间分离，然后按照深度方向（depth）进行卷积。用一个例子来说明。

假设在16个输入通道和32个输出通道上，采用3x3卷积核进行卷积计算，16个通道上采用3x3卷积核，进行32次重复操作，产生512（16x32）个特征图（feature map）。然后，把这些特征图合并得到一个输出通道。重复执行32次，最终得到了32个输出通道。

对于同一个例子，采用深度可分离方式进行卷积，采用3x3卷积核分别遍历16个通道，最终得到16个特征图。现在，在进行合并操作之前，先采用32个1x1卷积个来遍历这16个特征图，然后再把它们合并到一起。采用可分离卷积，有656（16x3x3 + 16x32x1x1）参数，相反，传统卷积操作有4608（16x32x3x3）参数，大大减少了参数的数目。

该例子是一个典型的深度可分离卷积的例子，其中采用的深度乘数（Depth Multiplier）为1，也是一种最常见的设置。

这样做是基于一个假设，即平面和深度方向信息可以解耦。Xception网络证明了这个假设是有效的。因为可以有效地使用模型的参数，所以深度可分离的卷积可以用于可移动设备上。

典型的模型如Xception Net，细节可阅读论文：https://arxiv.org/abs/1610.02357

Squeeze-and-Excitation Convolution

Squeeze-and-Excitation 来源于ImageNet2017年的冠军网络SEnet。在传统的LeNet、Inception、ReseNet、DenseNet中，我们认为所有的特征通道（Channel）都是同等重要的，那是否可以给每个通道赋予一个权重呢？SEnet就通过Squeeze-and-Excitation block来实现了这一想法，当然CNN的网络结构十分灵活，还有很多其他简单的实现方式，这里就不一一列举。Squeeze-and-Excitation block（简称SES 模块）如下图所示。

以图中为例，输入X具有C1数目的通道，经过一系列变换得到通道数为C2的SES模块的输入。数据进入SES模块分成两路，如图中，上面一路进行squeeze-excitation，Scale操作，下面一路进行传统的卷积操作。在上面一路中，首先是Squeeze操作，沿着通道C2方向，采用Global Average pooling操作，把尺寸c2 X h X W的输入pooling成一个c2 X 1 X 1的输出，即把每一个二维的特征图转换成一维的实数。Global Average pooling相当于一个全局的感受野，可以获取h X W整张图片信息，对应的标量输出可以代表整张图全局分布。然后进行Excitation操作，借鉴RNN中的Gate机制，为每一个通道赋予一个可训练的权重W，通过W的学习，来建模通道间的重要性。最后是一个Sacle操作，通过Reweight操作把学习的到权重得到传统的卷积得到的通道输出上，得到通道的输出特征的重标定操作。

这里只是对SES原理简单介绍，深入了解可以参考SEnet的论文：https://arxiv.org/abs/1709.01507

转置（Transposed）卷积

（也称为deconvolutions 或 fractionally stride卷积）

有些场景下使用deconvolution，这中说法其实不太合适，因为它不是一个deconvolution，真正的deconvolution应该是卷积操作的逆过程。虽然deconvolution确实存在，但它们在深度学习领域并不常见。想象一下，将图像输入到单个卷积层。现在获得输出，把输出扔到一个黑盒子里，再恢复成的原始输入图像。这个黑盒子才叫做deconvolution。Deconvolution是卷积计算过程的逆计算过程。

转置卷积则比较贴切，因为转置会产生相同的空间分辨率。然而，真实执行的数学运算则稍有不同的。转置卷积层一方面会执行常规卷积，同时也会恢复其空间变换。

2维卷积无填充，步长为2和卷积核为3

这一点可能会让人觉得有点难以理解，所以我们来看一个具体的例子，如上图。5x5的图像被送入一个卷积层进行卷及计算。步长设置为2，没有填充，卷积核为3x3。输出为一个2x2图像。

如果我们想反转这个过程，我们需要进行数学逆运算，这样每一个输入的像素会产生9个输出值。之后，我们以步长为2的速度遍历输出图像。这将是一个deconvolution操作，如下图所示。

没有填充的2维卷积，步长为2和卷积核为3

转置卷积并不是这样做的。与上述操作相比，唯一的共同之处在于，它保证输出也将是5x5图像，同时仍然执行正常的卷积运算。为了实现这一点，我们需要在输入图像上进行一些漂亮的填充。

你可以想象，这一步不会重复上面的过程。至少，数值上不会。它只是通过一个卷积操作来重构卷积操作的输入。这并不是数学上的逆操作，只是一种Encoder-Decoder架构，但仍然非常有用。通过这种方式，我们可以通过一个卷积来放大一张图片，而不需要进行两个单独的操作。

最后编辑于：2017.12.11 02:53:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,015评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,262评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,727评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,986评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,363评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,610评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,871评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,582评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,297评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,551评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,053评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,385评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,035评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,079评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,841评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,648评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,550评论 2赞 270

卷积神经网络中不同类型的卷积方式介绍

推荐阅读更多精彩内容