Searching for A Robust Neural Architecture in Four GPU Hours

——百度

将搜索空间视为有向无环图，为该有向无环图设计可微采样器，该采样器可学习，可以由搜索得到的结构在验证集上的损失来优化，因此称之为：Gradient-based search using Differentiable Architecture Sampler，在CIFAR-10数据集上4 GPU hours可以完成一次搜索过程，达到2.82%的测试错误率和2.5M的参数量。

介绍

搜索一个鲁棒的神经单元（cell）而非整个网络，该单元包含许多变换特征的结构，一个神经网络包含许多这样的单元。下图表示了搜索过程，将一个单元的搜索空间表示为一个DAG（有向无环图），每个灰色节点表示为特征张量，由操作顺序命名。不颜色的边代表不同类型的操作，将某一节点转换为中间特征。同时，每个节点是所有前层节点中间转换特征的累加。在训练时，GDAS从整个DAG中采样一个子图，在子图中每个节点只接受所有前层节点的一个中间特征，具体地，在两个相邻节点的所有中间特征中，GDAS以可微的方式采样一种特征。由此，GDAS能端到端地以梯度下降的方式进行训练，来发现一个鲁棒的cell。

GDAS

GDAS的快主要来源于采样操作，一个DAG包含上百种参数化操作，有着上百万的参数量，直接优化整个DAG（DARTS）将带来两个缺点：1、在一个迭代步中更新大量的参数将耗费很长时间，导致搜索时间超过一天。2、同时优化不同的操作会使得它们相互竞争，例如，不同的操作可能会产生相反的结果。这些相反的操作结果会相互抵消而带来弥散，破坏两个相邻节点之间的信息流动和优化过程。为了解决这两个问题，GDAS在一次迭代中只采样一个子图，因此一次迭代只需要优化DAG的一个部分，加速了训练过程。

GDAS相较于先前的基于强化学习的方法（RL-based）和遗传算法的方法（EA-based）使得搜索过程可微，可以使用梯度下降法。对于强化学习和遗传算法，他们反馈的信息是通过长时间训练的轨迹来进行reward的，而GDAS则是通过损失来反馈的，而且在梯度下降法中，损失是一个连续的可以在每次迭代中给出的量。且GDAS中的采样过程是可以学习的。

方法

对于CNN，一个单元是全卷积的，将所有之前单元的输出作为输入，产生输出特征张量。将CNN中的单元表示为DAG $G$ ，包含一系列有序计算节点 $B$ ，每个节点代表一个特征张量，由前面两个特征张量变换而来：

特征变换

其中， $I_i,I_j,I_k$ 分别代表第 $i,j,k$ 个节点， $f_{i,j},f_{i,k}$ 分别表示来自候选操作集 $F$ 中的两个操作函数。当计算节点数量 $B=4$ 时，整个单元的节点有7个， $I_1,I_2$ 代表前面两个单元的输出， $I_3,I_4,I_5,I_6$ 代表计算节点。 $I_7$ 代表该单元的输出张量，表示为 $I_7=concat(I_3,I_4,I_5,I_6)$ 。在GDAS中，候选操作集合包含8种操作：恒等映射，零操作，3*3 depth-wise卷积，3*3 depth-wise空洞卷积，5*5 depth-wise空洞卷积，3*3 平均池化，3*3 最大池化（一如DARTS）。

同样搜索两种单元：正常单元和降采样单元，每个正常单元的操作步长为1 ，降采样单元的步长为2，一旦搜搜到所有正常单元和降采样单元，就将其堆叠为完整网络。对于CIFAR-10，堆叠N个正常单元作为一个Block。如下图：

网络结构

可微模型采样

定义神经结构为 $\alpha$ ，参数为 $w_{\alpha}$ ，NAS的目标是为了找到一个结构 $\alpha$ ，实现当以最小化训练损失训练参数 $w_{\alpha}$ 后，使得网络结构在验证集上的准确率最小化。数学表示：

优化问题

$w_{\alpha}^*$ 表示网络结构 $\alpha$ 的最佳权重，能实现训练损失最小化。将负的对数似然最为训练对象， $D_T，D_V$ 分别表示训练集合验证集。

一个网络结构 $\alpha$ 包含许多同样的神经单元，该单元由搜索空间 $G$ 中搜索而来，具体地，节点 $i,j$ 之间，从候选操作集合 $F$ 中采样一个变换函数，实际上是从一个离散概率分布 $\Upsilon _{i,j}$ 中采样而来，在搜索过程中，计算单元中每个节点：

节点计算

离散概率分布 $\Upsilon _{i,j}$ 是被一个可学习的概率质量函数表示的：

$A_{i,j}^k$ 是由 $K$ 维可学习向量中的第 $k$ 个元素， $F_k$ 表示候选操作集合 $F$ 中第 $k$ 个操作。因此 $K=\vert F \vert$ ，实际上 $A_{i,j}$ 编码了相邻节点 $i,j$ 之间的操作采样概率，因此，一个单元的采样分布表示为 $A_{i,j}$ 的集合。

给定上两式，可以得到 $\alpha,w$ ，即可计算训练集上的损失，但因为 $f_{i,j}$ 采样于离散概率分布，因此梯度不能反传至 $A_{i,j}$ ，为了令方向传播能进行，使用Gumbel-Max的思想重新表达上式：

Gumbel-Max

其中， $o_k$ 独立同分布于Gumbel(0,1)， $o_k=-log(-log(u))$ ，其中 $u$ 服从0到1之间的均匀分布。 $h_{i,j}^k$ 是向量 $h_{i,j}$ 的第 $k$ 个分量， $W_{i,j}^k$ 是节点 $i，j$ 之间的操作 $F_k$ 的参数权重。然后，以SoftMax函数来放松argmax，实际上就是Gumbel Softmax：

Gumbel Softmax

$\tau$ 为温度系数，当其趋于零时， $\tilde{h}_{i,j}^{k} =h_{i,j}^k$ 。本文在前向传递时用argmax函数，在后向传播中用Gumbel softmax函数，这样就可以用梯度后向传播了。

训练：

上述损失函数的主要挑战是学习一个结构 $\alpha$ ，为了避免计算高阶导，我们应用替代优化策略以迭代方式更新采样分布和所有函数 $W$ 的权重。

Eq.(8)：Loss的一般形式

该采样分布

由 $A_{i,j}$ 的集合编码而得到，参数

是 $W_{i,j}^k$ 的集合，表示所有单元所有操作的参数。

对于一个采样数据，首先采样结构 $\alpha$ ，计算网络输出（仅与 $w_{\alpha}$ 有关）。

算法1：（alternative optimization strategy (AOS)）

算法

结构

训练完成之后，需要从分布中得到最后的网络结构。每个节点 $i$ 都与前 $T$ 个节点有关，对于CNN，设置 $T=2$ ，假设 $\Omega$ 是候选索引集，定义节点 $i，j$ 之间的连接重要性： $max_{k\in \Omega }Pr(f_{i,j}=F_k)$ ，对于每个节点 $i$ ，保留先前节点中有最大重要性的2个连接，对于已经保留的节点 $i,j$ 之间的连接，使用函数 $F_{argmax_{k\in \Omega }Pr(f_{i,j}=F_k)}$ 来确定节点之间的操作。

本文固定降采样单元，仅仅搜索正常单元。设计的降采样单元如下：

实验

识别率基本与DARTS持平的情况下，搜索时间比它快5倍以上。

实验

最后编辑于：2019.07.26 16:07:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,290评论 4赞 363
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,399评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,021评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,034评论 0赞 207
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,412评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,651评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,902评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,605评论 0赞 199
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,339评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,586评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,076评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,400评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,060评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,083评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,851评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,685评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,595评论 2赞 270

Searching for A Robust Neural Architecture in Four GPU Hours

介绍

方法

可微模型采样

实验

推荐阅读更多精彩内容