Searching for A Robust Neural Architecture in Four GPU Hours

——百度

将搜索空间视为有向无环图,为该有向无环图设计可微采样器,该采样器可学习,可以由搜索得到的结构在验证集上的损失来优化,因此称之为:Gradient-based search using Differentiable Architecture Sampler,在CIFAR-10数据集上4 GPU hours可以完成一次搜索过程,达到2.82%的测试错误率和2.5M的参数量。

介绍

搜索一个鲁棒的神经单元(cell)而非整个网络,该单元包含许多变换特征的结构,一个神经网络包含许多这样的单元。下图表示了搜索过程,将一个单元的搜索空间表示为一个DAG(有向无环图),每个灰色节点表示为特征张量,由操作顺序命名。不颜色的边代表不同类型的操作,将某一节点转换为中间特征。同时,每个节点是所有前层节点中间转换特征的累加。在训练时,GDAS从整个DAG中采样一个子图,在子图中每个节点只接受所有前层节点的一个中间特征,具体地,在两个相邻节点的所有中间特征中,GDAS以可微的方式采样一种特征。由此,GDAS能端到端地以梯度下降的方式进行训练,来发现一个鲁棒的cell。

GDAS

GDAS的快主要来源于采样操作,一个DAG包含上百种参数化操作,有着上百万的参数量,直接优化整个DAG(DARTS)将带来两个缺点:1、在一个迭代步中更新大量的参数将耗费很长时间,导致搜索时间超过一天。2、同时优化不同的操作会使得它们相互竞争,例如,不同的操作可能会产生相反的结果。这些相反的操作结果会相互抵消而带来弥散,破坏两个相邻节点之间的信息流动和优化过程。为了解决这两个问题,GDAS在一次迭代中只采样一个子图,因此一次迭代只需要优化DAG的一个部分,加速了训练过程。

GDAS相较于先前的基于强化学习的方法(RL-based)和遗传算法的方法(EA-based)使得搜索过程可微,可以使用梯度下降法。对于强化学习和遗传算法,他们反馈的信息是通过长时间训练的轨迹来进行reward的,而GDAS则是通过损失来反馈的,而且在梯度下降法中,损失是一个连续的可以在每次迭代中给出的量。且GDAS中的采样过程是可以学习的。

方法

对于CNN,一个单元是全卷积的,将所有之前单元的输出作为输入,产生输出特征张量。将CNN中的单元表示为DAGG,包含一系列有序计算节点B,每个节点代表一个特征张量,由前面两个特征张量变换而来:

特征变换

其中,I_i,I_j,I_k分别代表第i,j,k个节点,f_{i,j},f_{i,k}分别表示来自候选操作集F中的两个操作函数。当计算节点数量B=4时,整个单元的节点有7个,I_1,I_2代表前面两个单元的输出,I_3,I_4,I_5,I_6代表计算节点。I_7代表该单元的输出张量,表示为I_7=concat(I_3,I_4,I_5,I_6)。在GDAS中,候选操作集合包含8种操作:恒等映射,零操作,3*3 depth-wise卷积,3*3 depth-wise空洞卷积,5*5 depth-wise空洞卷积,3*3 平均池化,3*3 最大池化(一如DARTS)。

同样搜索两种单元:正常单元和降采样单元,每个正常单元的操作步长为1 ,降采样单元的步长为2,一旦搜搜到所有正常单元和降采样单元,就将其堆叠为完整网络。对于CIFAR-10,堆叠N个正常单元作为一个Block。如下图:

网络结构

可微模型采样

定义神经结构为\alpha ,参数为w_{\alpha},NAS的目标是为了找到一个结构\alpha,实现当以最小化训练损失训练参数w_{\alpha}后,使得网络结构在验证集上的准确率最小化。数学表示:

优化问题

w_{\alpha}^*表示网络结构\alpha 的最佳权重,能实现训练损失最小化。将负的对数似然最为训练对象,D_T,D_V分别表示训练集合验证集。

一个网络结构\alpha包含许多同样的神经单元,该单元由搜索空间G中搜索而来,具体地,节点i,j之间,从候选操作集合F中采样一个变换函数,实际上是从一个离散概率分布\Upsilon _{i,j}中采样而来,在搜索过程中,计算单元中每个节点:

节点计算

离散概率分布\Upsilon _{i,j}是被一个可学习的概率质量函数表示的:

A_{i,j}^k是由K维可学习向量中的第k个元素,F_k表示候选操作集合F中第k个操作。因此K=\vert F \vert ,实际上A_{i,j}编码了相邻节点i,j之间的操作采样概率,因此,一个单元的采样分布表示为A_{i,j}的集合。

给定上两式,可以得到\alpha,w,即可计算训练集上的损失,但因为f_{i,j}采样于离散概率分布,因此梯度不能反传至A_{i,j},为了令方向传播能进行,使用Gumbel-Max的思想重新表达上式:

Gumbel-Max

其中,o_k独立同分布于Gumbel(0,1),o_k=-log(-log(u)),其中u服从0到1之间的均匀分布。h_{i,j}^k是向量h_{i,j}的第k个分量,W_{i,j}^k是节点i,j之间的操作F_k的参数权重。然后,以SoftMax函数来放松argmax,实际上就是Gumbel Softmax:

Gumbel Softmax

\tau 为温度系数,当其趋于零时,\tilde{h}_{i,j}^{k} =h_{i,j}^k。本文在前向传递时用argmax函数,在后向传播中用Gumbel softmax函数,这样就可以用梯度后向传播了。

训练

上述损失函数的主要挑战是学习一个结构\alpha ,为了避免计算高阶导,我们应用替代优化策略以迭代方式更新采样分布和所有函数W的权重。

Eq.(8):Loss的一般形式

该采样分布

A_{i,j}的集合编码而得到,参数

W_{i,j}^k的集合,表示所有单元所有操作的参数。

对于一个采样数据,首先采样结构\alpha ,计算网络输出(仅与w_{\alpha}有关)。

算法1:(alternative optimization strategy (AOS))

算法

结构

训练完成之后,需要从分布中得到最后的网络结构。每个节点i都与前T个节点有关,对于CNN,设置T=2,假设\Omega 是候选索引集,定义节点i,j之间的连接重要性:max_{k\in \Omega }Pr(f_{i,j}=F_k),对于每个节点i,保留先前节点中有最大重要性的2个连接,对于已经保留的节点i,j之间的连接,使用函数F_{argmax_{k\in \Omega }Pr(f_{i,j}=F_k)}来确定节点之间的操作。

本文固定降采样单元,仅仅搜索正常单元。设计的降采样单元如下:

实验

识别率基本与DARTS持平的情况下,搜索时间比它快5倍以上。

实验
实验
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,290评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,399评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,021评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,034评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,412评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,651评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,902评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,605评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,339评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,586评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,076评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,400评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,060评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,851评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,685评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,595评论 2 270

推荐阅读更多精彩内容

  • 主要内容 自然语言输入编码 前馈网络 卷积网络 循环网络(recurrent networks ) 递归网络(re...
    JackHorse阅读 3,999评论 0 2
  • 机器学习术语表 本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。 A A/B 测试 (...
    yalesaleng阅读 1,931评论 0 11
  • 9. 循环神经网络 场景描述 循环神经网络(Recurrent Neural Network)是一种主流的深度学习...
    _龙雀阅读 2,748评论 0 3
  • 深度学习可以自动学习出有用的特征,脱离了对特征工程的依赖,在图像、语音等任务上取得了超越其他算法的结果。这种成功很...
    斯文攸归阅读 1,481评论 0 0
  • 转载自 https://mp.weixin.qq.com/s/OXXtPoBrCADbwxVyEbfbYg 25....
    _龙雀阅读 1,578评论 0 0