深度学习中的网络正则化

在传统机器学习中,模型的正则化是一个重要话题,而深度学习领域中,大多数模型容量大,如果没有合适的正则化,甚至很难得到比较好的结果。

0 何为正则化?

广义上来看,任何减小模型泛化误差的方法都可视为正则化,一些常用的正则化策略包括范数惩罚,数据集增强,多任务学习,Early Stopping,稀疏表示,Ensemble,Dropout,对抗训练等。在Goodfellow的书[1]中,第七章详细介绍了深度学习中网络的正则化。

1 模型参数的范数惩罚

大多数正则化策略都是通过限制模型的容量来实现的,可在目标函数

之后添加一项参数惩罚项

Alt text


其中
确定惩罚力度,
时为无正则化。</p>

如果

取l1范数则为l1正则化,取l2范数则称为l2正则化。

2 数据集增强

增加训练数据集通常可以提高模型的泛化能力。当数据有限的情形下,人为地”造”些数据可能很管用,达到模型正则化的目的,这种技巧被称为数据集增强(Data Augmentation)。Data Augmentation广泛用于图像、语音等领域的分类任务中,消除类别不平衡数据对模型训练的影响。

Data Augmentation主要有两种方式

  • Data wraping,在数据空间中进行各种变换,需要Domain Knowledge
  • Sythetic over-sampling,在特征空间中合成样本,不需要Domain Knowledge,不依赖于具体应用

Data Augmentation的效果暂无理论性证明。直观地猜想,增加人造数据导致的模型性能提升的上界应是增加同样规模的真实数据导致的模型性能提升。文章[2]中给出了基于MNIST手写数字识别的各种Data Augmentation方法效果比较,验证了上述猜想。

通常来说,在保留样本标签信息下,人为、机理性地设计Data wraping的效果要优于Synthetic over-sampling的效果;模型不同,Data Augmentation带来的benefit差异也很大。文章[2]提供了相关实验结果,实验中模型架构分为两部分,第一部分是特征抽取,第二部分是分类器部分。

Alt text


其中,分类器部分尝试了,NN,SVM,Extreme Learning Machine等。采用的Data Augmentation技巧包括

  • ELASTIC,Data wraping的一种方式
  • SMOTE,Synthetic Over-sampling的一种方式
  • DSMOTE,Synthetic Over-sampling的一种方式
Alt text
Alt text
Alt text

3 Dropout

Dropout近几年风靡学术界与工业界,是至今最广泛使用的implicit ensemble method。Goodfellow[2]中阐述了Dropout的主要思想。

  • Dropout训练了具有随机行为的网络,预测时则对多个随机决策做平均
  • Dropout本质上实现了带参数共享的bagging(ensemble methods)
  • Dropout让每个隐含单元学到在多种context下都表现良好的特征
  • Dropout相当于对隐含单元加噪(乘性噪声),迫使其学习更丰富的特征

3.1 Bagging是什么?

在谈论Dropout之前,我们先说明Bagging方法。Bagging(Bootstrap Aggregating)首先定义k个不同的模型,有放回地从原始训练集中采样构造k个不同的数据集,然后在数据集i上训练模型i,预测时则取所有模型的平均。

3.2 Dropout具体过程

假设使用minibatch-based的方案进行训练,每次选择一个样本加入minibatch时,随机生成一个Binary Mask(注意:这是一个向量),用于确定网络中的输入和隐含单元是否被使用。每个单元的Mask与其它单元的Mask独立,服从伯努利分布。例子如下,其中

为Mask。


Alt text

注意到Mask之后得到的网络,其实相当于下图16个子网络(子模型)中随机采样

Alt text


为Binary Mask,
是参数
确定的子模型的损失函数,则对所有子模型做平均(ensemble),即最小化
(注意到,期望求取涉及的项数达到指数级别,但是我们可以通过Sample
来获得其梯度的无偏估计,例如使用Monte Carol方法)

3.3 Dropout & Bagging</h3>

Dropout近似Bagging过程,但并非完全一致。在Bagging中,模型之间互相独立;而Dropout中,模型之间共享参数,且在所有可能的子网络(子模型)中,只有一小部分子模型被训练,参数共享使得剩余的子网络(子模型)也可以达到比较好的参数设置。

在进行预测时,bagging方法让子模型投票,这个过程称为推理(inference,源自概率图模型中的概念,下文涉及少量概率图模型的内容)假设Bagging中,模型i输出概率分布

,则bagging中最终预测为所有模型预测的代数平均

对应到Dropout,对所有Mask取几何平均,预测为

同样地,求和项数达到指数级别,需要对(1)式进行近似求解,主要有以下几种方案

  • Sampling Mask,大概10-20个Mask足够
  • 使用几何平均替代代数平均
  • 权重放缩(Weight Scaling Inference Rule,Hinton)

3.4 Dropout:使用几何平均进行推理

d为可mask的单元的数目,对所有Mask取代数平均得到

Alt text

对上式进行归一化,确保其是一个概率分布

Alt text

相关研究可以说明几何平均的近似效果好于代数平均。

3.5 Dropout:权重放缩推理

Weight Scaling Inference Rule是另外一个近似推理方法。Hinton等人在2012年提出,可以仅使用一个模型的

来近似
。这个模型是什么样子的呢?如下图b所示,包含所有单元,但每个单元i的输出权重需要乘上单元i被使用的概率。对于深层非线性的神经网络,没有任何理论证明此推理方法的准确性,但实用效果好,在某些情况下甚至比Sample-1000的Monte Carlo方法要好(选择何种推理依赖于具体问题)。
Alt text

假设每个单元被使用的概率是0.5,即训练时约有一半的单元被使用,则权重放缩推断有下面2种实现方式(基本原则是保证训练和测试时,每个单元输入的总期望不变)

  • 训练完成后,先将所有权重乘以0.5,然后再进行推断
  • 训练时,每个单元的状态至乘以2

在网络中无非线性隐含单元时,权重放缩推理可以实现准确推理(虽然深层非线性神经网络的情形无法说明其近似准确性)下面以多元线性回归分类器为例说明。

Case Study:对于n输入的多元线性回归分类器,v为输入向量,y为类别标签

Alt text

乘上Mask

Alt text

几何平均

Alt text

忽略常数项


Alt text

归一化之后,即得到权重为
的多元线性回归分类器;也就是说如果我们使用权重放缩推理,得到的结果就是所有模型的几何平均,无需任何近似。

3.6 Dropout:Advantages

Dropout相对于其它正则化方法的优点

  • 计算开销小
  • 不受限于具体模型类型或者训练方法(distributed representation,sgd)

参考文献

[1] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.

[2] Sebastien C. Wong, Adam Gatt, Victor Stamatescu, and Mark D. McDonnell. Understanding data augmentation for classification: when to warp? CoRR, abs/1609.08764, 2016.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容

  • 正则化是增强模型泛化能力,减少测试误差的策略;它可以在不过度增加偏差的情况下显著的减少方差。 参数范数惩罚 L2范...
    凤翔天下阅读 2,207评论 0 1
  • 大家好,今天我要讲的内容是在深度学习的卷积神经网络中,如何减弱过拟合问题的相关研究,最近刚好在修改论文,就把相关的...
    yhlleo阅读 1,932评论 0 10
  • 谁都有发火生气的时候,有的人每天都跟吃了炸药一样,每天都很生气;但有的人平时沉默寡言,温文尔雅,似乎从来不生气。可...
    成建说星座阅读 763评论 0 0
  • 终于忙碌结束,得以坐等头发干。却不知道该怎样开始今天的述说。嗯,就说说今天做了什么吧!我觉得农活虽然很累,但是真的...
    初十七月生阅读 243评论 0 1
  • 烈日不见了,天空渐渐昏暗 隆隆的雷声又起,翻滚着 我慢慢行走在南俊街头, 你有雨,我有伞,谁怕?
    萧书忆阅读 127评论 0 0