优化算法知识学习笔记

教材选用《动手学深度学习》,李沐等著;


在训练模型时,我们会使⽤优化算法不断迭代模型参数以降低模型损失函数的值。当迭代终⽌时,模型的训练随之终⽌。此时的模型参数就是模型通过训练所学习到的参数。
优化算法对于深度学习⼗分重要。⼀⽅⾯,训练⼀个复杂的深度学习模型可能需要数小时、数⽇、甚⾄数周时间。而优化算法的表现直接影响模型的训练效率。另⼀⽅⾯,理解各种优化算法的原理以及其中超参数的意义将有助于我们更有针对性地调参,从而使深度学习模型表现更好。

优化与深度学习

优化在深度学习中有很多挑战。以下描述了其中的两个挑战:局部最小值和鞍点。

局部最小值

局部最小值

当一个优化问题的数值解在局部最优解附近时,由于目标函数有关解的梯度接近或变成零,最终迭代求得的数值解可能只令目标函数局部最小化而非全局最小化。

鞍点

梯度接近或变成零可能是由于当前解在局部最优解附近所造成的。事实上,另⼀种可能性是当前解在鞍点(saddle point)附近。

鞍点

下图的空间函数看起来像⼀个⻢鞍,而鞍点恰好是⻢鞍上可坐区域的中⼼。
空间函数里的鞍点

由于深度学习模型参数通常都是⾼维的,⽬标函数的鞍点通常⽐局部最小值更常⻅。

随机梯度下降

在梯度下降中,我们先选取一个初始值x和常数𝜂>0,然后不断迭代x直到达到停止条件。其中正数𝜂通常叫做学习率,是⼀个超参数。
使⽤过小的学习率,会导致x更新缓慢从而需要更多的迭代才能得到较好的解;使⽤过⼤的学习率,x会不断越过(overshoot)最优解并逐渐发散。所以,一个合适的学习率通常是需要通过多次实验找到的。
当训练数据集的样本较多时,梯度下降每次迭代计算开销较大,因而随机梯度下降(Stochastic gradient descent)通常更受青睐。

小批量随机梯度下降

小批量随机梯度下降在每轮迭代中随机均匀采样多个样本来组成一个小批量B,然后使用这个小批量来计算梯度。|B| 代表批量⼤小,即小批量中样本的个数,是⼀个超参数。
当批量较小时,每次迭代中使用的样本少,这会导致并行处理和内存使用效率变低;当批量较大时,每个小批量梯度里可能含有更多的冗余信息。为了得到较好的解,批量较大时比批量较小时可能需要计算更多数目的样本,例如增大迭代周期数。

动量法

动量法使⽤了指数加权移动平均(exponentially weighted moving average)的思想。它将过去时间步的梯度做了加权平均,且权重按时间步指数衰减。
动量法使得相邻时间步的⾃变量更新在⽅向上更加⼀致。这样就可以使⽤较⼤的学习率,从而使⾃变量向最优解更快移动。

Adagrad算法

Adagrad在迭代过程中不断调整学习率,并让目标函数自变量中每个元素都分别拥有自己的学习率。使用 Adagrad 时,自变量中每个元素的学习率在迭代过程中一直在降低(或不变)。

RMSProp算法

RMSProp和Adagrad的不同在于,RMSProp使⽤了小批量随机梯度按元素平⽅的指数加权移动平均来调整学习率。

Adadelta算法

Adadelta没有学习率超参数,它通过使⽤有关⾃变量更新量平⽅的指数加权移动平均的项来替代学习率。

Adam算法

Adam在RMSProp基础上对小批量随机梯度也做了指数加权移动平均。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容