【代替反向传播】终极算法作者提出另一种深度学习:离散优化

姓名:周雪宁

学号:1702110196

转载:http://mp.weixin.qq.com/s/8U3vFaf3SDCYnWy4lQv6uw

【嵌牛导读】:在 Hinton 的 Capsule之后,越来越多的研究者开始探讨反向传播之外的方法。《终极算法》作者、华盛顿大学教授Pedro Domingos和同事Abram L.Friesen今天在arxiv发布的论文《Deep Learning as a Mixed  ConvexcombinatorialOptimization Problem》就提出了一种使用离散优化,而非反向传播的深度学习方法。

【嵌牛鼻子】:深度学习优化方法,离散优化,反向传播

【嵌牛提问】:反向传播作为深度学习神经网络训练过程的训练手段,近些年几乎占领绝对地位,新提出的方法是否比反向传播算法好,是否会引起深度学习优化手段的一大变革?

【嵌牛正文】:

1986年,Hinton等人合著的论文《通过反向传播错误学习表征》(Learning representations by back-propagation errors),首次将反向传播算法引入多层神经网络训练,为大型复杂神经网络的应用奠定了基础。40年后,反向传播算法已经成为如今这一波人工智能爆炸的核心。

今天我们在AI领域所看到的进步,包括图像分类和语音识别,背后的主力都是反向传播。在反向传播中,标签(label)或“权重”(weight)被用于表示类似于大脑的神经层里的照片或声音,然后逐层对权重进行调整,直到网络能够以尽可能少的错误实现一个智能的功能。

但Hinton却表示,要想让神经网络变得智能,需要放弃反向传播。他在此前的一次采访中说:“我不认为这(反向传播)是大脑运作的方式,我们的大脑显然不需要对所有数据进行标注。”

现在,越来越多的研究者开始探讨反向传播之外的方法。《终极算法》(TheMaster Algorithms)作者、华盛顿大学教授Pedro Domingos和同事Abram L.Friesen今天在arxiv发布的论文《Deep Learning as a Mixed  ConvexcombinatorialOptimization Problem》就提出了一种使用离散优化,而非反向传播的深度学习方法。

摘要

随着神经网络变得更深、更广泛,具有hard-threshold激活的学习网络不管对于网络优化还是对于创建深度网络的大型集成系统都越来越重要。对于网络优化,可以大大减少时间和能量需求;对于创建网络的大型集成系统,这些系统可能具有不可微的组件,而且为了有效学习,必须避免梯度消失和梯度爆炸。但是,由于梯度下降不适用于硬阈值函数(hard-threshold function),因此不清楚如何学习它们。我们通过观察发现为hard-threshold隐藏单元设置target以最小化损失是一个离散优化(discrete optimization)问题,并且可以这样解决。离散优化的目标是找到一组target,以使得每个单元,包括输出,都有一个线性可分离的问题来解决。有了这些target,网络可以分解成单个的感知器(perceptron),然后可以用标准的凸方法(convex approaches)来学习。在此基础上,我们开发了一个递归mini-batch算法,用于学习深度hard-threshold网络,其中作为特例,包括一个straight-through estimator。实验证明,我们的算法与straight-through estimator相比,在一系列设置中都提高了分类的精确度,包括在ImageNet的AlexNet和ResNet-18。

混合凸组合优化框架

最初的神经分类方法是学习具有hard-threshold激活的单层模型,例如感知器(Perceptron)。但是,很难将这些方法扩展到多层的模型,因为hard-threshold单元几乎处处都有零导数而且原点处不连续,不能通过梯度下降来训练。相反,研究社区转向具有soft activation 函数的多层网络,例如sigmoid,以及最近的ReLU,它们可以通过反向传播有效计算梯度。

这种方法取得了显著的成功,使研究人员能够训练数百层的网络,并学习在各种任务上比以往任何方法的精确度都要高得多的模型。但是,随着网络越来越广泛,使用hard-threshold激活来进行量化的趋势更显著,这样网络可以实现二进制或低精度的推断和训练,可以极大地减少现代深层网络所需要的能耗和计算时间。除了量化,hard-threshold单元的输出规模与输入规模无关(或不敏感),这可以缓解梯度消失和梯度爆炸的问题,并有助于避免在反向传播低精度训练中出现的一些病态问题。避免这些问题对于开发大型网络系统至关重要,这些系统可以用来执行更复杂的任务。

基于这些原因,我们对开发一种用于学习具有hard-threshold单元的深度神经网络的有效技术很感兴趣。在这项工作中,我们提出一个学习深度hard-threshold网络的框架,该框架源于hard-threshold单元输出离散值的观察结果,这表明组合优化可能为训练这些网络提供一种有原则性方法。通过为每个隐藏层激活指定一组离散目标(discrete targets),该网络可以分解为许多单独的感知器,每个感知器都可以很容易地接受它的输入和目标。因此,学习一个深度hard-threshold网络的难度在于设定目标,使每一个训练的感知器——包括输出单元——都有一个线性可分的问题来解决,进而达成目标。我们展示了证明这一方法可行的网络,可以利用混合凸组合优化框架学习。

在此框架下,我们开发了一种递归算法,我们称之为 feasible target propagatio(FTPROP),用于学习deep hard-threshold network。由于这是一个离散优化问题,我们开发了基于每层损失函数设置目标的启发式方法。FTPROP的mini-batch版本可以用来解释和证明 straight-through --estimator(Hinton, 2012;Bengio et al., 2013),它可以被看作是FTPROP的一个特例,对于每层损失函数和目标启发式具有特定的选择。最后,我们开发了一种新的损失函数,它可以改善deep hard-threshold network的学习。在实验中,我们证明与STE相比,FTPROP-MB提高了CIFAR-10和ImageNet的多个模型的分类精度(上图)。更多研究方法和细节,请查阅原论文。

结论和后续研究

在这项工作中,我们提出了一种新型混合凸组合优化框架,用于学习具有hard-threshold单元的深层神经网络。组合优化用于为hard-threshold隐藏单元设置离散目标,使得每个单元仅有一个线性可分离的问题要解决。然后,网络分解成单个感知器,给定这些目标,可以用标准的凸方法学习。基于此,我们开发了一种用于学习深度hard-threshold网络的递归算法,我们称之为可行目标传播(feasible target propagation,FTPROP),以及一个高效的mini-batch版本(FTPROP-MB)。我们证明了常用但不太合理的straight-through estimator(STE)是FTPROP-MB的特殊情况,这是由于在每个层使用饱和hinge loss和我们的目标启发式(target heuristic)引起的。最后,我们定义了soft hinge loss,并表明与STE相比,在每一层具有soft hinge loss的FTPROP-MB提高了CIFAR-10和ImageNet的多个模型的分类精度。

在未来的工作中,我们计划通过研究我们的框架、约束满足和可满足性之间的关系,开发新的目标启发式(target heuristic)和层损失函数。我们还打算进一步探索具有hard-threshold单元的深度网络的优势。特别是,虽然最近的研究展现出它们减少计算和能源需求的能力,但它们也需要减少被梯度消失和梯度爆炸影响,以及受到covariate shift和对抗样本的影响。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 161,873评论 4 370
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,483评论 1 306
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 111,525评论 0 254
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,595评论 0 218
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,018评论 3 295
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,958评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,118评论 2 317
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,873评论 0 208
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,643评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,813评论 2 253
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,293评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,615评论 3 262
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,306评论 3 242
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,170评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,968评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,107评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,894评论 2 278

推荐阅读更多精彩内容

  • 激活函数(Activation Function) 为了让神经网络能够学习复杂的决策边界(decision bou...
    御风之星阅读 5,009评论 0 8
  • 蝉禅的法宝是执行力。 牛哥说:“不同的人,遇到十字路口的反应是不同的,有的人目标感特别强,知道第几个十字路口朝哪拐...
    牛哥语录阅读 431评论 0 0
  • 浅拷贝和深拷贝是针对对象而言的复制堆栈中:浅拷贝指的是复制栈里面的地址或堆里面的第一层值,如果对象不止一层的话浅拷...
    从前慢pearl阅读 357评论 0 0
  • 投资,聊起来这个话题来,一般给予的回复是“我没有什么钱,我不用投资”,“我已经在投资了,我买了银行的定投,我...
    赵程冲阅读 276评论 0 0
  • 广告的作用是什么?不就是激发消费者购买的欲望么。每一个成功的营销背后,都有一个合格的广告运营公司在帮助营销,...
    何晓乐阅读 191评论 0 0