联合学习:Android去中心化的分布式机器学习

转载请注明来源

该文章翻译自:

Federated Learning: Collaborative Machine Learning without Centralized Training Data

原文地址

概要

标准的机器学习一般是在单机或者集群上集中处理数据、训练模型。谷歌为了给机器学习提供更好的云服务,已经建立了世界上最安全和鲁棒性最好的云基础平台设置。如今,在移动设备上的基于用户交互的模型训练,我们推出了额外的方法:联合学习

联合学习使得在移动设备上的模型共享成为可能,在移动端存储所有的训练数据,将机器学习的模型训练和云端存储解耦。这使得移动端进行模型训练和进化成为可能,解决了以前模型只能云端下发训练好的模型,而无法在本地训练的问题。类似的例子有Mobile Vision APIOn-Device Smart Reply

联合学习的工作原理如下:手机等设备下载云端最新的共享模型,根据手机上用户的历史数据来改进和训练这个模型,然后将用户个性化的模型抽取为一个小的更新文件。仅将模型的差异部分上传到云端,同时使用加密算法保证其安全性,并在云端和其它用户上传的模型差异做平均化的更新,以改善共享模型。这样做的好处是,所有的训练数据都在用户的手机上,并不发送隐私信息到云端,仅仅发送的是模型的变更部分。

关键词

Federated Learning,Deep Learning,Mobile,Android,Gboard,Decentralized
联合学习,深度学习,移动端,安卓,谷歌输入法,去中心化

技术架构

联合学习的架构图

基于每个用户的手机:

  • A.个性化的模型,聚合大量用户的模型改进
  • B.融合为共享模型
  • C.不断重复,完善共享模型

联合学习能产生更聪明的模型,更低的延时和更少的功耗,同时确保用户的隐私。还有一个额外的好处是:除了能不断改进云上的共享模型之外,还能够立刻使用手机端的个性化模型,这个模型完全是根据用户的历史行为数据训练,针对性更强,可以说是一个越来越懂你的模型。

我们目前正在Android系统自带的Gboard(Google Keyboard)上进行联合学习的效果测试。当Gboard显示一个搜索结果时,会记录搜索上下文以及你是否点击了该搜索结果。基于用户的历史搜索数据,联合学习可以为用户的下一次的搜索结果提供迭代和持续改进。

Gboard联合学习的测试场景

为了使联合学习成为可能,我们必须解决很多算法和技术上的难点。在经典的机器学习问题中,一般是在云端分布均匀的大型数据集上运行诸如随机梯度下降(SGD)的优化算法进行训练。这种高迭代的算法对训练数据集的要求是:低延迟、高吞吐。但是在“联合学习”环境中,数据以严重不均衡的方式分布在数百万台移动设备上。同时,这些设备还具有高延迟、低吞吐的特性,并且只能间歇性地进行训练。

受限于当前移动设备的网络带宽,谷歌研发出“Federated Averaging”算法,和原生的SGD版本相比可以减少10-100倍的通信消耗。核心思想就是使用现代移动设备中的强大处理器芯片来计算高质量的模型更新,而非简单的梯度迭代。取而代之的是更好的模型更新以及更少的迭代次数,同时还可以减少和服务端的通信频率。由于网络的上传速度通常比下载速度慢很多,谷歌还开发出一种新颖的算法:“random rotations and quantization”,将上传更新的通信速度提升为原来的100倍。这些算法都聚焦在深度学习的训练上,谷歌还不满足于此,还针对点击率预测的问题设计出了“high-dimensional sparse convex"模型。

将这项技术部署到数百万个不同的手机中,是一个非常复杂的过程。在移动设备上的训练也需要一个精简版的TensorFlow。同时为了保证手机的流畅性,对模型的训练仅仅发生在手机空闲时,比如充电并连接Wifi时,该场景下几乎对手机的性能没有影响。


参与联合学习的场景不会影响手机用户的体验。

联合学习需要以安全、高效、可扩展、容错的方式进行模型的更新和聚合。

联合学习并不需要将用户的隐私数据上传到云端,但是谷歌更进一步,开发了一个名为“Secure Aggregation”的协议,该协议只有当100或1000个用户都发起了模型更新时,才会尝试解密这部分更新,在此之前无需单独的检查某个手机的更新,更进一步保护了用户的隐私。服务器只用关心多个用户的平均更新,这样也更安全。这个协议还可以用在其它的问题,目前我们正在试图把这个协议用在线上的项目中,并预期在不就得将来能部署到联合学习的应用程序中。

当然,联合学习并不能解决所有的机器学习问题(例如,通过大量的人工表述数据识别不同的狗),以及很多模型所需要的数据已经存储在云端(例如,Gmail的垃圾邮件过滤器)。Google会持续推进基于云服务的深度学习技术,同时我们也会继续扩展联合学习领域的研究,以扩大我们解决问题的范围。比如Gboard希望学习到用户真实的输入意图,基于用户的输入习惯提升本地语言模型的能力。同时,Google也希望通过联合学习获得用户在手机上经常看哪些照片、分享、删除哪些照片。

联合学习要求机器学习从业者采用新的工具和新的思维方式:从模型设计、训练再到评估,都可以不直接访问原始数据,而是考虑一定的限制性开销。我们相信联合学习能给用户带来价值,也希望在机器学习的社区中看到大家对这类话题更广泛的交流。

致谢

本文包含了Google很多同事的研究成果,包括Blaise Agüera y Arcas, Galen Andrew, Dave Bacon, Keith Bonawitz, Chris Brumme, Arlie Davis, Jac de Haan, Hubert Eichner, Wolfgang Grieskamp, Wei Huang, Vladimir Ivanov, Chloé Kiddon, Jakub Konečný, Nicholas Kong, Ben Kreuter, Alison Lentz, Stefano Mazzocchi, Sarvar Patel, Martin Pelikan, Aaron Segal, Karn Seth, Ananda Theertha Suresh, Iulia Turc, Felix Yu, Antonio Marcedone和Gboard团队的合作伙伴。

个人总结

通过这篇文章可以看出,Google在移动设备AI化做了相当大的努力,也在自家的产品:Gboard、Photo、Gmail、Youtube上做了各种工程尝试,包括2017年IO大会推出TensorFlow Lite版,野心也窥见一斑。作为移动开发者,必须跟上Google的步伐,尽早了解深度学习相关的基础知识,快速将自己的产品AI化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容