突破人工智能数据瓶颈,杨强详解联邦学习

人工智能的边界和挑战是什么?现在走到了哪里,又该向何处去?5月24日-25日在成都举办的CCF年度盛会——2019 CCF青年精英大会(YEF 2019)上,人工智能领域专家们展开了讨论,中国科学院张钹院士给出的答案是“人工智能刚刚起步,现在离起点不远,人工智能之路还很长,并且永远在路上。”

虽然人工智能技术的行业应用越来越广泛,仿佛真的站在风口准备拥抱下一场革命,但正如专家们所言,对于人工智能的发展,应该保持谨慎的乐观态度。当前人工智能还面临诸多挑战,例如数据孤岛问题、隐私保护问题、安全问题、如何从感知智能发展到认知智能再到更远的让机器拥有自我认知等等,突破这些瓶颈,或许才是人工智能走得更远的关键。

其中数据孤岛和隐私保护问题是当前人工智能大规模产业化应用过程中遇到的突出问题。对此,人工智能国际专家、微众银行***人工智能官杨强教授在大会上发表了题为《用户隐私,数据孤岛和联邦迁移学习》的特邀报告,他的答案是:开展新一代的人工智能算法研究,突破数据孤岛和小数据的限制,同时保护数据安全和用户隐私。这个答案的背后是一项新的领先全球的技术,叫做“联邦迁移学习。”

image.png

大数据时代并未真正到来,小数据和数据孤岛林立

杨强教授指出,人工智能发展离不开大数据,人工智能技术如果是火箭引擎,大数据就是燃料,但是数据量的激增并不意味着真正的“大数据”时代到来。多数行业中是数据质量不高的“小数据”,是一个个数据孤岛,数据割裂严重。

例如在法律领域,如果想得到一个非常好的样本,需要经历很长的链条,经过很长时间,有法官、律师等多方参与,才能把一个样本标注好,这导致有标注的高质量数据并不多,并且分散在各地的各级法院。而在医疗领域这种数据孤岛更加严重,例如医疗影像往往分散在各个医院。导致这种结果的原因很多,包括监管原因、机构各自的利益、流程制度限制等。

从迁移学习到联邦学习,打通数据孤岛

能否从技术角度寻求解决方案?作为国际人工智能界“迁移学习”(transfer learning)领域的发起人和带头人,杨强教授从迁移学习中找寻问题的答案,首先想到通过知识迁移解决“小数据”问题。如果面临的是“小数据”,就找到一个类似的“大数据”,举一反三,帮助只有小数据的任务运用来自其他相关任务的大数据,从而获得更好的表现,使得建立的模型能够更可靠,鲁棒性好,不受外界干扰,平稳运行,这在人工智能落地的应用上是非常重要的一个特性,同时也能够防止隐私泄露。这种从源领域迁移到目标领域的方式,在金融、工业、信息流推荐等领域都有应用,例如贷款风控策略在不同用户类别间的迁移、推荐系统中推荐策略迁移、舆情分析系统中的关键词迁移等。

image.png

虽然迁移学习可以有效解决“小数据”的问题,但是实际上现在面临的不仅仅是“小数据”的问题,而是“数据割裂”、“数据孤岛”。这不仅仅是技术的问题,不能通过简单的数据整合(Data integration)解决,而是要克服政策、监管、技术等多维度难题。此时“联邦学习”(Federated Learning)提供了新的思路,让多方参与,共同建模。

image.png

从联邦学习到联邦迁移学习,保护数据隐私

打通数据,共同建模,这本是一个美好的期望方向,但数据隐私保护的日益严格带来了严峻挑战,欧盟数据隐私保护法GDPR(The General Data Protection Regulation )作为“史上最严厉”的数据隐私保护法案成为一个信号,全世界都在加强数据隐私保护方面的立法建设,那么是否可以让联邦学习参与方只交换模型而不交换数据?让数据不出本地,从而保护数据隐私?据杨教授介绍,数学家们提供了新思路——将同态加密技术(Homomorphic Encryption,HE)融入联邦学习,其核心思想并不复杂,假设A加B是一个公式里的两项,对整个公式加密,那么HE就可以把它表达成对A的加密加上对B的加密。这样可以让参与方不上传数据,只上传加密的算法模型参数而进行共同建模,在这个过程中,即使通过多次交换,也不能重构出另一方的数据,真正实现数据不泄露。

在实际应用中,有基于同一特征维度,不同用户群体的“横向联邦”,例如谷歌的手机终端联邦学习,微众银行联合多家银行建立的反洗钱模型,以及针对同一用户群体,不同特征维度的“纵向联邦”,例如根据用户在银行的信用表现进行个性化保险定价。除此以外,微众银行AI团队***提出了“联邦迁移学习”,将“联邦学习”和“迁移学习”相结合,即使是在用户群体和特征维度重合都小的情况下,也可以进行合作,这意味着无论是政府机构和金融机构之间,还是互联网机构和金融机构之间,或者是其他各领域之间,都可以实现跨界合作。

image.png

联邦学习不仅是技术方向,更是社会问题

杨强教授提到,虽然有了技术工具,微众银行也对外开源了通用的联邦学习框架平台Federated AI Technology Enabler(FATE),但如何设立激励机制吸引机构进入联邦,形成良性生态,则包含博弈论、机制设计、法律等多领域,联邦学习不仅是能解决数据孤岛和数据隐私保护的技术方向,更是一个复杂的社会协同治理问题。除了吸纳更多企业加入联邦生态,微众银行AI团队也在积极推动联邦学习国际标准IEEE标准的制定,这一标准有望在两年内出台,为立法和监管提供更多技术依据。

image.png

联邦学习将走向何方?人工智能将走向何方?杨强教授的观点是,数据可以不出本地,各个数据拥有方可以在安全、保密的前提下交换人工智能模型的参数,以达到联合建模的目的。这种不同学科的交叉融合是趋势,联邦学习和迁移学习,或者是其他机器学习方法,都可以相互融合,发挥各自的特点,从一个领域下的人工智能算法理论迈向多个领域,这才是更有价值的研究。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容