AlphaGo “人肉臂”黄士杰首度公开演讲：Zero版本并未到达极限，加入DeepMind这四件事对我影响最大

姓名：王正帅

学号：14020120007

【嵌牛导读】：2016 年，Google 旗下 DeepMind 公司开发的 AlphaGo 击败了韩国职业九段棋士李世石。今年 5 月，AlphaGo 以三战全胜的纪录赢了名列世界第一的棋王柯洁。隔了五个月后，DeepMind 公布了 AlphaGo Zero，它再度让人类感到震撼。“我没有想过一个名词能获得所有人的认同，从政治人物、科学家、企业家、到学生甚至是小孩，都觉得这件事明天会发生，这场完美风暴的引爆点是 AlphaGo，黄士杰可能自己都没想过，他那只帮机器下棋的手，改变这个世界：让大家相信或者忧虑机器会超越人类”，Google 台湾董事总经理简立峰说。人工智能，是简立峰口中的完美风暴，AlphaGo 则是这一波 AI 风潮的最佳代言人，那么，黄士杰呢？相信 DeepTech 的读者们已经对这个名字并不陌生，他是 DeepMind 资深研究员，是与人类顶尖棋手对弈时代 AlphaGo 执棋的“人肉臂”，更重要的是，他还是开发这个神秘大脑的关键人物之一。

【嵌牛鼻子】：AlphaGo、AlphaGo Zero、黄士杰、DeepMind

【嵌牛提问】：AlphaGo Zero 是如何诞生的？黄士杰做了哪些突出贡献？

【嵌牛正文】：

11 月 10 日，黄士杰应台湾人工智能年会之邀来台演讲，演讲主题是“AlphaGo—— 深度学习与强化学习的胜利”，也是他首次公开演讲。

不久前，在 DeepMind 发表了《Mastering the game of Go without human knowledge》的最新论文后，黄士杰曾在 Facebook 写下： AlphaGo Zero 是完全脱离人类知识的 AlphaGo 版本。这也就是取名为 AlphaGo Zero 的原因——AlphaGo 从零开始。

在今天的演讲上，他强调，DeepMind 的目标是要做出一个通用人工智能，也就是强人工智能，但他也认为，对 DeepMind 来说，强人工智能还是很遥远，现在最强的学习技能仍然在人类大脑内，有人说强人工智能要到 2045 年，有人说至少还要 100 年，黄世杰的回答是：“大家不要太担心，电影还是电影。”

从 DeepMind 为什么开始做围棋一直到最新的 AlphaGo Zero，见证了这一切的他称“这几年好像在做梦”。

1、开发 Erica，获邀加入 DeepMind

AlphaGo 怎么开始的？其实是三组人马走在一起、串起来的结晶，第一条线是 Demis Hassabis 和 DeepMind AlphaGo 项目负责人 David Silver，第二条线是我，第三条线是 Google Brain 的两位人员 Chris Maddison 和 Ilya Sutskever。Demis Hassabis 和 David Silver 是在剑桥大学的同学，他们一起创业。他们为什么想做围棋呢？当年 IBM 深蓝赢了西洋棋世界冠军卡斯巴罗夫，就只剩下围棋是人工智能最大的挑战。因此他们一直就希望做出很强的围棋程序，这是他们的梦想。一开始，研究人员是将西洋棋的技术放进围棋，但这失败了，2006 年蒙特卡洛树出来之后，围棋程序提升到业余三段，但离职业水平还是有极大的差距。当我开发出的 Erica 在 2010 年的计算机奥林匹亚获得 19 路围棋的冠军时，我使用的硬件是 8 cores，Zen 用了 6 台 PC，美国的 Many Faces of GO 是用 12 cores，其他对手都是用大机器，但小虾米却赢了大鲸鱼。不久，Demis Hassabis 就写了一封信问我要不要加入，面试时他们告诉我，他们的梦想就是强人工智慧。隔年我就加入 DeepMind。当我们开始做 GO Project 时，大家都有一个共识——不复制 Erica，因为没有意义，我们决定要把深度学习应用进来。

2、AlphaGo 的成功是深度学习与强化学习的胜利

我们怎么判断深度学习可能可以用在围棋呢？如果说，人看一个棋盘，几秒内大概可以知道下这里、下那里会是好棋，这种任务神经网络就办得到，但如果要想好几分钟后怎么走，那神经网络就可能办不到。当初我们就有这么一个直觉：要以深度学习建构策略网络。

AlphaGo 的主要突破是价值网络，有一天，David Silver 跟我说他有这样一个想法，当时我还有点质疑。我们把策略网络做出来后，胜率就提高到 70～80％，后来加入了 David Silver 提出的价值网络，要让机器进行不断左右互搏的自我学习，一开始不太成功，过了一个月我们克服 over fitting 的问题后，AlphaGo 的胜率大大提升到 95％，而这也是后面 AlphaGo Zero 的主要核心。

后来老板就说，要跟人类面对面下棋，就得跟樊麾老师比赛。我记得，当樊麾第二盘棋输了之后，他就说：我要出去走走，因为现场只有我和他说中文，我就说：我陪你，他回答：不用，我自己透透气。樊麾回来后，他变得很正面，他不觉得这东西很可怕，而是很正面也很值得期待，因此他后来也变成 DeepMind 团队的一员。再后来，我们选择公开发表这个研究的论文，因为科学的精神就是互相分享，希望推动整个研究领域进步。之后，加入 Google 也为我们带来很大帮助，特别是硬件上，从 GPU 到 TPU 都没有后顾之忧。但 TPU 对我们有极大帮助，把胜率提高了很多。

另外，大家不要忘记，AlphaGo 在跟李世石比赛时，第四盘棋输的很惨，我当时想说，我自己来下都比较好。尽管最后我们赢了，但回去后就一定要解决这个弱点，不是只解决当初第四盘的弱点，必须全面性地解决，否则以后还是没有人敢用 AI 系统。进化后的版本就是 AlphaGo Master。

我们到底怎么解决呢？还是用深度学习跟强化学习的方法，而不是用人类知识方法。

我们把 AlphaGo 的学习能力变强，从神经网络加深：从 13 层变成了 40 层，并改成 ResNet。

把 2 个网络（决策网络、价值网络）结合成 1 个网络，让 AlphaGo 的直觉和判断同时得到训练，更有一致性。

改进训练的 pipeline。

解决了模仿期、循环期等特别情况。

3、超越以往的 AlphaGo Zero

AlphaGo Zero 是连我们自己都很惊讶的版本，因为它第一步就是把所有人类知识的部分都抛掉，它是脱离“人类知识”，不是脱离“规则知识，我们一样是给要它 19X19 的盘面训练。

从零开始的 AlphaGo 还真的是全部乱下、彻底乱下，所以最初我们预期 AlphaGo Zero 应该是赢不了 AlphaGo Master，后来我们用了一些方法把卡住的地方解决了，细节可以参考论文，没想到 AlphaGo Master 进一步超越原先的版本，3 天就走完人类几千年围棋研究的历程。深度学习跟强化学习的威力真是太大。

AlphaGo Zero 用了 2000 个 TPU 、训练了 40 天。第 40 天还没有到达其极限，但因为我们机器要做其他事情就停下了，所以它还有很大的潜力。AlphaGo Zero 论文的目的不是要做出很强的程序，也没有想要跟人类知识比较、或是讨论人类知识有没有用这些问题，而是想证明程序不需要人类知识也可以拥有很强的能力。

我观察到，计算机围棋 AI 的价值在于帮助人类或棋手扩展围棋的理论和思路，未来 AI 是人类的工具，跟人类合作，而非跟人类对抗。强人工智能还是 Far Away，现在最强的学习技能仍在人类的脑袋里。

4、总结

也就是说，从一个不知道围棋游戏规则的神经网络开始，没有任何人类指导或人类智能的参与，仅仅通过全新的强化学习算法，让程序自我对弈，自己成为自己的老师，在这过程中神经网络不断被更新和调整。没想到的是，机器训练的时间更短，但却更聪明，例如，AlphaGo Zero 在 3 天内进行过 490 万次自我对弈，就达到了先前击败李世石的程度，但之前他们训练与李世石对战的 AlphaGo 却花费了长达数个月的时间。另外，AlphaGo Zero 21 天就达到了在乌镇围棋峰会打败柯洁的 AlphaGo Master 的水平。

最后编辑于：2017.12.11 13:43:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,198评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,663评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,985评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,673评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,994评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,399评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,717评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,407评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,112评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,371评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,891评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,255评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,881评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,010评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,764评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,412评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,299评论 2赞 260

AlphaGo “人肉臂”黄士杰首度公开演讲：Zero版本并未到达极限，加入DeepMind这四件事对我影响最大

推荐阅读更多精彩内容