AlphaGo “人肉臂”黄士杰首度公开演讲:Zero版本并未到达极限,加入DeepMind这四件事对我影响最大

姓名:王正帅

学号:14020120007

转载自:mp.weixin.qq.com/s ,有删节

【嵌牛导读】:2016 年,Google 旗下 DeepMind 公司开发的 AlphaGo 击败了韩国职业九段棋士李世石。今年 5 月,AlphaGo 以三战全胜的纪录赢了名列世界第一的棋王柯洁。隔了五个月后,DeepMind 公布了 AlphaGo Zero,它再度让人类感到震撼。“我没有想过一个名词能获得所有人的认同,从政治人物、科学家、企业家、到学生甚至是小孩,都觉得这件事明天会发生,这场完美风暴的引爆点是 AlphaGo,黄士杰可能自己都没想过,他那只帮机器下棋的手,改变这个世界:让大家相信或者忧虑机器会超越人类”,Google 台湾董事总经理简立峰说。人工智能,是简立峰口中的完美风暴,AlphaGo 则是这一波 AI 风潮的最佳代言人,那么,黄士杰呢?相信 DeepTech 的读者们已经对这个名字并不陌生,他是 DeepMind 资深研究员,是与人类顶尖棋手对弈时代 AlphaGo 执棋的“人肉臂”,更重要的是,他还是开发这个神秘大脑的关键人物之一。

【嵌牛鼻子】:AlphaGo、AlphaGo Zero、黄士杰、DeepMind

【嵌牛提问】:AlphaGo Zero 是如何诞生的?黄士杰做了哪些突出贡献?

【嵌牛正文】:


11 月 10 日,黄士杰应台湾人工智能年会之邀来台演讲,演讲主题是“AlphaGo—— 深度学习与强化学习的胜利也是他首次公开演讲

不久前,在 DeepMind 发表了《Mastering the game of Go without human knowledge》的最新论文后,黄士杰曾在 Facebook 写下: AlphaGo Zero 是完全脱离人类知识的 AlphaGo 版本。这也就是取名为 AlphaGo Zero 的原因——AlphaGo 从零开始。

在今天的演讲上,他强调,DeepMind 的目标是要做出一个通用人工智能,也就是强人工智能,但他也认为,对 DeepMind 来说,强人工智能还是很遥远,现在最强的学习技能仍然在人类大脑内,有人说强人工智能要到 2045 年,有人说至少还要 100 年,黄世杰的回答是:“大家不要太担心,电影还是电影。”

从 DeepMind 为什么开始做围棋一直到最新的 AlphaGo Zero,见证了这一切的他称“这几年好像在做梦”。

1、开发 Erica,获邀加入 DeepMind

AlphaGo 怎么开始的?其实是三组人马走在一起、串起来的结晶,第一条线是 Demis Hassabis 和 DeepMind AlphaGo 项目负责人 David Silver,第二条线是我,第三条线是 Google Brain 的两位人员 Chris Maddison 和 Ilya Sutskever。Demis Hassabis 和 David Silver 是在剑桥大学的同学,他们一起创业。他们为什么想做围棋呢?当年 IBM 深蓝赢了西洋棋世界冠军卡斯巴罗夫,就只剩下围棋是人工智能最大的挑战。因此他们一直就希望做出很强的围棋程序,这是他们的梦想。一开始,研究人员是将西洋棋的技术放进围棋,但这失败了,2006 年蒙特卡洛树出来之后,围棋程序提升到业余三段,但离职业水平还是有极大的差距。当我开发出的 Erica 在 2010 年的计算机奥林匹亚获得 19 路围棋的冠军时,我使用的硬件是 8 cores,Zen 用了 6 台 PC,美国的 Many Faces of GO 是用 12 cores,其他对手都是用大机器,但小虾米却赢了大鲸鱼。不久,Demis Hassabis 就写了一封信问我要不要加入,面试时他们告诉我,他们的梦想就是强人工智慧。隔年我就加入 DeepMind。当我们开始做 GO Project 时,大家都有一个共识——不复制 Erica,因为没有意义,我们决定要把深度学习应用进来。

2、AlphaGo 的成功是深度学习与强化学习的胜利

我们怎么判断深度学习可能可以用在围棋呢?如果说,人看一个棋盘,几秒内大概可以知道下这里、下那里会是好棋,这种任务神经网络就办得到,但如果要想好几分钟后怎么走,那神经网络就可能办不到。当初我们就有这 么一个直觉:要以深度学习建构策略网络

AlphaGo 的主要突破是价值网络,有一天,David Silver 跟我说他有这样一个想法,当时我还有点质疑。我们把策略网络做出来后,胜率就提高到 70~80%,后来加入了 David Silver 提出的价值网络,要让机器进行不断左右互搏的自我学习,一开始不太成功,过了一个月我们克服 over fitting 的问题后,AlphaGo 的胜率大大提升到 95%,而这也是后面 AlphaGo Zero 的主要核心。

后来老板就说,要跟人类面对面下棋,就得跟樊麾老师比赛。我记得,当樊麾第二盘棋输了之后,他就说:我要出去走走,因为现场只有我和他说中文,我就说:我陪你,他回答:不用,我自己透透气。樊麾回来后,他变得很正面,他不觉得这东西很可怕,而是很正面也很值得期待,因此他后来也变成 DeepMind 团队的一员。再后来,我们选择公开发表这个研究的论文,因为科学的精神就是互相分享,希望推动整个研究领域进步。之后,加入 Google 也为我们带来很大帮助,特别是硬件上,从 GPU 到 TPU 都没有后顾之忧。但 TPU 对我们有极大帮助,把胜率提高了很多。

另外,大家不要忘记,AlphaGo 在跟李世石比赛时,第四盘棋输的很惨,我当时想说,我自己来下都比较好。尽管最后我们赢了,但回去后就一定要解决这个弱点,不是只解决当初第四盘的弱点,必须全面性地解决,否则以后还是没有人敢用 AI 系统。进化后的版本就是 AlphaGo Master。

我们到底怎么解决呢?还是用深度学习跟强化学习的方法,而不是用人类知识方法。

我们把 AlphaGo 的学习能力变强,从神经网络加深:从 13 层变成了 40 层,并改成 ResNet。

把 2 个网络(决策网络、价值网络)结合成 1 个网络,让 AlphaGo 的直觉和判断同时得到训练,更有一致性。

 改进训练的 pipeline。

解决了模仿期、循环期等特别情况。

3、超越以往的 AlphaGo Zero

AlphaGo Zero 是连我们自己都很惊讶的版本,因为它第一步就是把所有人类知识的部分都抛掉,它是脱离“人类知识”,不是脱离“规则知识,我们一样是给要它 19X19 的盘面训练。

从零开始的 AlphaGo 还真的是全部乱下、彻底乱下,所以最初我们预期 AlphaGo Zero 应该是赢不了 AlphaGo Master,后来我们用了一些方法把卡住的地方解决了,细节可以参考论文,没想到 AlphaGo Master 进一步超越原先的版本,3 天就走完人类几千年围棋研究的历程。深度学习跟强化学习的威力真是太大。

AlphaGo Zero 用了 2000 个 TPU 、训练了 40 天。第 40 天还没有到达其极限,但因为我们机器要做其他事情就停下了,所以它还有很大的潜力。AlphaGo Zero 论文的目的不是要做出很强的程序,也没有想要跟人类知识比较、或是讨论人类知识有没有用这些问题,而是想证明程序不需要人类知识也可以拥有很强的能力。

我观察到,计算机围棋 AI 的价值在于帮助人类或棋手扩展围棋的理论和思路未来 AI 是人类的工具,跟人类合作,而非跟人类对抗。强人工智能还是 Far Away,现在最强的学习技能仍在人类的脑袋里。

4、总结

也就是说,从一个不知道围棋游戏规则的神经网络开始,没有任何人类指导或人类智能的参与,仅仅通过全新的强化学习算法,让程序自我对弈,自己成为自己的老师,在这过程中神经网络不断被更新和调整。没想到的是,机器训练的时间更短,但却更聪明,例如,AlphaGo Zero 在 3 天内进行过 490 万次自我对弈,就达到了先前击败李世石的程度,但之前他们训练与李世石对战的 AlphaGo 却花费了长达数个月的时间。另外,AlphaGo Zero 21 天就达到了在乌镇围棋峰会打败柯洁的 AlphaGo Master 的水平。

推荐阅读更多精彩内容