【AlphaGo2.0乌镇首局击败柯洁】人机最伟大对弈剖解,超级AI阿老师将围棋3维化

作者:张熙    班级:1402019    学号:14020199002

【嵌牛导读】:柯洁对阵AlphaGo首局失利。

【嵌牛鼻子】:AlphaGo、人工智能

【嵌牛提问】:柯洁使用了怎样的策略对付AlphaGo?AlphaGo2.0较之1.0有何改进?

【嵌牛正文】

在围棋峰会开幕式致辞中,DeepMind CEO Demis 表示,樊麾已经成为 AlphaGo 开发团队中的一位重要成员。樊麾表示,自己在与 AlphaGo 对战以后,获得了很多从未有过的认知。柯洁与 AlphaGo 对战将以全新并且激动人心的方式共同探索围棋的奥秘。Demis 还说,围棋不止是一种游戏,是一种艺术。这场比赛也不止是一场比赛,有些东西是专门设计来探索这个世界上最复杂而美丽的棋盘游戏——围棋的真理(perfection & truth),这是人类自己单独下棋再下 1 万年也无法实现的。Demis 表示,这场比赛将检测计算机能否展现出创造力和直觉。

根据新智元获得的最新消息,5月23日,中国·乌镇围棋峰会的首场人机围棋对抗比赛,暨“柯洁PK AlphaGo”三盘棋的第一盘刚刚结束。AlphaGo 经过一番苦战,成功击败世界第一柯洁,取得1:0的领先。

本次柯洁与AlphaGo的终极对决共有三盘,除23日外,25、27日还分别有一盘棋的比赛。

峰会开幕式也在23日上午举行,DeepMind CEO 哈萨比斯在开幕式的演讲中说到:我们最终的目的是探索新的领域,而最终的胜利属于人类。中国是围棋的诞生地,这是举行最伟大对弈的理想地方。非常感谢中国各方面的帮助。柯洁是一个真正的天才,相信他和 AlphaGo的对弈,将开启一个新的天地。围棋是艺术,非常深奥,我们的峰会宗旨在于探索新的思路,如探索宇宙一样,相信再过一万年,也无法穷尽。

本次峰会的开幕仪式上,我们看到以三维围棋也就是魔方作为整场峰会的主题之一,AI 围棋是对人类智能的升格。从AlphaGo去年与李世乭的对战以后,现在众多棋手已经开始从AlphaGo身上学习新的下法,新的策略,比如著名的“点三三”。长远看来,这不仅是AlphaGo(阿老师)对围棋世界的影响,更是人类文明的智能革命的一个开端。

胜负已无悬念?第一盘比赛回顾

比赛开始之前,柯洁普遍不被看好,不少人工智能领域的专家都直接给出了“胜负已无悬念”的论断。虽然目前三盘比赛只下了第一盘,但是对柯洁能否最终取胜,大家普遍比较悲观。

【策略】开局柯洁借鉴了Master

比赛开始不久,哈萨比斯就在Twitter上发文,称柯洁使用了1月份时候出现在线上对战平台的Master的下法。哈萨比斯还说,柯洁明知AlphaGo喜欢三三,开局就用三三式

【时间】开局半小时后。黑白双方用时相差10分钟。这次比赛相比于李世石和阿尔法狗,人和机器的时间都增加了 1 小时。开局半小时,柯洁下出了很多针对阿尔法的下法,效果还有待考察。

据观察,AlphaGo 每步棋都用时 40秒 左右,这样 3 个小时Alphago是远远用不完的。

简单回顾一下比赛:

今天的第一盘比赛,柯洁执黑,AlphaGo 执白。

柯洁使用了 Master 此前经常采用的 大飞 下法开局,这不是柯洁惯用的开局方法,这一下法很有针对性。明显是针对 AI 专门训练的。

柯洁说阿尔法狗风格“不拘一格,狂捞实地”,柯洁先捞实地。看能否引发阿尔法狗 Bug。黑棋点三三,白棋二路扳,都是在捞取实地。

如果换作以前,人类棋手可能会觉得局面不利,只捞了一个角,角上的实地也不是很大。但现在,因为 AI 的洗礼,人类的认识已经有了很大变化。

中午没有分盘,AlphaGo 在体力上的优势不言自明。黑棋捞实地,白棋则有一定的外势。人下得越来越像机器,机器倒有几分像人了。

柯洁现在遭到阿尔法意想不到的一手后陷入了长考。其实人类棋手们都知道,和“阿老师”下一旦形势落后,就很难扳回来,所以序盘这个长考很有必要。

双方行至中盘,盘面相当。柯洁用时几乎是AlphaGo的一倍。可以看出,柯洁一直努力在找 AlphaGo 的漏洞。而在双方的近身缠斗中,执白的 AlphaGo 一度还似乎略处下风。但这“下风”仍然是人类的认识。记得去年 AlphaGo 大战 李世石时,李世石在几盘棋中也似乎占有着一点点优势。

进入到官子阶段,局面愈发焦灼。有围棋专业人士评论,对 AlphaGo 来说,连胜 60局时都未曾出现今日的艰难局面。

AlphaGo收官异常简明,甚至使出苦肉计弃一子吃黑两子将白棋彻底做活。

AlphaGo的用时,令人发指的短........到最后还剩了接近两个小时,柯洁只剩10多分钟.......

去年的李世乭,今年的柯洁

相信大家都对去年3月阿尔法狗和李世乭的人机对战印象深刻,当时李世乭从AlphaGo手上拿下一盘。

不过,综合近年来柯洁和李世乭在职业赛场上的表现,柯洁的实力无疑是在李世乭之上。

下图:截止2016年1月Go Ranking上的围棋世界排名,柯洁排在第一,李世乭排在第3。

下图:截止2017年1月Go Ranking上的围棋世界排名,柯洁排在第一,李世乭排在第7。

柯洁赛前接受媒体的专访时曾提到,它(AlphaGo)对“目”的敏感度,远超于人。Master的版本与原来V18的版本最大的不同是,以前的版本,在下棋上还是很像人,无论它有多少闪光点,大部分的棋盘还是人类的下法,包括布局和战略意图,现在,感觉就是,它很仙,有仙气的感觉。

AlphaGo 2.0 与其 1.0 相比有哪些提升?深度解析

另一方面,AlphaGo也不在是一年前的AlphaGo了。

1月11日,哈萨比斯在出席德国慕尼黑举行的DLD(数字、生活、设计)创新大会,宣布将推出真正2.0版本的AlphaGo,特点是摈弃人类棋谱,只靠深度学习的方式成长。哈萨比斯有一次在剑桥大学的演讲中提到,以前从零训练一个AlphaGo要三个月,现在只需要一个星期。由此看来,硬件上AlphaGo已经有了较大的升级。

搜狗公司CEO王小川在知乎上写道,根据公开资料推测,此次AlphaGo2.0的技术原理与之前有着巨大不同:

1. 放弃了监督学习,没有再用人的3000万局棋谱进行训练。这本是AlphaGo最亮眼的算法,也是今天主流机器学习不可避免的核心条件:依赖于优质的数据,在这个特定问题下就这么被再次突破了。

2. 放弃了蒙特卡洛树搜索,不再进行暴力计算。理论上,算法越笨,就越需要暴力计算做补充。算法越聪明,就可以大大减少暴力计算。从AlphaGo 2.0的“马甲”Master的历史行为看,走棋非常迅速,约在每10秒钟就走棋一步,如此速度很可能是放弃了暴力的计算。

3. 极大地强化了增强学习的作用,之前敲边鼓的算法,正式成为扛把子主力。想想看有多励志:两台白痴机器,遵守走棋和获胜规则,从随机走棋开始日夜切磋,总结经验,不断批评和自我批评,一周后终成大器。

在这样的算法下,AlphaGo 2.0对计算资源开销极小,把当前棋局输入神经网络,电流流过,输出就是最佳的走棋方案。我猜测如此算法下,有可能仅仅依靠一个GPU工作,每一步棋消耗的能源接近人的大脑。

新智元在峰会现场采访了谷歌 TensorFlow 项目负责人、谷歌大脑成员 Rajat Monga 。但是他并没有透露 TensorFlow 或者,更具体的说,第二代 TPU 在这次 AlphaGo 升级版对战柯洁中所扮演的作用。我们知道,在 AlphaGo 对战李世石当中,谷歌表示第一代 TPU 起到了至关重要的作用。涉及 TPU 的提问,无论是一代还是二代,Rajat 的回复都是“这个我不方便回答”,“请看官方发布的资料吧”

至于此前 TensorFlow 是否会导致生态垄断的疑问,Rajat 在接受其他媒体采访时表示,TensorFlow 在谷歌内外所用的代码都是一致的(exactly the same)。谷歌内部有更新时,他们也会在 Github 上,以大约每周的频率更新代码,确保同步。

Rajat 透露,目前已经有 14 万中国开发者下载 TensorFlow,中国是 TensorFlow 最大的开发者社区之一。因此,新智元也问了 Rajat 几个开发者比较关心的问题,例如 TensorFlow 衍生的各种高层 API 封装,哪个最有可能成为以后谷歌主流推广的对象——Rajat 的回答是“Keras”;XLA 稳定版何时发布?Rajat 表示他们一直都在努力推进,不过,至于具体时间,Rajat 则面带微笑地说:“很快吧。”(soon)

综合此前网上的猜测,DeepMind基于围棋的规则,完全摒弃了人类棋谱,让AlphaGo通过深度神经网络和增强学习,甚至是生成对抗网络(GANs)等技术,让程序可以可以在合理的时间和计算量的情况下, 搞定围棋的搜索空间。所以可以看到,AlphaGo会下出很多让人“出乎意料”的走法。

不过,根据新智元专家群内专家透露,本次出现在乌镇的AlphaGo并没有完全弃用蒙特卡洛搜索的方法,新版本只是对原来的程序的升级。

此前,DeepMind曾发布了一篇博客《Innovation of AlphaGo》,DeepMind的软件工程师与围棋专业棋手樊麾共同讲解了自去年以来AlphaGo在围棋策略和战术上的进步。

Alphago 强大之处并不在于单独的一手或一连几手,而是它为每一局对弈带来的独一无二的新视角。虽然围棋的风格很难以一言以蔽之,但 AlphaGo 的策略象征了一种灵活和开放的精神:没有先入为主的观念,因此可以找到最有效的对弈策略。

正如以下两局对弈所显示的,这种思想经常使 AlphaGo 得出有悖直觉但十分强大的行动。

尽管围棋是“围地吃子”的游戏,但是大多数决策类的战斗都讲究双方的力量平衡。AlphaGo 在维持平衡方面可谓一绝。具体说,AlphaGo 在运用“势”方面能力精湛,也就是利用已经下定的棋子影响周围的形势。虽然这种“势”无法量化,但 AlphaGo 的价值网络使其能够一次考虑到通盘的局面,从而做出细微且精确的判断。这些能力让 AlphaGo 将局部的“势”扩展为全局的优势。

在这局棋里(Dia.1),黑子(AlphaGo)安全领域(secure territory)很少,而白子占据了三个角。但是,黑子的“势”辐射到整个盘面。尤其是标记出的落子,虽然巩固了白棋,但同时也增强了黑棋的可能性。围棋选手通常会避免这样的出招,因为这样必定会付出代价,而回报却不一定。但 AlphaGo 结合它对风险和奖励强劲的判断,最终下出了这一步棋。

但是,这些“势”的价值全部取决于具体的场景。当这些“势”能够有效转移时,AlphaGo 都自由地消去这些“势”。在 Dia.2 中,AlphaGo 下出了惊人的 6 子连线(三角标记)。围棋选手评价称,在第四行(圆圈标记)有“势”,在第三行有地(territory),但在第二行只有败局。AlphaGo 的走法最初看起来是符合这些评价的,这些落子给了白棋力量和“势”。大多数围棋选手都不会下出这样的6子连在一起的棋。但是,AlphaGo 判断这样有助于将白棋分散开来,在接下来的过招中,慢慢地侵蚀白棋的优势,从上方和下方同时确保了领先的优势。

新的招式,新的模式

AlphaGo 在最近的几句对弈中,还下出了一些开局的新招式。最引人注目的是开局的3-3入侵和“Magic Sword”的新变种。每个都违反了常规理论,但在更深入的反思中,却证明是符合道理的。

初盘的三三定式(3-3 invasion)

围棋占据角落最常见的方法是3-3 point invasion,如Dia.3 所示。

这样落子立马就确保了角落的安全。但是,像 Dia.4 显示的教科书式的接下来的开盘布局,很早就被抛弃了,因为“势”太多(it gives too much influence)。

AlphaGo 的创新之处在于,它省略了标记出的过招,让角落处在 Dia.5 显示的不确定(unsettled)的状态。

尽管不那么安全,黑子仍然保有从左边逃出,或者在右边落子占据角落的选择,这样就在仅仅减弱些微 influence 的情况下,占据了更多的领地(territory)。这个策略在职业棋手之间激起了热烈的讨论,而且至少已经有一个人在实际对弈中应用了这一招。

The New Magic Sord

AlphaGo 最初是使用人类的数据进行训练的,因此它知道当代落子占角的下法,也通常按照这样的顺序落子。但是,在“Magic Sword”,也即被称为“村正妖刀”的围棋定式中,AlphaGo 却出现了偏离。

Dia. 7

Dia. 8

从 Dia.7 显示的局面开始,常规的落子过招会出现 Dia. 8 的情况。

然而,AlphaGo 往往更喜欢放弃外围,赢取领地上的优势(Dia. 9所示)。

大多数围棋选手都不会考虑下这种棋,因为这样黑棋虽然有很强的城墙(wall),但白棋的后手跟进让黑棋的“势”并没有看上去那么大。如果黑棋不继续巩固这面城墙,还会遭到攻击。韩国顶尖棋手金志锡(Kim Jiseok)最近在一场比赛中用了这一系列落子(Dia. 10所示),他最终赢得了那场比赛。

勇士柯洁:探索人机共存的正确态度

5月22日,在围棋大战开始前夜,柯洁在微博上发文:

决战前夕,感慨万千...

在这个特殊的时间,我有些话想和热爱围棋、关注围棋、关注我的朋友们说:

无论输赢,这都将是我与人工智能最后的三盘对局

很多人可能会问为什么?

其实私底下我已经与朋友家人说了很多次这样的想法,现在的AI进步之快远超我们的想象。像国产的绝艺、日产的ZEN虽然和AIphago还有着较大差距,但已经表现出超强的实力了...我相信未来是属于人工智能的。

可它始终都是冷冰冰的机器,与人类相比,我感觉不到它对围棋的热情和热爱。对它而言...它的热情——也只不过是运转速度过快导致CPU发热罢了。

我会我用所有的热情去与它做最后的对决,不管面对再强大的对手——我也绝不会后退!至少这...最后一次...

拼尽全力后,无论结果...管他口中是是非非,来一首《沧海一声笑》..岂不美哉、快意?我淡然笑到...

不眠夜,且看且珍惜,请大家欣赏我最后的三盘人机大战。

正如柯洁所说,“未来是属于人工智能的”,这一点是大势所趋。柯洁,包括众多即将走上与AlphaGo对决赛场的职业棋手们在这场大赛中我们展示了面向未来世界的勇气和热情。

正在大家都认为人类毫无胜算,人工智能越来越强大的时候,勇士柯洁依然勇敢地站了出来,迎接来自人工智能的挑战。

世界围棋女子冠军,围棋职业五段徐莹认为,自从阿尔法围棋(AlphaGo)出现之后,突然围棋变得五彩斑斓了,突然间世界就打开了。其实我们和 AI 互相在促进,互相在帮助,一下子思路打开了,我们完全不受限制,而这恰恰是我们追求的围棋本质。

未来,AI 会是无处不在的。AlphaGo在2016年横空出世,开启了人与机器共存的新时代,也带给我们更多关于人类未来、关于智能、关于人类的“存在”的深度思考。在这一点上,勇士柯洁树立了一个很好的榜样。我们要做好准备,勇敢迎接一个人机共存,人与机器共同进步和进化的时代。

推荐阅读更多精彩内容