AlphaGo人机大战随想 -- 作者: 馋宗通吃

本文是我的好友馋宗通吃观战后的感想，我帮忙发布在简书。如需转发请通知我，谢谢。

补充：我这个好友大学专业是计算机相关的，大学期间学过神经网络，写过棋类程序，也算是典型围棋爱好者。

AlphaGo 4:1 李世石，人机大战落幕。估计大部分人和我一样，从赛前对AlphaGo的轻视，到AlphaGo突然战胜人类九段的吃惊，再到李世石屡败屡战后点穴般“神之一手”的惊艳，到最后接受人工智能战胜人类九段的同时，又有一点点的感伤和对未来的担心。

本人吃货一枚，稍微研究过人工智能，现在陪小孩学围棋玩。下面从几方面随便聊聊自己的想法，也算是对这些天自己心路历程的一个记录吧。

一、说说狗狗（注1）

AlphaGo由3部分构成：Policy Networks/Value Networks /蒙特卡罗搜索树（MCTS）。下面简单介绍它们仨。

1）Policy Networks

Policy Networks根据当前局面，评估下一步走哪里？它分为两部分，Supervised Learning Policy Networks和Reinforcement Learning Policy Networks。

Supervised Learning Policy Networks是一个13层深度的人工神经元网络，它学习了KGS Go Server里所有的专业棋谱，合共3000万步棋。学习完成后，如果你“问”SL Policy Networks记不记得某个学习过的棋谱里下一步棋应该走哪里，Policy Networks回答有57%和棋谱里一致。呵呵，貌似阿尔法狗狗的记忆力很一般呀！其实不然，剩下43% SL Policy Networks凭“感觉”给出的棋，我猜如果其中有一小半不是太坏的招，那么SL Policy Networks针对学习过的局面给出的下一步棋，有70%左右是不差的！！！但这还没完，阿尔法狗狗还要再自我强化一把，就是Reinforcement Learning Policy Networks。

Reinforcement Learning Policy Networks是SL Policy Networks的加强版，就是拿一个选定的SL Policy Networks不断跟一群随机选择的SL Policy Networks内部比赛，不断修正自己。最终，这个选定的SL Policy Networks被强化到有80%的内部比赛胜率。有没有养一堆毒虫让它们互相厮杀剩下一个的感觉？用一个开源的围棋软件Pachi作为参考对手，阿尔法狗狗用SL Policy Networks胜率是11%，而用优胜劣汰脱颖而出的RL Policy Networks胜率暴涨到85%。

2）Value Networks

Value Networks跟Policy Networks类似，它根据当前局面，预估己方胜率是多少。训练方式也是如出一辙，先用KGS Go Server里的棋谱训练。训练出一批Value Networks之后，它们再互相PK，得到一个预估胜率最准确的Value Networks，叫做Reinforcement Learning Value Networks。我们是不是该对股评专家也采用类似的方式对待呢?嗯，评股，养蛊，谐音啊~

3）蒙特卡罗搜索树（MCTS）

蒙特卡罗是一类随机方法的统称。举个例子，假如筐里有100个苹果，让我每次闭眼拿1个，挑出最大的。于是我随机拿1个，再随机拿1个跟它比，留下大的，再随机拿1个……我每拿一次，留下的苹果都至少不比上次的小。拿的次数越多，挑出的苹果就越大，但我除非拿100次，否则无法肯定挑出了最大的。这个挑苹果的算法，就属于蒙特卡罗算法——有限时间内尽量找好的，但不保证是最好的。（注2）

AlphaGo大概就是这样运作的，当前局面有很多下法（平均200个落子点），用Policy Networks把“觉得不错”的落子点优先标出来，然后蒙特卡洛搜索树（MCTS）会开动脑筋，如果狗狗我这样这样落子而对方就会那样那样回应……MCTS对于每个想到的局面，会有一个评分：综合考虑Value Networks评分和一个随机得分（the outcome zL of a random rollout played out），公式是这样子的：

最后AlphaGo会选一个得分（胜率）最高的下法。关于评分，我觉得DeepMind这里并没有讲太清楚，围观群众也不必深究（也可查阅论文原文）。只需要明白狗狗的思路既可，狗狗的世界大概是这样的：

狗狗根据以往的经验（“感觉”）选一些下法，随机也选一些下法，发挥计算力特长搜索评估不同局面，最终选择胜率最高的下法。只要选的下法足够多，就很可能逼近最佳下法。这样看来，狗狗有种“大胆猜测，小心求证”的味道，DeepMind厉害。

从娱乐的角度看，阿尔法狗狗可以看作是：根据经验抓一批人，随机也抓一批人，都杀掉！错杀三千，也许 “那一个”就逃不了！如果给狗狗更多的时间和CPU，就杀三万三十万，“那一个”就更难逃脱了！！！好邪恶好血腥~

从计算机搜索树剪枝算法角度看，AlphaGo是：用Policy Networks来剪枝，用Value Networks模糊估值和随机估值（减少思维盲点）结合，达到在有限时间和硬件条件下，尽量找到好的下法！从结果来看，狗狗在“时间/空间/准确性”方面找到了较好平衡点，赞一个。

最后说说AlphaGo的硬件配置：本次比赛使用单机版本48 CPUs + 8 GPUs，40条线程并行计算；分布式版本用到多台机器，合共1202 CPUs + 176 GPUs,每台机器40线程。

图例：How AlphaGo (black, to play) selected its move in an informal game against Fan Hui.

二、说说战斗（注3）

3月9日，李世石轻敌，首局中盘认输，人类哗然。

3月10日，AlphaGo完胜，其中一步5路尖冲，令聂卫平“脱帽致敬”。李世石承认局面一直落后，完败。

3月12日，李世石在序盘仅仅因一手棋过分便遭到AlphaGo最犀利的反击，从此落入被动局面。三连败，世间感伤。

3月14日，李世石在不利局面下弈出“神之一手”挖，AlphaGo“短路”，小李翻盘。李世石出席发布会时，现场几百名记者齐声高呼李世石的名字，小李是英雄。

3月15日，李世石细棋败北。

纵观这五盘棋，AlphaGo通过大量棋谱/实战训练，令自己“像一个高手”，同时局部精准计算是特长。但AlphaGo仍有程序固有的缺点，一旦遇到bug很容易崩溃，有点像人类的“天才白痴”。另外，AlphaGo人工神经元网络不会针对对手调整自己，或者说，5局棋谱比起之前16万局训练如沧海一粟，对AlphaGo提高和调整几乎可以忽略。

而李世石，赛前对AlphaGo 有轻敌情绪，但小李不断试探和调整策略的努力，屡败屡战和绝地反击的决心，终于逼出AlphaGo的bug，的确配得上“人类代表”。

最终人机大战李世石1比4败北，谷歌的人工智能攻破了人类智力运动最坚实的堡垒，李世石逆境下获得的一胜同样捍卫了人类的尊严。

三、说说未来

AlphaGo的确是人工智能的一大突破。

这次突破可能最重要的影响，就是让我们更清晰的认知了基于机器学习的神经网络的能力，这种能力应该远远超出我们早期的预想。因此对我们人类将来的生活将产生深远的影响。（注4）

个人认为，AlphaGo是人类历史上的一个里程碑。人类从石器时代—铁器青铜时代—蒸汽时代—电气时代—信息时代一直发展过来，石头/金属工具替代了徒手劳作，蒸汽/电气力量替代了人力，计算机替代了简单而繁重的精确数据处理。而现在，AlphaGo用一场胜利宣告人类开始进入新的时代——人工智能时代。这个时代可能会有一些特点：

1）人工智能将代替一些专业性极强但不需要完全准确的工作（能获取完全信息的领域），例如全球语言的同声传译（人类要逆天重建巴别塔呀），例如在一个城市里根据监控图像迅速排查恐怖嫌疑分子等等。

2）人工智能成为人类更有力的助手，人也更依赖人工智能（其实，我们现在已经更依赖智能手机了，囧）。这方面期待人工智能的沟通表达能力做出突破。例如这次AlphaGo一些下法虽然后来证明很厉害，但很多职业棋手当时都看不懂。试想，如果一个医疗人工智能助手给了医生一个精准的治疗方案，但无法说清楚为什么要这样做，医生和病人敢上手术台吗？

3）人类不可替代，至少AlpahGo这一类完全信息人工智能不行。因为还有“不能获取完全信息的领域”。人类可以探索未知领域，并且策略调整和反应很快，人类可以发现原来未知的东西，例如“引力波”。而在人类已经把某个领域探索的比较清楚了，把这些经验整理成的“训练数据”（或者获取训练数据的框架），人工智能才能学习。如果要训练那些数据都不知道，阿尔法狗狗就晕了。让一台机器/物种能创新和顿悟，仍然是神之领域！（科学的尽头是哲学，哲学的尽头真的是神学吗？）

最后，用我昔日同窗赵教授的一个段子作为这篇文章的结尾：

离考试结束还有10分钟了，监考老师说：“要及格的同学抓紧时间啦！”说完便转身走出了教室……对任何一个人，只要脑袋没有进水，都知道要干什么了。对这个简单的情景，不知道阿尔法狗狗会如何反应？哈哈哈~~~

注1：全篇多处引用到DeepMind团队的论文《Mastering the Game of Go with Deep Neural Networks and Tree Search》，不一一标出，在这里一并向DeepMind团队致谢。

注2：作者：苏椰，http://www.zhihu.com/question/20254139/answer/33572009

注3：这里参考了网上各路专业棋手和记者和看法，无法一一列出，一并致谢！有兴趣读者可以上网搜索细品。

注4：刘知青教授接受喆理围棋访问语录。

最后编辑于：2017.12.03 03:12:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,458评论 4赞 363
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,454评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,171评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,062评论 0赞 207
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,440评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,661评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,906评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,609评论 0赞 200
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,379评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,600评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,085评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,409评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,072评论 3赞 237
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,088评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,860评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,704评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,608评论 2赞 270

AlphaGo人机大战随想 -- 作者: 馋宗通吃

推荐阅读更多精彩内容