专家评“阿尔法元”:成绩令人欣喜,但AI还在路上

专家评“阿尔法元”:成绩令人欣喜,但AI还在路上

姓名:钟航        学号:14020120004

转载自:http://ai.ailab.cn/article-85845.html

【嵌牛导读】:过去所有版本的AlphaGo都从利用人类数据进行培训开始,它们被告知人类高手在这个地方怎么下,在另一个地方又怎么下。而阿尔法元不使用任何人类数据,完全是自我学习,从自我对弈中实践。这个遍读人类几乎所有棋谱、以3比0打败人类第一高手的师兄,在“师弟”阿尔法元从零自学第21天后,便被其击败。

【嵌牛鼻子】:ALPHA GO 谷歌 强化学习

【嵌牛提问】:alpha zero 怎么自我学习的?以后会怎么发展?

【嵌牛正文】:

在金庸的小说《射雕英雄传》里,周伯通“左手画圆,右手画方”,左手攻击右手,右手及时反搏,自娱自乐,终无敌于天下。

现实世界中,亦有这么一个“幼童”,他没见过一个棋谱,也没有得到一个人指点,从零开始,自娱自乐,自己参悟,用了仅仅40天,便称霸围棋武林。

这个“幼童”,叫阿尔法元(AlphaGo Zero),就是今年5月在乌镇围棋峰会上打败了人类第一高手柯洁的阿尔法狗强化版AlphaGo Master的同门“师弟”。不过,这个遍读人类几乎所有棋谱、以3比0打败人类第一高手的师兄,在“师弟”阿尔法元从零自学第21天后,便被其击败。

10月19日,一手创造了AlphaGo神话的谷歌DeepMind团队在Nature杂志上发表重磅论文Mastering the game of Go without human knowledge,介绍了团队最新研究成果——阿尔法元的出世,引起业内轰动。

虽师出同门,但是师兄弟的看家本领却有本质的差别。

“过去所有版本的AlphaGo都从利用人类数据进行培训开始,它们被告知人类高手在这个地方怎么下,在另一个地方又怎么下。” DeepMind阿尔法狗项目负责人David Silver博士在一段采访中介绍,“而阿尔法元不使用任何人类数据,完全是自我学习,从自我对弈中实践。”

David Silver博士介绍,在他们所设计的算法中,阿尔法元的对手,或者叫陪练,总是被调成与其水平一致。“所以它是从最基础的水平起步,从零开始,从随机招式开始,但在学习过程中的每一步,它的对手都会正好被校准为匹配器当前水平,一开始,这些对手都非常弱,但是之后渐渐变得越来越强大。”

这种学习方式正是当今人工智能最热门的研究领域之一——强化学习(Reinforcement learning)。

昆山杜克大学和美国杜克大学电子与计算机工程学教授李昕博士向澎湃新闻(www.thepaper.cn)介绍,DeepMind团队此次所利用的一种新的强化学习方式,是从一个对围棋没有任何知识的神经网络开始,然后与一种强大的搜索算法相结合,“简单地解释就是,它开始不知道该怎么做,就去尝试,尝试之后,看到了结果,若是正面结果,就知道做对了,反之,就知道做错了,这就是它自我学习的方法。”

这一过程中,阿尔法元成为自己的“老师”,神经网络不断被调整更新,以评估预测下一个落子位置以及输赢,更新后的神经网络又与搜索算法重新组合,进而创建一个新的、更强大的版本,然而再次重复这个过程,系统性能经过每一次迭代得到提高,使得神经网络预测越来越准确,阿尔法元也越来越强大。

其中值得一提的是,以前版本的阿尔法狗通常使用预测下一步的“策略网络(policy network)”和评估棋局输赢的“价值网络(value network)”两个神经网络。而更为强大的阿尔法元只使用了一个神经网络,也就是两个网络的整合版本。

这个意义上而言,“AlphaGo Zero”译成“阿尔法元”,而不是字面上的“阿尔法零”,“内涵更加丰富,代表了人类认知的起点——神经元。”李昕教授说。

上述研究更新了人们对于机器学习的认知。“人们一般认为,机器学习就是关于大数据和海量计算,但是通过阿尔法元,我们发现,其实算法比所谓计算或数据可用性更重要。”DavidSilver博士说。

李昕教授长期专注于制造业大数据研究,他认为,这个研究最有意义的一点在于,证明了人工智能在某些领域,也许可以摆脱对人类经验和辅助的依赖。“人工智能的一大难点就是,需要大量人力对数据样本进行标注,而阿尔法元则证明,人工智能可以通过‘无监督数据(unsupervised data)’,也就是人类未标注的数据,来解决问题。”

有人畅想,类似的深度强化学习算法,或许能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。

不过,究竟有多大实际意义,能应用到哪些现实领域,李昕教授表示“还前途未卜”,“下围棋本身是一个比较局限的应用,人类觉得下围棋很复杂,但是对于机器来说并不难。而且,下围棋只是一种娱乐方式,不算作人们在生活中遇到的实际问题。”

那么,谷歌的AI为什么会选择围棋?

据《第一财经》报道,历史上,电脑最早掌握的第一款经典游戏是井字游戏,这是1952年一位博士在读生的研究项目;随后是1994年电脑程序Chinook成功挑战西洋跳棋游戏;3年后,IBM深蓝超级计算机在国际象棋比赛中战胜世界冠军加里?卡斯帕罗夫。

除了棋盘游戏外,IBM的Watson系统在2011年成功挑战老牌智力竞赛节目Jeopardy游戏一战成名;2014年,Google自己编写的算法,学会了仅需输入初始像素信息就能玩几十种Atari游戏。

但有一项游戏仍然是人类代表着顶尖水平,那就是围棋。

谷歌DeepMind创始人兼CEO Demis Hassabis博士曾在2016年AlphaGo对阵李世石时就做过说明,有着3000多年历史的围棋是人类有史以来发明出来的最复杂的游戏,对于人工智能来说,这是一次最尖端的大挑战,需要直觉和计算,要想熟练玩围棋需要将模式识别和运筹帷幄结合。

“围棋的搜索空间是漫无边际的——比围棋棋盘要大1个古戈尔(数量级单位,10的100次方,甚至比宇宙中的原子数量还要多)。”因此,传统的人工智能方法也就是“为所有可能的步数建立搜索树”,在围棋游戏中几乎无法实现。

而打败了人类的AlphaGo系统的关键则是,将围棋巨大无比的搜索空间压缩到可控的范围之内。David Silver博士此前曾介绍,策略网络的作用是预测下一步,并用来将搜索范围缩小至最有可能的那些步骤。另一个神经网络“价值网络(valuenetwork)”则是用来减少搜索树的深度,每走一步估算一次游戏的赢家,而不是搜索所有结束棋局的途径。

李昕教授对阿尔法元带来的突破表示欣喜,但同时他也提到,“阿尔法元证明的只是在下围棋这个游戏中,无监督学习(unsupervised learning)比有监督学习(supervised learning)‘更优’,但并未证明这就是‘最优’方法,也许两者结合的semi-supervised learning,也就是在不同时间和阶段,结合有监督或无监督学习各自的优点,可以得到更优的结果。”

李昕教授说,人工智能的技术还远没有达到人们所想象的程度,“比如,互联网登录时用的reCAPTCHA验证码(图像或者文字),就无法通过机器学习算法自动识别”,他说,在某些方面,机器人确实比人做得更好,但目前并不能完全替换人。“只有当科研证明,一项人工智能技术能够解决一些实际问题和人工痛点时,才真正算作是一个重大突破。”

昆山杜克大学常务副校长、中美科技政策和关系专家丹尼斯·西蒙(Denis Simon)博士在接受澎湃新闻采访时表示,阿尔法元在围棋领域的成功说明它确实有极大的潜力。阿尔法元通过与自身对弈实现了自身能力的提升,每一次它都变得更聪明,每一次棋局也更有挑战性。这种重复性的、充分参与的学习增强了阿尔法元处理更高层次的、战略复杂问题的能力。但缺点是这是一个封闭的系统。“阿尔法元如何能够超过自身的局限获得进一步的成长?换句话说,它能跳出框框思考吗?”

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容