爱奇闻

李世石首战阿尔法狗告败 AlphaGo究竟是什么

2021-01-01 社会奇闻 李世石首战阿尔法狗告败 AlphaGo究竟是什么

围棋从未像现在这样得到来自棋界内外、横跨体育界科技界的全球瞩目。人机大战才比了第一场,但好多人似乎觉得已成定局。因为李世石开局第一盘就输了,人类输给了机器。

记得当年输给深蓝,我们喊过人类还有围棋,这次李世石如果失败,是不是就意味着人类在象征大脑发育水平的棋类运动里,从此再无与机器人抗衡的优势了呢?

一、李世石是怎么输的?

让我们先复盘下,李世石是如何失掉这至关重要的首局。

AlphaGo的长处在于学习前人经验和计算,正如李世石判断的一样,布局是相对的短板,这也是李世石选择执黑先行的原因。

下到第7手,李世石九段把起黑子放在了一个棋盘右下侧出乎所有人意料的位置,既不守,又不攻。中国围棋九段选手柯洁把这一招定义为“从没有见过的邪恶招法”,而古力九段也表示这一招从未在职业选手中出现过。你AlphaGo不是经验丰富、阅棋无数吗?下个你没见过的,看你学谁去。

然而这里,AlphaGo似乎并没有接茬,而是继续稳扎稳打,专攻右上角。

而AlphaGo怎么想的呢?

AlphaGo是用两个大脑去决策的,第一个大脑叫落子选择器Move Picker,即“监督学习的策略网络(Policy Network)” ,它会预测每一个合法下一步的最佳概率,给出候选走子。这里的最佳目标不是数学意义上的赢棋,而是怎么下出符合人类高手选择的落子,简单说就是下得像个人样。

第二大脑是局面评估器Position Evaluator,即价值网络(Value Network),学习大量棋谱后,它自我强化学习,通过“左右互搏”来学习判断局势,让从AlphaGo候选中做出决策。

事后,我们能看出这里两者预期的误差,李世石试图以经验去扰乱机器,而AlphaGo的智能之处在于它不是简单的数据库调取方案,而是智能模仿人类行为,反而让李世石的“邪恶招法”显得多余。

到第27子后,刚刚进入中盘,到了这个阶段,李世石还是占有一些优势,但李世石陷入了思考。

有趣的是白棋的第84手,居然下出了从未见过的下法,韩国金成龙九段表示:“成为职业棋手27年来,第一次看到白断这手棋!”李世石看到这步棋,摇了摇头。

那么问题来了,既然 AlphaGo 是跟别人学的棋谱,那么这招是和谁学的?连Google作者表示连他也不知道。作者设置了机制,但并不知道这个机制具体如何运作学习。#AI对人类目前来说,还是一只尚不了解的怪兽#

最后官子阶段AlphaGo开始展现恐怖之处。

“明明之前是我的优势,但在最后的官子阶段,却被他一步一步蚕食,最后输的却是我。”AlphaGo的上一个对手樊麾二段就感受过,“AlphaGo用同样的方式蹂躏了我五盘,只要犯哪怕一个错误,就会被穷追猛打,最后万劫不复。”

可惜的是李世石也犯了错,还是两个。挣扎了一个小时,局势仍然不可逆转。

下午3点33分,李世石投子认输,AlphaGo获胜。

留下李世石一个人坐在棋局前复盘。开赛前,李不止一次的对媒体表示,“除非出现不可理喻的低级失误,我绝不会输,尤其是第一局。”但两三个小时后,李世石只得重新再试图去认识他的对手,虽然了解或许也是徒劳。

二、这局棋,如何评说?

“虽然受到很大冲击,但还是很享受这盘棋,并且很期待后面的比赛。这盘我没下好,所以想后面的棋我胜算还是会很大吧,胜算会是五成吧。”

“这盘棋电脑不是靠运气,而是凭借实力完胜的,这不由让我们对李世石的信心有所动摇。他们自己发挥的水平高低相差很大,如果说是柯洁去下,可能整体会好一点,但也难说一定能赢。毕竟电脑具备很多人所不具备的优势,最主要的还是心态。”

AlphaGo胜利的概率是100%,只不过不见得是这次。“毛病”还是机器学习的老毛病。表现在:无法总结规律,或者说无法吐出一套规整自洽的规律;泛化能力差,无法在复盘中举一反三,即便告诉它哪步走错了,恐怕它也不知道为啥,只是一气儿死磕到撞了南墙才完事。

Facebook人工智能组研究员,Facebook人工智能围棋程序Darkforest负责人田渊栋评论AlphaGo:

第一点,如果你觉得AlphaGo的落子水平会波动,其实它可能判断胜率已经很高,有时候随便下;

第二点,蒙特卡洛树搜索是遇强则强的,如果对手太弱的话也不会下出太强的手;

第三点,AlphaGo下棋每一步最后都是算整体分数的,并非单纯局部,反倒是有时候局部弱,对杀会有问题;

第四点,接下去的研究是进入程序的黑箱里去。人工智能研究者们虽然设计学习算法,但其实不知道电脑是怎么决策的,要打开黑箱了解内部机理,还有很长的路要走。

国内科技界大有迷信算法的拥趸,搜狗CEO王小川正是其中代表,不过在他看来,谷歌这次是个“心计婊”:

“谷歌找樊麾的时候,他找了一个职业棋手至少是一个洲的冠军,但其实段位相对比较低,这样他能够在里面得到一个取胜,但是说出去是很大的影响力。另外还有一个设定,谷歌和樊麾签了保密协议,最后等到《Nature》封面文章一发表,立刻起到了引爆的作用。所以谷歌在做这件事情的时候,不仅在做技术研究的问题,还深刻考虑了背后选什么人,怎样实现媒体影响力。

以我对AlphaGo的判断,他们并不会对李世石做特别的判断,样本量不够。”

虎嗅编辑翻同学却在这人机大战中,感到深刻的危机:

“科技公司最邪恶之处在于,把全部用户信息拿去让机器学习,而且还不告诉用户。#人类的叛徒#”

三、AlphaGo究竟是什么

如果不对 AlphaGo 背后的神经网络系统稍作了解,你很容易以为 AlphaGo,在对局开始前跟李世石站在同一起跑线上。

作为一种人工智能的 AlphaGo,和 IBM 在上个世纪打败国际象棋大师卡斯帕罗夫的深蓝超级计算机,以及当代的苹果 Siri、Google Now 有着显著的区别。

要了解 AlphaGo,首先我们需要了解 AlphaGo 背后到底是一个什么东西。

它背后是一套神经网络系统,由 Google 2014 年收购的英国人工智能公司 DeepMind 开发。这个系统和深蓝不同,不是一台超级计算机,而是一个由许多个数据中心作为节点相连,每个节点内有着多台超级计算机的神经网络系统。就像人脑,是由 50-100 亿个神经元所组成的,这也是为什么这种机器学习架构被称为神经网络。

你可以将 AlphaGo 理解为《超验骇客》(Transcendence) 里约翰尼·德普饰演的人工智能,而它所控制的超级计算机,就像影片里被人工智能心控的人类一样,共同为一种蜂群思维 (Hive Mind) 服务。

《超验骇客》中,被人工智能控制的工人马丁。马丁没有所想,但他的所见将会被人工智能直接获取

AlphaGo 是在这个神经网络系统上,专为下围棋 (Go) 而开发出的一个实例。然而,虽然名字已经介绍了它的功能,AlphaGo 背后的神经网络系统却适合用于任何智力竞技类项目。

这个系统的基础名叫卷积神经网络 (Convolutional Neural Network, CNN) ,这是一种过去在大型图像处理上有着优秀表现的神经网络,经常被用于人工智能图像识别,比如 Google 的图片搜索、百度的识图功能都对卷积神经网络有所运用。这也解释了为什么 AlphaGo 是基于卷积神经网络的,毕竟围棋里胜利的原理是:

对弈双方在棋盘网格的交叉点上交替放置黑色和白色的棋子。落子完毕后,棋子不能移动。对弈過程中围地吃子,以所围“地”的大小决定胜负。

AlphaGo Logo / DeepMind

不仅如此,AlphaGo 背后的系统还借鉴了一种名为深度强化学习 (Deep Q-Learning, DQN)的技巧。强化学习的灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

AlphaGo 所采用的 DQN 是一种具有广泛适应性的强化学习模型,说白了就是不用修改代码,你让它下围棋它能下围棋,你让它在红白机上玩超级玛丽和太空侵略者,它也不会手生。作为一个基于卷积神经网络、采用了强化学习模型的人工智能,AlphaGo 的学习能力很强,往往新上手一个项目,玩上几局就能获得比世界上最厉害的选手还强的实力。

2014 年,已经被 Google 收购的 DeepMind,用五款雅达利 (Atari) 游戏 Pong、打砖块、太空侵略者、海底救人、Beam Rider 分别测试了自己开发的人工智能的性能,结果发现:在两三盘游戏后,神经网络的操控能力已经远超世界上任何一位已知的游戏高手。

DeepMind 用同样的一套人工智能,不调整代码就去测试各种各样的智力竞技项目,取得了优异的战绩,足以证明今天坐在李世石面前的 AlphaGo ,拥有多强的学习能力。

李世石执黑子,AlphaGo 执白子。大约进行了 85 分钟时进入休息阶段

在此之前,DeepMind 进行过的无数虚拟棋局训练,以及去年击败欧洲围棋冠军樊麾二段的经验让 AlphaGo 已经训练出了顶尖的奕技,极有可能高于世界上任何已知的围棋高手。

围棋的可能性复杂度

当比赛已经开始了 40 分钟,双方各自消耗了大约 20 分钟时,棋局已经显示出李世石在棋盘的中间偏上位置开始了对 AlphaGo 的进攻,但 AlphaGo 没有退缩或新开战场。人类和 AlphaGo 对局感觉最不舒服的,就是 AlphaGo 看不出棋路。

尽管棋盘上风云变化,早在本次开战前,AlphaGo 跟李世石就已不在同一起跑线上了。至于李世石曾经做出 AlphaGo 和自己棋份在二子和让先之间的评论,恐怕第一局足够让他反悔了。

AlphaGo 只是 DeepMind 证明自己的一个工具。你也可以将这次和李世石的对局理解为 Google 的公关策略。

2014 年,这家公司曾经在其官网上写道: DeepMind 致力于用研究深度学习的方式去真正了解智慧 (solve intelligence) 。但对于 DeepMind 和 Google 来说,打造 AlphaGo 以及其他人工智能神经网络不是终点。

DeepMind 三位联合创始人

将机器学习和神经科学进行结合,打造出一种“一般用途的学习算法”。通过这种算法,DeepMind 和 Google 希望能够将智能“定型化”,理解智能是什么,进而更好的帮助人类理解大脑。DeepMind 联合创始人之一的 Demis Hassabis 曾经写道:

用算法将智慧提炼出来,有可能成为理解人类思维最神秘原理的最佳方式。

attempting to distil intelligence into an algorithmic construct may prove to be the best path to understanding some of the enduring mysteries of our minds.

在 Google 收购 DeepMind 前,收购条款中的一项就是 Google 必须成立人工智能道德委员会。因此,在目前阶段人们不必担心这样的人工智能最终杀死或统治人类。但至少,人工智能在围棋这样的智力类竞技项目上击败人类,是已经注定的事情。

作为一种决策树巨大的游戏,围棋本来适合人脑思考,不适合机器运算。但 DeepMind AI 的方向就是模仿人脑思考,用神经网络“重现”智慧。

微信扫码关注

每日推送新鲜资讯