原文作者:Dan Garisto DeepMind 的 AlphaStar 在这款即时科幻电子游戏中已经能与人类高手一较高下。 今年夏天 ,科幻电子游戏《星际争霸2》的玩家遇到了一个不同寻常的对手。一个叫做“AlphaStar”的人工智能(AI)——出自 Google 旗下 AI 公司 DeepMind——在登录欧洲服务器之后获得了宗师等级。这意味着它站到了该地区的九万名玩家中前 0.15% 的位置。
DeepMind 于 10 月 30 日在《自然》杂志上发表了研究结果,证明 AI 可以在《星际争霸2》最高级的赛场上同人类玩家一争高下(点击查看:新的《星际争霸 II》大师的诞生 《自然》论文)。这是一个备受欢迎的在线策略游戏,其中玩家需要扮演三个阵营之一:人族 Terran、神族 Protoss 和虫族 Zerg,并在一个充满未来风格的战场上互相战斗。 Deepmind 此前为国际象棋和围棋创造过世界领先的 AI。由于《星际争霸2》策略上足够复杂,并且节奏很快,因此他们将这个游戏当成了寻找通用 AI 的下一个目标。所谓通用 AI,即能够学习或理解所有人类能做到的事情的 AI。 “我没想到 AI 在这个领域这么快就超越人类了。还以为至少得再要几年呢。”俄勒冈州立大学的 AI 研究者 Jon Dodge 说。 在《星际争霸2》里,熟练的玩家可以分心多用,一边管理资源,一边执行复杂的战术动作,最终在战略上击败对手。专业玩家会以超高手速玩这个游戏,每分钟内做出超过 300 个的行动。DeepMind 的 AI 背后的机器学习原理依赖于人工神经网络。它能从大规模数据集中识别出模式,而不仅仅是依赖具体的指示。 Deepmind 于 2018 年 12 月首次开始让 AlphaStar 和高水平玩家在实验室内进行一系列测试比赛。AI 面对的是两名职业玩家,并且击败了他们。但是批评者认为这种表演赛并不是公平的战斗,因为 AlphaStar 在速度和准确性上都超越了人类。 因此,在让 AlphaStar 走出实验室进入《星际争霸2》的欧洲服务器之前,团队将 AI 的反应速度做了限制,以便让比赛更为公平。7 月,玩家收到通知,让他们选择是否愿意匹配到 AI 对手。为了能进行单盲实验,DeepMind 隐藏了 AlphaStar 的真实身份。 “我们希望这个实验能有类似单盲的效果。”AlphaStar 项目的主管之一 David Silver 说,“我们真的希望能在这些条件下打游戏,并得到‘这群人水平怎么样’的真实感受 。” AlphaStar 的训练卓有成效:它碾压了低等级的对手,最终在与高等级玩家的对抗中获得了 90 场 61 胜的战绩。 复杂度的挑战 《星际争霸2》的复杂度给 AI 带来了巨大的挑战。和象棋不同,《星际争霸2》中双方的军队有上百个单位,这些“棋子”会同时、实时地移动,而不是一来一往的回合制。象棋的棋子只有有限的移动方式,而 AlphaStar 在任何时刻都有 10^26 种可以选择的行动。此外,《星际争霸2》是一种不完全信息的游戏——玩家通常看不到对手在做什么,因此就无法预测下一步。 九年前,研究者们开始举办一项每年一届的比赛,用《星际争霸》和《星际争霸2》的 AI 互相对决。但是和 AlphaStar 不同,大多数 AI 都依靠硬编码的规则,而不是通过神经网络自我训练。AlphaStar 的主管之一 Oriol Vinyals 之前就是 2010 年第一届比赛获胜团队中的一员,那支团队来自加州大学伯克利分校。 “当时我就开始想,可能是不是该做做[机器]学习,但那个时候还太早了。”Vinyals 说。 2016 年,Vinyals 加入了 DeepMind。他开始研究可以自学《星际争霸2》的 AI。AlphaStar 的训练从模仿将近一百万盘的人类对局开始。为了让 AlphaStar 的比赛水平提升得更快,DeepMind 创立了一个联赛,让不同版本的 AI 互相对决。这种方法对《星际争霸2》这样的游戏很有意义,因为和现实生活中其他很多的 AI 应用场景一样,没有哪种策略是绝对最优的,帝国理工学院的 AI 研究者 Kai Arulkumarana 说。 思维敏捷的人类玩家 DeepMind 还给 AlphaStar 加了限制,以保证 AI 确实是在思考上胜过人类对手,而不只是手速更快。快速点击能带来游戏内的优势,因此以超越人类手速来点击的电脑就可能会在智力和策略都有所不及的情况下战胜人类。所以 DeepMind 将 AlphaStar 的反应速度限制在了人类老手的水平上。 在这些条件下,AlphaStar 经过了 27 天的训练,就排进了欧洲服务器的前 0.5%。 但是,在 50 场游戏之后,DeepMind 碰到了钉子。有些玩家注意到,暴雪网站上有三个账号在差不多的时间范围内进行的《星际争霸2》场次完全相同——这正是 AlphaStar 的三个秘密账号。玩家在观看游戏回放中注意到,这些账号做出了一些对人类玩家来说极其困难的行动——甚至不一定可能的行动。为此,DeepMind 使用了一些小招数让实验重归单盲,让玩家无法发现 AlphaStar,例如定期切换账号。 AlphaStar 的最终版本经历了总计 44 天的训练,期间经常会碰到职业玩家。虽然 AlphaStar 不像围棋和象棋 AI 一样击败了世界上最顶尖的选手,但 DeepMind 认为它已经达标了,并宣布它完成了《星际争霸2》的挑战。 其他 AI 科学家还没有完全认可说 AlphaStar 可以宣告获得全面胜利。加拿大纽芬兰纪念大学的 AI 研究者 Dave Churchill 认为,AlphaStar 还存在不少弱点,例如难以应对之前没见过的战术。 “AlphaStar 很厉害,而且确实是至今为止所有《星际争霸》AI 里最强的一个。”他说,“但是,《星际争霸》离‘被解决’还差了很远,而 AlphaStar 还远远不到世界冠军的水平。” |