起底让人类汗颜的DeepMind：竟是个谷歌大包袱！

2018-7-13 05:25| 发布者: | 查看: 62| 评论: 0

摘要: 　　文/心缘　　来源：智东西（ID：zhidxcom）　　智东西 7 月 11 日报道，自在国际围棋、国际象棋战胜顶尖棋手后，上周 DeepMind 又在《雷神之锤 III 竞技场》发威，双人组队击败顶级人类玩家，小组胜率高达到 74% ...

　　文/心缘

　　来源：智东西（ID：zhidxcom）

　　智东西 7 月 11 日报道，自在国际围棋、国际象棋战胜顶尖棋手后，上周 DeepMind 又在《雷神之锤 III 竞技场》发威，双人组队击败顶级人类玩家，小组胜率高达到 74%。

　　对于关注人工智能（AI）领域的人而言，DeepMind 绝不是个陌生的名字。自 2016 年 AlphaGo 首次击败韩国围棋冠军李世石，DeepMind AI 展开了在游戏领域对顶尖玩家的长期挑战。

　　然而，在一次次刷新人类纪录的表面风光之后，DeepMind 面临的是亏损严重、人员流失和可能被谷歌抛弃的生存危机。换句话讲，DeepMind 每一次刷的存在感，背后都是泪。

　　又打败人类，对游戏上瘾的 AI 公司

　　自 2016 年 AlphaGo 以4：1 打败韩国围棋冠军李世石以来，DeepMind 在游戏领域越战越勇，不断研发出新的 AI 系统，挑战人类的极限。2016 年 6 月，DeepMind 训练的 AI 系统在雅达利游戏《 Montezuma’s revenge》达到了大师技巧。半年后，在中国奕城围棋网和野狐围棋网快棋对决数十位中日韩围棋高手、连续 60 局无一败绩的 Master 被曝出是 DeepMind 的作品，这个新 AlphaGo 系统在 2017 年以3：0 战胜排名世界第一的职业围棋选手柯洁。

▲AlphaGo 和李世石对战

　　如果你在去年 12 月之前问任何一个专业国际象棋选手，市场上最强大的商用国际象棋软件是什么？你可能听到最多的答案就是 Stockfish、Houdini 和 Komodo，这三个软件可以比任何专业棋手都有更出色的下棋表现。

　　不过到了 12 月 6 日，一切都改变了。在 AlphaGo 退役 5 个月后，DeepMind 推出 AlphaGo 系列的新版本——AlphaGo Zero，只用 4 个小时的训练时间就从零开始学会了国际象棋的规则，并在 100 场比赛中取得 28 胜 72 平的极佳战绩，其突出表现已然超过 Stockfish。国际象棋游戏使用 Elo 进行评级，专业玩家评分在 1800 到 2000 之间，大师级别玩家的评分在 2500 以上，Stockfish 的评分在 3300 左右，而 AlphaGo Zero 经评估后可能在 4000 左右。此外，AlphaGo Zero 还有训练 3 天打败旧版 AlphaGo、训练 40 天打败 Master、训练 2 小时打败最强日本将棋程序 Elmo 的战绩。

▲AlphaGo 和 Stockfish 国际象棋大战复盘

　　除了名满天下的 AlphaGo 系列，DeepMind 训练智能体通过观看 Youtube 等视频自主学习超级玛丽等游戏。

　　上周，DeepMind 的游戏征途有了新的里程碑——在《雷神之锤 III 竞技场（Quake III Arena）》夺旗游戏中和人类随机组队打团战，击败了人类玩家。

▲《雷神之锤》游戏画面

　　在 DeepMind 正在推进的研究中，关注度最大的即是《星际争霸 Ⅱ》。2017 年 8 月，DeepMind 宣布开始训练 AI 玩暴雪公司旗下的《星际争霸 II》游戏。当时其顾预言，计划让 AI 在五年后战胜《星际争霸》世界冠军。

　　《星际争霸》是一款极其复杂的战略游戏，需要玩家高度集中的精神力、超强的灵敏度和战略决策智慧。这款游戏可以充分考验 AI 的即时战略和人机对抗协作能力。它要求 AI 学习在资源有限的情况下平衡发展，学会如何发展高科技、出兵种对抗以及如何调兵遣将来保证利益最大化。这些涵盖了 AI 亟待解决的三大问题：一是在有限视野和不完全信息的情况下做决策，二是平衡短期、中期和长期的发展策略，三是处理多智能体间的合作和博弈。

　　纽芬兰纪念大学（Memorial University）的计算机科学教授大卫·丘吉尔（David Churchill）认为，《星际争霸》是如此复杂，能解决《星际争霸》的 AI 将能解决任何其他问题。

　　为什么研究人员爱让 AI 玩游戏游戏？

　　尽管 AlphaGo 已经占据国际象棋和围棋的霸主地位，但这不意味着 AI 已经具备解决实际问题的能力。AI 学习玩游戏的方法其实和人类理解游戏的方式并不相同。国际象棋和围棋等游戏规则具有规范性，虽然复杂但规则又很稳定，AI 在这种“有限性”的前提下可以发挥它超强计算能力的专长。尽管 AI 研究者们试图增强 AI 的通用能力、使 AI 向人类大脑靠拢，但这一愿景目前仍然只取得了初步进展。

　　游戏本身可以模拟人类现实生活场景，通过观察人类行为，事半功倍地实现目标任务，帮助人类在电商和广告行业的个性化营销、资源调度、自动驾驶车辆、无人机等领域做做智能决策。让 AI 玩游戏，可以为 AI 的发展带来如下优点。

　　1、模拟现实+简化过程

　　AI 研究员热衷于游戏的一个重要原因，是解决现实世界难以去直接学习和处理的难题。大多数的游戏场景都源于现实世界，是对现实世界的虚拟简化。用游戏训练 AI 时，研究人员无需考虑硬件的维护问题，不需要拆卸设备，还能轻易调整测试环境，这使得训练新 AI 算法的难度大大降低。如果在现实生活中让机器人去做相关任务，可能要消耗的财力和时间都是难以估量的。

　　游戏有时可以代替真实世界的复杂数据源。比如在 2016 年，普林斯顿大学的 Arthur Filippwicz 想要教汽车在不需要人类协助的情况下识别交通信号，为了训练这个算法，他需要收集全面的包含交通信号的图片，包括新、旧、干净、脏乱、有遮挡、强光、雨、雾、黑暗等场景。然而，想要获得这样一套完整的数据集非常费时费力，因此 Filippwicz 选择借助游戏“侠盗猎车手 V（Grand Theft Auto V）”中描绘的交通信号作为训练集来源，他从中拿到数千张交通信号的照片来让他的 AI 系统进行学习和消化。

　　此外，很多游戏需要不同的认知技能。通过在不同游戏上的训练和学习，可以帮助研究者更好的理解和建立更完善 AI 系统。

　　为数据中心降低能耗的任务与游戏无异，谷歌已经使用 DeepMind 在 2015 年 2 月学习玩 Atari 游戏时相同的算法来减少其大型数据中心的耗电量。根据用户需求的不同，服务器的能耗和散发的热量差异很大，DeepMind 的算法可以用于预测大量服务器所需的空调冷气，帮助数据中心将制冷系统节能 40%，并使整个数据中心的能耗降低 15%。

　　2、迁移学习

　　对于一个人而言，学完一个任务再去学习另一个任务是一件毫不费力的事情，然而这件事情对于 AI 来说却有些困难。目前大多机器学习算法都是假设训练集和测试集的特征分布相同，但这在现实中往往是不可行的，迁移学习的主要能力就是让 AI 将从一个环境中学习到的知识经验运用到新环境的学习任务中，解决神经网络灾难性遗忘的问题。

　　AI 玩游戏的过程可以为迁移学习提供帮助。DeepMind 早期的神经网络一次只能玩一个游戏，即便它在一个游戏中表现良好，当把它用到另一个游戏时，它必须重塑已经搭建好的神经网络架构，“忘掉”之前学习的记忆，重新学习新的知识。要让 AI 像人类大脑一样去完成任务，可以在训练它玩一款游戏时，保留对专业知识的长期记忆，并将这些知识经验用到掌握其他游戏的过程之中。DeepMind 在去年 3 月发表的论文中已经克服这个问题，可以使 AI 像人类大脑一样同时掌握多款游戏的玩法。

　　3、永不停歇

　　用游戏训练还有一个好处是，没有硬件设备等各种客观条件的限制，AI 可以自由地进行长期的训练。通过游戏，AI 运算性能得以提升，产生大量数据，这方面的进展对其他针对现实问题的 AI 研究也很有帮助。

　　4、确保 AI 不“耍滑头”

　　在研究 AI 技术的过程中，DeepMind 等公司并没有忽视 AI 的问题和警示，DeepMind 和 OpenAI 决定合作找到方法来预防 AI 带来意外的不好结果。DeepMind 让 AI 只处理自己视野范围内所“看见”的问题，不允许 AI 直接向运行游戏的计算机索取坐标等信息，就是为了避免 AI 走一些普通玩家在玩游戏时不会用到的“捷径”。再以 OpenAI 在竞艇游戏 CoastRunners 的实验为例，AI 在进行强化学习的过程中，发现自己与其快速完成任务，不如一直原地打转获得的分数高，这让研究者感到担忧。为了避免类似情况的出现，两家公司为 AI 提供更多的“人类建议”来验证 AI 的行为方式。不过，花时间多次验审，总比让 AI 一不小心发疯就毁灭地球要好的多。

　　辉煌战绩背后的阴影

　　DeepMind 在用 AI 战胜人类方面已经享誉世界，它在 Alphabet 集团中可以说是一个比较神奇的存在，自由、品牌响亮，其背后又隐藏长期亏损、数据不公开等问题。

　　1、自由的独行侠：拒绝接机器人，看不上云服务

　　DeepMind 是一个特立独行的公司。它的工作仍侧重于理想环境下算法的开发，侧重于充满未来主义的工作。它目前拥有 700 多名员工，每周都会写出描述他们工作进展和最新成就的学术论文。

　　据说当年安卓之父 Andy Rubin 离职时，谷歌创始人之一 Lawrence Edward Page 曾想让 DeepMind 接管 Google 机器人部门。不过 DeepMind 创始人兼首席执行官 Demis Hassabis 认为波士顿动力没怎么使用 AI 技术，这个业务会分散 DeepMind 的注意力，因此他拒绝了佩奇的提议。

▲DeepMind 创始人兼首席执行官 Demis Hassabis

　　此外，在 VMware 联合创始人兼前首席执行官 Diane Greene 被 Google 请来领导云计算业务部门时，她曾想借助 DeepMind 领域的超高声誉为谷歌云服务进行市场宣传。然而，考虑到谷歌云的市场目标不清晰会削弱 DeepMind 的品牌，DeepMind 也拒绝了这个提议。

　　2、烧钱大佬：长期负盈利，资金流向不明

　　拥有研究的自由，DeepMind 也不得不承担相应的代价。

　　根据去年 10 月英国政府发布的资料，DeepMind 在 2016 年亏损 1.235 亿英镑（约合 1.62 亿美元），这与 Alphabet 同年总盈利 190 亿美元相比仍然不算是小的数额。其中 4020 万英镑（约合 5270 万美元）的收入全部来自为其母公司 Alphabet 的其他部门（而非外部客户）所做的工作。DeepMind 还有包括不动产和计算机系统运行和维护在内的 4110 万英镑“管理服务费”。而最大的资金花费则在“员工工资和其他相关成本”方面，DeepMind 在工资、差旅、办公软硬件方面耗资达 1.047 亿英镑（1.37 亿美元），比上一年 4420 万英镑的两倍还多。

　　DeepMind 的法律费用也在飙升，从 2015 年的 144881 英镑增至 658144 英镑。据外媒猜测，这高幅度上升的背后，可能和 DeepMind 被发现非法持有英国人民医疗健康信息有关。

　　3、神秘主义：和谷歌联系越来越弱

　　DeepMind 和谷歌之间的关系相当有趣。

▲DeepMind 创始人兼首席执行官 Demis Hassabis（左）、韩国围棋冠军李世石（中）、Alphabet 联合创始人 Sergey Brin（右）的合照

　　2014 年 1 月，谷歌以 4 亿英镑收购了当时名不见经传的 DeepMind 公司，2015 年 DeepMind 还属于谷歌，在官网上用大大的字体写着“DeepMind 很高兴成为谷歌的一部分”，但到了 2015 年，这条标语就换成了“DeepMind 很高兴加入谷歌的队伍”。

　　2016 年，新版 DeepMind 官网上线，“谷歌”字样已经无迹可寻，DeepMind 只在“About Us”的页面中介绍道 DeepMind 是谷歌母公司 Alphabet 集团的一部分。

　　DeepMind 想要获得研究自由，它需要 Alphabet 提供研究资金，却不肯和 Alphabet 分享数据。

　　谷歌收购 DeepMind 时，同意建立一个道德安全委员会来确保其 AI 技术不会被滥用。但随后，DeepMind 一直没有透露董事会成员和讨论内容。

　　根据 Financial Times 在今年 6 月发布的消息，Alphabet 对 DeepMind 昂贵开销的合理性已经产生怀疑。Alphabet AI 部门督促 DeepMind 说明其商业模式，并向董事会说明他们的资金流向。据审查小组称，DeepMind 最终必须通过分享算法和数据或通过赚钱来证明其价值，尽管暂时不担心 Alphabet 会阻止他们做想做的事，但不能保证 Alphabet 董事会明年会不会得出不同的意见和结论。

　　明年是谷歌收购 DeepMind 五周年，随着 DeepMind 来到谷歌的 75 名员工，包括 DeepMind 首席执行官 Demis Hassabis 自己，都可以自行决定去留。DeepMind 今后是继续依附 Alphabet 的预算支持，还是像其他部门一样独立发展，已经到了做出选择的关键时期。

　　结语：AI 投资还在亏损期，DeepMind 的游戏 AI 新路径

　　目前，DeepMind 的工作仍侧重于理想环境下算法的开发，在建立 AI 系统、在复杂游戏中击败人类、学习 3D 空间都处于行业领先水平。DeepMind 相信 AI 在更复杂的问题也能起到和游戏中相同的作用，成为科技乃至人类创造力的倍增器。

　　虽说 AI 技术在游戏中的突破终将移植到现实世界，目前看来这一愿景仍然遥遥无期，在现实世界中的数据可不像游戏中那么容易获得。DeepMind AI 在游戏方面的成功更像是学术成就，短期内不会对企业产生重大影响。

　　尽管 DeepMind 在游戏方面的研究充满未来主义色彩，但它的一些其他研究成果已经被谷歌使用。比如，谷歌在去年 10 月宣布在谷歌智能助手中采用 DeepMind AI 模型 WaveNet，使机器的发音更接近真人（不过 DeepMind 转换语音服务的价格比亚马逊同类竞品高了 4 倍）；同年，谷歌借助 DeepMind 的算法大大降低数据中心的能耗；DeepMind 的“You might also like”建议还将安卓设备上 Google Play 商店中个应用安装率提高了 20%。

　　谷歌首席执行官 Sundar Pichai 曾多次表示，谷歌未来的成功将基于 AI。然而，Alphabet 投注 AI 所花费的巨资还不知道多久才能回本。此外，它也在 AI 伦理、信托基金、医疗方面和 AI 道德实践方面做出努力，希望探索和理解 AI 在现实世界的影响，使 AI 在现实世界中真正发挥好的作用。

▲Alphabet 在包含 AI 的“其他领域”的税收和运营亏损