DeepMind的Al不仅能打《星际争霸》，AlphaFold还能解析蛋白结构

2019-11-23 20:34| 发布者: | 查看: 173| 评论: 0

摘要: 　　原文作者：Matthew Hutson　　深度学习助力蛋白结构的预测。　　生物学最具挑战性的问题之一就是如何从氨基酸序列预测蛋白质的三维结构。在最新人工智能（AI）方法的帮助下，这方面的竞赛正愈演愈烈。根据蛋白序 ...

　　原文作者：Matthew Hutson

　　深度学习助力蛋白结构的预测。

　　生物学最具挑战性的问题之一就是如何从氨基酸序列预测蛋白质的三维结构。在最新人工智能（AI）方法的帮助下，这方面的竞赛正愈演愈烈。

根据蛋白序列预测其结构或能帮助药物设计。来源：Edward Kinsman/Science Photo Library

　　去年底，谷歌的人工智能公司 DeepMind 推出了一种名为 AlphaFold 的算法。通过结合该领域最新出现的两种技术，该算法在蛋白质结构预测的竞赛中以惊人的优势击败了所有对手。今年 4 月，一名美国研究人员提出了另一种方法完全不同的新算法，并称自己的 AI 算法在预测蛋白质结构方面比 DeepMind 的算法快 100 万倍，但缺点是该算法在有些情况下可能不那么准确。

　　两种方法都使用了深度学习这种 AI 技术。更广泛地说，生物学家想知道深度学习还能如何应用于蛋白质排列的预测，而蛋白质排列最终决定了蛋白质的功能。这些方法比实验室现有技术（如x射线晶体学）更快也更便宜，了解蛋白质结构就能帮助研究人员进一步认识疾病并进行药物设计。马里兰大学的生物学家 John Moult 表示：“生物学家对于未来可能的发展方向感到兴奋不已。”他创办了每两年举办一届的“蛋白质结构预测比赛”（CASP），参赛团队需要在计算机上设计出能根据序列预测蛋白质结构的程序。

　　创新方法

　　最新算法的创造者是哈佛医学院的生物学家 Mohammed AlQuraishi，他还没有直接比较过自己的方法和 AlphaFold 的准确性。他预计，当分析的蛋白序列与参考序列相似度较高时，AlphaFold 的准确性可能更胜一筹。但他说，由于他的算法只需要一个数学函数和一个步骤就能计算出蛋白质结构，而 AlphaFold 需要先用类似结构作为基础，再执行第二步计算；相较之下，他的算法可以在几毫秒内就给出预测，而不是几小时或几天。

　　加州大学伯克利分校的计算生物学家 Ian Holmes 说：“AlQuraishi 的方法很有前景，不仅利用了深度学习领域的最新进展，还使用 AlQuraishi 自己发明的一些新技巧。”参加第 13 届 CASP 比赛（CASP13）的丰田工业大学芝加哥分校计算机科学家 Jinbo Xu 表示：“未来，他的想法或许能和其他想法结合起来，一起推动该领域向前发展。”

　　AlQuraishi 的系统的核心是一个神经网络，这是一种可以从实例中学习的类脑算法。研究人员会先向它“灌输”氨基酸序列映射到蛋白质结构的数据，再让它学习如何根据不熟悉的序列判断新的结构。该网络的新颖之处在于，它能够创建端到端映射；而其他系统先使用神经网络来预测某个结构的特征，再用一种算法来费力地搜索包含这些特征的合理结构。AlQuraishi 的网络需要进行几个月的预训练，但一旦训练完成，几乎可以立即将序列转换成结构。

　　他将自己的方法称为“循环几何网络”，该方法主要根据一段蛋白的前后部分来预测其结构。这类似于人们对一句话中某个词的理解会受到其周围文字的影响，而对周围文字的理解又受到这个词的影响。

　　技术困难导致 AlQuraishi 的算法在 CASP13 比赛中表现不佳。今年 4 月 1 ，他在《细胞-系统》（Cell Systems）上发表了该系统的详细细节1，并在 GitHub 上公开了自己的代码，希望其他人能在此基础上进行开发。（CASP13 比赛使用的大多数蛋白质结构还没有公开，所以他还不能直接将自己的方法与 AlphaFold 比较。)

　　神经网络

　　AlphaFold 在 CASP13 比赛中大获全胜。评估显示，它在硬指标上的表现比其他所有算法高出近 15%，引起了不小的轰动。

　　AlphaFold 的方法一共分两步。和比赛中其它选手使用的方法一样，它从一种叫做多序列比对的方法开始。先将一个蛋白质的序列与数据库中的相似序列进行对比，找出一条链中不相邻、但又往往串联出现的氨基酸对。这表明这两种氨基酸在折叠蛋白中彼此靠近。DeepMind 专门训练了一个神经网络来获取这样的配对，并预测折叠蛋白中两个配对氨基酸之间的距离。

　　通过将预测结果与蛋白质中经过精确测量的距离进行比较，这种方法就能学习如何更好地预测蛋白质的折叠方式。一个平行的神经网络则负责预测折叠蛋白链中连续氨基酸之间的连接角度。

　　但是这些步骤本身并不能预测结构，因为预测出来的距离和角度可能不太实际。因此，AlphaFold 的第二步就是为一个序列创建一个物理上可行，但几乎随机的折叠方式。AlphaFold 在这二步中没有再次使用神经网络，而是用了一种名为梯度下降的优化方法来迭代细化结构，从而在第一步（不现实）预测的基础上更进一步。

　　其他几个团队多数使用其中一种方法，但不会同时使用两种方法。在第一步中，大多数团队仅仅预测氨基酸对之间的联系，而不是距离。在第二步中，大部分团队使用了复杂的优化规则，而不是几乎全自动的梯度下降法。

　　Xu 表示：“他们做得很好，几乎比其他团队领先一年。”

　　未来方向

　　DeepMind 尚未公布关于 AlphaFold 的所有细节，但其他团队已经开始采用 DeepMind 和 CASP13 中其他领先团队的策略了。哥伦比亚密苏里大学的计算机科学家 Jianlin Cheng 表示，他将修改自己的深度神经网络，加入一些 AlphaFold 的特征，比如在预测距离阶段向神经网络添加更多层。层数越多就能得到一个更深度的网络，也能让网络对信息的处理更深入，深度学习正是因此得名。

　　DeepMind 的 AlphaFold 团队负责人、计算机科学家 Andrew Senior 表示：“我们期待着类似系统投入使用。”

　　Moult 说，在 CASP13 比赛上很多人都在谈论深度学习在蛋白质折叠问题上的其他用途。也许它能帮助改进结构的大致预测；报告该算法在折叠预测中的可信度；或是模拟不同蛋白质的相互作用。

　　虽然计算机预测还不够精确，尚不能普遍用于药物设计，但不断提高的准确性让其他应用成为了可能，比如认识突变蛋白会如何导致疾病，或是发现蛋白的哪一部分可以转化为免疫治疗的疫苗。Moult 表示：“这些模型正在开始发挥作用。”