AIRFold:系统化蛋白质结构预测解决方案
1Institute for AI Industry Research, Tsinghua University,
2School of Life Sciences, Tsinghua University

项目概述

蛋白质结构预测是生命科学领域的关键性问题,对理解蛋白质功能以及诸多生命活动有重要意义。目前半参数化的深度学习解决方案(如AlphaFold2)已取得与冷冻电子显微镜等实验技术相当的精度。但由于对输入同源序列信息的极大依赖,模型在实际场景中局限较大。

AIRFold在AlphaFold2基础上设计了同源挖掘模块,提取蛋白质同源序列(MSA)中的协同进化信息,通过对共进化信息的有效建模,为复杂同源序列分布的蛋白质结构预测提供了全新的解决方案。

研究进展

AIRFold在权威蛋白质结构预测竞赛CAMEO 上连续四周夺得全球第一。团队搭建了全自动控制平台,包括同源序列增广、同源序列筛选、特征处理、结构预测、结果分析以及自动提交等模块,在系统相应时间上远快于其他团队。特别的,针对蛋白质“Hard”序列上,AIRFold遥遥领先于第二名。

例如,对于PDB编号 7TVI 的蛋白,它来自 Cas13bt3,该蛋白结构域多、变构大、构象灵活,多序列比对得到的同源序列质量又较低,但通过同源挖掘模块的筛选,提高了高质量同源序列中长程相互作用信息的信噪比,更准确的建模了多结构域之间的关系,在Helical-1和Helical-2两个主要识别crRNA(粉色部分)的结构域上都显著优于AlphaFold2的结果。

项目展望

单体的蛋白质预测以及对于共进化信息的深入理解是团队后续开展在蛋白质以及大分子药物相关研究的基础。AIRFold关注蛋白质结构如何决定其功能,如何助力药物与疗法的研发,而不仅仅只关注结构预测这一孤立问题。

因此,团队正在继续探索蛋白质点突变、多构象预测等制药相关问题,持续与相关企业和科研单位进行密切交流,期待未来有更多的优秀研究人员加入这一新兴交叉科学领域,进一步发挥AI的价值。