【佳作推荐】 伊利诺伊大学厄巴纳-香槟分校Huimin Zhao团队Nature论文:使用交叉注意力图神经网络预测酶特异性

2025-12-11 11:25:57, ComputArt TargetMol中国


酶是生命活动进行的基本单元。底物特异性是酶的核心特质,即酶识别并选择性催化底物的能力,这一特征来源于酶活性位点的三维结构特征和复杂的反应过渡态构象。酶作为生物催化和蛋白质工程的主要研究对象,如何准确预测酶的特异性是这些研究的关键课题之一。然而,数百万种已知酶目前缺乏可靠的底物信息,这同时也限制了相关预测工具的开发。近年来,多种机器学习被用于酶的底物特异性预测,但由于数据匮乏,这些方法成功率有限并且大多只能关注特定的蛋白家族。为了解决上述问题,伊利诺伊大学厄巴纳-香槟分校的Huimin Zhao团队整合了丰富的数据资源提出了高质量了酶-底物信息数据库ESIbank,并基于此开发了一个通用的基于图神经网络的酶特异性预测模型EZSpecificity,大幅提高了现有方法的预测精度。近期,该突破性的工作发表于国际顶尖科学期刊Nature上【1】。

ESIbank收录了多类型、多尺度的酶-底物特异性信息,整合自基于蛋白质序列的数据库(例如BRENDA、UniProt)和由AlphaFold、AlphaFill和Autodock/Vina-GPU生成的三维结构信息。除了从序列数据库获取信息,研究者还收集了六个代表性酶家族的酶-底物数据,包括酯酶、糖基转移酶、腈水解酶、磷酸酶和硫解酶以及未知功能结构域蛋白(DUFs)。对于酶-底物的三维结构,酶的活性位点由BRENDA收录的辅因子信息和催化残基注释确定。最终,ESIbank收录了天然与非天然底物34417种、野生型和突变酶8124种,共计323783个酶-底物作用对,是已有大规模同类型数据集ESP的25倍数据规模。

现有机器学习方法大多利用一维蛋白序列和二维分子图而忽视底物结合的三维结构变化过程。此外,这些方法通常使用各自独立的特征编码模块,而忽视了底物特征和酶特征之间的相互影响。因此,研究者提出了名为EZSpecificity的通用模型,该模型整合序列信息、复合物结构和活性口袋环境特征,通过交叉注意力机制完成酶-底物相互作用区域的识别。

1:EZSpecificity的模型架构示意图。

为了验证EZSpecificity的性能,研究者将他们的工作与目前最先进的酶底物特异性预测模型ESP在多个基准测试上进行了对比。研究者通过四折交叉验证开展模型的训练,除了随机划分数据集意外,他们还设计了三种额外场景,包括未知底物、未知酶和未知酶-底物对。这些划分方式可以使每个折次的数据可以真实模拟EZSpecificity在实际使用时可能遇到的情况。结果如图-2a所示,在难度递增的场景中,尽管领先幅度逐渐减小,但EZSpecificity的表现均优于ESP,这表明EZSpecificity在实际应用中是更可靠的。EZSpecificity-w/oGCS是去除了图注意力、交叉注意力和三维结构嵌入的消融模型,其架构与ESP几乎相同。然而,ESIbank的庞大信息量赋予了其由于ESP的性能,体现出ESIbank数据的全面性和高质量。研究者还通过消融实验分析了模型各组件的关键性(图-2b-e),该结果表明模型中的每个设计都对性能有明显的影响,去除了这些模块的消融模型在每个测试中偶读表现出性能衰减。在不同的酶学分类级别(EC)的性能评估中,EZSpecificity具有或多或少地仍保持了优势,这表明EZSpecificity具备识别同源酶和区分突变酶的能力,而EZSpecificity在不同分类级别上的差异可能归因于不同分类级别数据间的不平衡。

图2EZSpecificity在ESIbank数据集上的评价结果。(a)EZSpecificity与ESP在四种数据集划分上的性能评估;(b)消融实验结果;(c)EZSpecificity在不同酶学分类上预测的AUROC评价结果和(d)AUPRC评价结果;(e)在所有四种数据集划分上的平均结果。

为了测试并增强EZSpecificity的泛化能力,研究者首先设计了两种将模型应用于特定酶家族的策略。策略一是对预训练的模型进行微调,微调后模型性能提高约7%(图-3b)。策略二是使用特定酶家族的数据从头训练EZSpecificity模型。图-3c的结果显示,尽管不同家族的数据点数量有差异,但EZSpecificity仍然相比于消融模型和ESP有不同程度的性能优势。研究者认为,EZSpecificity有效处理有限数据的能力可能得益于对三维结构信息的整合。然后,研究者在特定的酶家族数据上对上述策略进行了评估。不同微调策略的效果各不相同,这在DUFs和硫解酶这两个酶家族上的表现显示基于EZSpecificity进行微调的效果优于从头训练。然而对于其他三种酶,从头训练则更好。这提示我们在有限数据集上训练的较小模型(例如EZSpecificity-individual)有时可能优于较大模型(EZSpecificity),因为它更不容易过拟合,并且能更好地泛化到新数据。

图3:使用六个代表性酶家族对EZSpecificity进行评估。(a) 六个酶家族的酶学功能;(b) EZSpecificity模型经过微调与未经微调的平均AUPRC性能对比;(c)从头训练模型的平均AUPRC性能对比;(d) 在未知酶和底物数据划分设置下,EZSpecificity在特定蛋白质家族上的AUPR性能。

除了这些虚拟场景的模拟测试,研究者选取了8种卤化酶和78种底物进行了体外实验的验证。图-4a结果表明,相比于先进模型ESP(Top-1准确率58.3%),EZSpecificity预测的准确率(Top-1准确率91.7%)具有近一倍的大幅提高,充分地体现出该模型的应用潜力。

图4:EZSpecificity 在卤化酶-底物数据集上的预测卤化酶底物特异性预测结果的体外实验验证。(a) 不同水平的预测准确度;(b) AUPRC 比较;(c) AUROC 比较。

小编总结

本研究提出了信息丰富和整合度高的酶-配体特异性数据库ESIbank,并基于该数据库开发了EZSpecificity模型。在飞速发展的深度学习领域,EZSpecificity的模型架构并不表现得极其亮眼,但优秀的数据基础赋予其远超目前方法的性能,这充分地体现了ESIbank的价值。小编相信,该数据将成为酶特异性识别工具开发和相关酶进化研究的强大主力,定能孵化出更多更好的工作和成果!

参考文献

[1] Cui, H.;  Su, Y.;  Dean, T. J.;  Yu, T.;  Zhang, Z.;  Peng, J.;  Shukla, D.; Zhao, H., Enzyme specificity prediction using cross attention graph neural networks. Nature 2025. (DOI: 10.1038/s41586-025-09697-2)


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2026 ANTPEDIA, All Rights Reserved