2025-12-11 11:25:57, ComputArt TargetMol中国
酶是生命活动进行的基本单元。底物特异性是酶的核心特质,即酶识别并选择性催化底物的能力,这一特征来源于酶活性位点的三维结构特征和复杂的反应过渡态构象。酶作为生物催化和蛋白质工程的主要研究对象,如何准确预测酶的特异性是这些研究的关键课题之一。然而,数百万种已知酶目前缺乏可靠的底物信息,这同时也限制了相关预测工具的开发。近年来,多种机器学习被用于酶的底物特异性预测,但由于数据匮乏,这些方法成功率有限并且大多只能关注特定的蛋白家族。为了解决上述问题,伊利诺伊大学厄巴纳-香槟分校的Huimin Zhao团队整合了丰富的数据资源提出了高质量了酶-底物信息数据库ESIbank,并基于此开发了一个通用的基于图神经网络的酶特异性预测模型EZSpecificity,大幅提高了现有方法的预测精度。近期,该突破性的工作发表于国际顶尖科学期刊Nature上【1】。
ESIbank收录了多类型、多尺度的酶-底物特异性信息,整合自基于蛋白质序列的数据库(例如BRENDA、UniProt)和由AlphaFold、AlphaFill和Autodock/Vina-GPU生成的三维结构信息。除了从序列数据库获取信息,研究者还收集了六个代表性酶家族的酶-底物数据,包括酯酶、糖基转移酶、腈水解酶、磷酸酶和硫解酶以及未知功能结构域蛋白(DUFs)。对于酶-底物的三维结构,酶的活性位点由BRENDA收录的辅因子信息和催化残基注释确定。最终,ESIbank收录了天然与非天然底物34417种、野生型和突变酶8124种,共计323783个酶-底物作用对,是已有大规模同类型数据集ESP的25倍数据规模。
现有机器学习方法大多利用一维蛋白序列和二维分子图而忽视底物结合的三维结构变化过程。此外,这些方法通常使用各自独立的特征编码模块,而忽视了底物特征和酶特征之间的相互影响。因此,研究者提出了名为EZSpecificity的通用模型,该模型整合序列信息、复合物结构和活性口袋环境特征,通过交叉注意力机制完成酶-底物相互作用区域的识别。
图1:EZSpecificity的模型架构示意图。
为了验证EZSpecificity的性能,研究者将他们的工作与目前最先进的酶底物特异性预测模型ESP在多个基准测试上进行了对比。研究者通过四折交叉验证开展模型的训练,除了随机划分数据集意外,他们还设计了三种额外场景,包括未知底物、未知酶和未知酶-底物对。这些划分方式可以使每个折次的数据可以真实模拟EZSpecificity在实际使用时可能遇到的情况。结果如图-2a所示,在难度递增的场景中,尽管领先幅度逐渐减小,但EZSpecificity的表现均优于ESP,这表明EZSpecificity在实际应用中是更可靠的。EZSpecificity-w/oGCS是去除了图注意力、交叉注意力和三维结构嵌入的消融模型,其架构与ESP几乎相同。然而,ESIbank的庞大信息量赋予了其由于ESP的性能,体现出ESIbank数据的全面性和高质量。研究者还通过消融实验分析了模型各组件的关键性(图-2b-e),该结果表明模型中的每个设计都对性能有明显的影响,去除了这些模块的消融模型在每个测试中偶读表现出性能衰减。在不同的酶学分类级别(EC)的性能评估中,EZSpecificity具有或多或少地仍保持了优势,这表明EZSpecificity具备识别同源酶和区分突变酶的能力,而EZSpecificity在不同分类级别上的差异可能归因于不同分类级别数据间的不平衡。
图2:EZSpecificity在ESIbank数据集上的评价结果。(a)EZSpecificity与ESP在四种数据集划分上的性能评估;(b)消融实验结果;(c)EZSpecificity在不同酶学分类上预测的AUROC评价结果和(d)AUPRC评价结果;(e)在所有四种数据集划分上的平均结果。
图3:使用六个代表性酶家族对EZSpecificity进行评估。(a) 六个酶家族的酶学功能;(b) EZSpecificity模型经过微调与未经微调的平均AUPRC性能对比;(c)从头训练模型的平均AUPRC性能对比;(d) 在未知酶和底物数据划分设置下,EZSpecificity在特定蛋白质家族上的AUPR性能。
除了这些虚拟场景的模拟测试,研究者选取了8种卤化酶和78种底物进行了体外实验的验证。图-4a结果表明,相比于先进模型ESP(Top-1准确率58.3%),EZSpecificity预测的准确率(Top-1准确率91.7%)具有近一倍的大幅提高,充分地体现出该模型的应用潜力。
图4:EZSpecificity 在卤化酶-底物数据集上的预测卤化酶底物特异性预测结果的体外实验验证。(a) 不同水平的预测准确度;(b) AUPRC 比较;(c) AUROC 比较。
本研究提出了信息丰富和整合度高的酶-配体特异性数据库ESIbank,并基于该数据库开发了EZSpecificity模型。在飞速发展的深度学习领域,EZSpecificity的模型架构并不表现得极其亮眼,但优秀的数据基础赋予其远超目前方法的性能,这充分地体现了ESIbank的价值。小编相信,该数据将成为酶特异性识别工具开发和相关酶进化研究的强大主力,定能孵化出更多更好的工作和成果!
参考文献
04-07 为您服务的
Danaher Beacon | 思拓凡与圣拉斐尔特里松基因疗法研究院达成合作,共同推进新一代基因组医学平台建设04-07 丹纳赫
全自动DNA切胶仪精准筛选GUIDE-seq2测序文库,验证CRISPR-Cas9酶变体PAM序列特异性04-07 环亚生物
全自动DNA脉冲场电泳回收仪用于5' 转录组测序及CUT&RUN《Nature》-蚂蚁嗅觉基因选择性表达机制新发现04-07 环亚生物
文献速递|Blue Pippin全自动DNA脉冲场电泳回收仪用于单分子蛋白组学识别技术开发04-07 APGBio
超长测序文库新思路:Blue Pippin全自动大片段DNA脉冲场电泳回收仪用于Ultra Long 文库构建04-07
【育种创新加速器】安捷伦细胞分析方案赋能种质精准筛选04-07 安捷伦科技
吐温降解分析难?安捷伦专用柱方案高效破局!04-07 安捷伦科技
药物分析排忧解难系列 | 如何判定方法参数调整符合药典限值要求04-07 安捷伦科技
会议通知 | 第一届创新药物研发与质量评价技术交流会——小核酸与多肽专题04-07 安捷伦科技
护航锂电分析 | ICP‑OES 炬管陶瓷外管解决方案先行04-07 安捷伦科技
从核心突破到平台赋能:安捷伦携临床光谱流式与“一站式”解决方案亮相 CACLP04-07 安捷伦科技
成都科林分析邀您共赴第二十九届青岛市分析测试学会年会系列学术报告会暨国际科学仪器及实验室装备展览会,期待与您相遇!04-07
10_基于化学电离(Quick-CI)与 MassWorks软件技术对聚合物中添加剂的元素组成进行测定04-07 绿绵科技
上浆剂对纤维表面特性的作用机制04-07 Eric Brendle
科研必看|蛋白组覆盖不足?【阿拉丁】多酶消化策略破局指南04-03 Aladdin
会议预告|【阿拉丁】邀您共聚2026中国(南京)国际科教技术及装备博览会04-03 Aladdin
会议预告|【阿拉丁】与您相约中国细胞生物学学会2026年全国学术大会04-03 Aladdin
会议预告|【阿拉丁】邀您共赴中国化学会第35届学术年会04-03 Aladdin
Eltra 埃尔特 | 航空部件原材料中的氧/氮/氢分析——ELEMENTRAC ONH-Ps04-03 弗尔德仪器




