精确解析 | Nat Comm 基于机器学习的代谢物注释和多维质谱测量的新算法PeakDecoder

2023-06-27 21:30:41, 质谱创新组学 上海欧易生物医学科技有限公司



2023年4月28日,美国太平洋西北国家实验室的Kristin Burnum-Johnson Nature Communications期刊IF:17.694)在线发表了题为“PeakDecoder enables machine learning-based metabolite annotation and accurate profiling in multidimensional mass spectrometry measurements”的研究论文,开发和评估了一种高灵敏和高通量的分析计算工作流程,将LC-IM-MS多维测量与PeakDecoder相结合以实现准确的代谢物分析。PeakDecoder是一种基于机器学习的算法,能够从原始数据中区分真正的共洗脱和共迁移,并计算代谢物识别错误率。应用PeakDecoder对各种工程菌株的代谢谱进行分析,结合人工验证和选择反应监测,使用64个标准品建立的库可以在116个微生物样本中对2683个特征进行准确的注释和量化。



中文标题:PeakDecoder支持基于机器学习的代谢物注释和多维质谱测量中的精确分析

研究对象:代谢工程菌株

发表期刊:Nature Communications

影响因子:17.694

发表时间:2023年4月28日

运用生物技术:LC-IM-MS、DIA


01
研究背景


LC-MS和GC-MS是分析复杂混合物中代谢物最流行和应用最广泛的分析平台,然而,自然界中成百上千的初级和次级代谢物表现出高度的结构多样性,许多同分异构体和标称质量的同位素共洗脱,并具有相似的破碎模式这在检测和注释方面构成了重大的分析挑战。利用色谱法的保留时间(RT)、离子迁移谱法(IM)的碰撞截面(CCS)或稳定同位素标记等实验手段对于补充MS/MS相似性和增加化合物鉴定工作的可信度是必要的。除了增加注释的置信度外,多维LC-IM-MS工作流程通过独立数据采集(DIA)方法收集广泛的片段谱提供了异构信息,同时IM根据气相分子离子的电荷、大小和形状来分离分子离子,与常规LC-MS方法相比,有效提高了选择性和覆盖范围。


02
研究思路



03
研究结果


1. LC-IM-MS分析流程及DIA技术的代谢物分析策略


LC-IM-MS的分析流程如图1所示,代谢提取物首先通过液相分离系统分离,同一洗脱时间的同分异构体(如图中2nd)进入离子淌度分离系统进一步分离,MS采用全离子DIA模式进行分析,该模式在低和高碰撞能量之间交替以捕获在同一运行中的前体和碎片离子光谱。相比于DDA, DIA通过在宽m/z范围内系统地收集所有可检测前体(MS1)的多段离子光谱(MS2),使得总体MS2覆盖范围和定量精度更好。虽然DIA提供了更高的重现性和定量性能,但与DDA相比,它需要更复杂的处理算法。

图1 | LC-IM-MS多维代谢物分析流程及数据结构


针对DIA数据,目前主要有两种处理策略:

(1)第一种策略应用非靶向特征检测(UFD),然后对片段离子光谱进行反褶积。UFD在代谢组学中使用的一个流行工具是MS-DIAL,它根据洗脱剖面的相似性对前体及其相应片段进行分组,生成伪MS2光谱,并将其与参考MS2库进行匹配。其他应用UFD的分析工具还有像MetaboDIA和DaDIA等;


(2)第二种DIA算法策略采用靶向数据提取(TDX)。TDX需要一个具有保留时间的目标代谢物和具有相应碎片质量的前体离子库,这些库被用来作为坐标来挖掘DIA光谱,并为每个目标代谢物的前体和片段生成提取离子色谱图(XIC)。 使用TDX的软件包括Skyline、MetDIA和DIAMetAlyzer等。


虽然这些工具存在于DIA代谢组学中,但在使用DIA光谱进行多维LC-IM-MS测量时,需要能够充分利用所有维度且错误率可控的新工具。本研究开发了一个灵敏和高通量的分析和计算工作流程,将LC-IM-MS多维测量与PeakDecoder相结合,其中PeakDecoder是一种独立于光谱注释或库的自动计算代谢产物识别错误率的算法。


2. PeakDecoder算法开发


在该研究中,作者为DIA代谢物鉴定实现了另一种评分算法PeakDecoder,该算法使用“以原始光谱为中心”的方法(使用非靶向检测特征UFD进行机器学习模型训练),使用“以代谢物中心”方法 (基于靶向代谢物特征TDX提取来进行模型推测即打分)。不依赖于任何数据库,PeakDecoder能够识别代谢物的真正的共洗脱和共迁移。


2 | LC-IM-MS多维代谢物分析的计算工作流


如图2a所示,PeakDecoder的完整工作流共包括6个步骤:(1)特征提取和片段离子反卷积:数据以非靶模式在MS-DIAL处理,基于共洗脱和共迁移提取所有前体离子特征(MS1)和它们各自的反卷积片段离子(MS2);


(2)训练集的生成:然后,将检测到和解卷积的峰作为目标生成初始训练集,并生成相应的诱饵(可视为阴性数据即假的共洗脱峰);


(3)靶向特征提取(训练集):提取训练集中所有的离子对的特征信息和XIC指标(面积、高度、质量误差、FWHM (LC)、RT、预期RT、预期CCS);


(4)模型训练:通过多种指标对靶向峰进行筛选,以保证训练集的质量,随后使用从训练集的XIC指标中计算出的多个分数来训练SVM分类器,模型学会区分真假共洗脱和共迁移;


(5)靶向特征提取(查询数据集):提取查询代谢物的特征信号并导出它们的XIC指标作为模型输入;


(6)机器学习推理:最后,使用训练好的模型来计算查询代谢物的PeakDecoder分数并估计FDR。PeakDecoder很好的利用了DIA光谱的优势,前体和碎片离子的结合能够选择性和敏感性的监测来自同一分子的共洗脱碎片离子色谱峰。为了产生诱饵(即假的共洗脱峰),作者执行了严格的诱饵生成策略(如图2b所示),对于一对目标峰Target A和Target B,保持前体离子属性不变并交换40 - 60%的碎片的m/z值,生成一对诱饵,其中目标峰的XIC指标与期望值有很好的相关性而诱饵的谱相似性较低。


3. 在微生物样品中应用PeakDecoder


利用PeakDecoder对多种微生物的LC-IM-MS数据进行处理,在恶臭假单胞菌样本中的分析结果中,PeakDecoder分数结合了多种分数指标,提高了目标和诱饵之间的分辨能力(如图3a)。图3b显示了标准品(前体m/z 338.9887, RT 4.95min, CCS 155.00和6个碎片离子)和微生物样品中“果糖1,6-二磷酸盐(F16DP)”的色谱图和过滤IM窗口,PeakDecoder精准的识别此代谢物,评分为0.9966且q值为0.005。相比于其他工具,比如UFD(MS-DIAL)和TDX(Skyline),PeakDecoder结合了UFD和TDX策略,弥补了各自现有工具的局限性。在恶臭假单胞菌样本的结果中,如图3c,PeakDecoder表现更好,有较低的FDR。

 

图3 | 使用PeakDecoder进行LC-IM-MS分析微生物样品


当然,在本研究中作者还对其他菌株进行了代谢组学分析代谢通路的分析,使用PeakDecoder来评估定性结果的准确性表现出不错的效果,这里不过多赘述,对这部分的结果论证感兴趣的读者可以阅读原文。


04
研究结论


基于LC-IM-MS平台下的DIA数据分析,本研究通过将非靶特征检测和反卷积(UFD)与靶向特征检测(TDX)相结合,从质谱原始数据中提取DIA前体离子和碎片离子的色谱峰,同时提出了一种配对和交换的诱饵生成策略,使用XIC的多种指标作为训练集用于模型SVM二分类器的训练和学习。PeakDecoder能够在不依赖与任何数据库情况下,识别代谢物的真正的共洗脱和共迁移,从而评估代谢组学分析结果中代谢物注释列表的可靠性和FDR。


文章推荐



文章利用LC-IM-MS平台DIA的优点,开发了一套高灵敏和高通量的代谢组学分析计算工作流程,同时研发和评估了一种能够独立于数据库的算法PeakDecoder来识别代谢物真正的共洗脱和共迁移,使得代谢组学高通量分析具有更高的代谢物覆盖率和更精准的注释。


参考文献

本文章出处:doi.org/10.1038/s41467-023-37031-9



小鹿推荐


关注

鹿明生物提供优质的空间代谢组服务


空代仪器平台

已搭建2套AFADESI-MSI质谱成像系统+1套Waters DESI-MSI质谱成像系统


项目执行

已落地执行项目百余项、检测组织样本类型20+;


定性算法经过多维校准

定性结果同时考虑物质表达空间情况、加和离子及同位素峰表达强度相似性、同位素表达空间分布相似性、非靶向质谱数据和空代自建数据库进行校准。


项目实测结果

可实现定性代谢物数量:1000-3000个代谢物

无偏好性检测代谢物::70%为700Da以下的小分子物质,30%为脂质类物质,更加适合代谢组学研究方向;



.

文末看点lumingbio


上海鹿明生物科技有限公司是欧易生物旗下从事蛋白质组代谢组质谱检测专业质谱组学服务公司。公司建有国内第一个空间代谢组商业服务平台,深耕质谱组学检测分析,具体包括空间代谢组、双平台代谢组、靶向代谢组、TMT标记定量蛋白组、翻译后修饰蛋白组、4D-DIA蛋白组、单细胞及超微量蛋白组、空间蛋白组等。创新质谱组学平台广泛应用于机制解析、分型诊断、标志物筛选、药靶发掘等多个领域。公司并先后获得高新技术企业、上海市专精特新企业并建有院士专家工作站,自有包括tims tof pro2在内的各类大型质谱近二十台套,年服务项目超2000项。鹿明生物协助合作伙伴发表SCI论文近千篇,成功打造以硬数据、好服务为基础,以空间代谢组为特色的质谱组学检测服务公司品牌。



精彩往期推荐

项目文章 | 空间代谢组+空间转录组联合单细胞转录组揭示受损大脑中复杂的转录及代谢调剂

2023-06-09





纳米DESI MSI空间代谢组学和免疫荧光成像揭示骨骼肌纤维类型的分子特征

2023-06-02

重磅发布|中国医学科学院药物研究所贺玖明教授新发表空间多组学分析研究成果!

2023-05-16





【喜讯】鹿明生物获上海市2023年度“科技创新行动计划”空间代谢组学分析检测的技术标准专项立项

2023-04-19


END 

TaoJay 撰文

欢迎转发到朋友圈

本文系鹿明生物原创解读

转载请注明本文转自鹿明生物

我知道你在看

“阅读原文”了解更多


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved