2023-05-19 12:41:04, 景杰生物 杭州景杰生物科技股份有限公司
随着质谱技术和生物信息工具的不断发展和成熟,蛋白质组和翻译后修饰组学已经在生命科学、基础医学等科研领域被广泛应用。但是,同其他多组学数据一样,蛋白质组和翻译后修饰组学数据在正式进行分析之前,需要经过数据的质控和预处理。一般来说,蛋白质组和翻译后修饰组学数据的预处理流程主要包含以下几个部分,如下图:
当然,不同实验室、不同蛋白质组学技术、不同软件、甚至是在不同组织中,蛋白质组学数据的预处理方式和流程也存在很大差异。为了全面了解蛋白质组学数据和翻译后修饰组数据预处理方式,我们调研了近5年来50余篇代表性的高水平文章,并总结出不同技术路线、不同搜库软件和技术流程的数据预处理方法,这里我们挑选部分调研结果供大家参考学习,希望对大家有所启发。
1 DIA数据预处理流程
目前DIA蛋白质组学数据主要有两种常见的预处理流程:Spectronaut搜库策略和DIA-NN搜库策略。首先来看下Spectronaut搜库策略:
图 2 spectronaut搜库策略的预处理流程
从调研结果可以看出,不论是蛋白质组学还是翻译后修饰组学,也不管是在血液、组织还是细胞中,数据预处理的方式大同小异。以Matthias Mann课题组2022年在《Nature Medicine》中发表的文章(PMID: 35654907)为例,组织来源和血浆来源的DIA蛋白组学数据分别通过Spectronaut v13和Spectronaut v15.4搜库获得肽段和蛋白的相对定量信息,并对其进行log2的转换。随后进行缺失值的过滤和填充,在该项研究中,研究人员通过正态分布的随机值对样本中的缺失值进行填充,填充后的数据进入下游的统计和生物信息的分析。但该研究中并没有提及数据标准化的方式和批次效应问题,在我们调研的其他工作中(图2),在log2转换后和缺失值处理前,可能需要对数据进行样本内的中值标准化,使不同样本的数据分布处于同一水平,便于进行样本间的差异蛋白比较。去除批次效应,一般采用常见的Combat方式即可。
对DIA-NN搜库策略而言,其数据预处理方式与Spectronaut类似,在DIA-NN搜库得到相对定量值后先进行log2转换、数据标准化、缺失值处理等过程,最后进行差异蛋白的鉴定(图3)。
图 3 DIA-NN搜库策略的预处理流程
2 Label Free数据预处理流程
Label Free蛋白组数据的搜库方式与DIA数据有所不同,从调研的15篇文献结果中可以看出,其搜库方式主要有两种:Maxquant和Proteome Discoverer。
图 4 Label Free数据Maxquant搜库策略预处理流程
Maxquant搜库结果会得到3种定量值:Intensity、iBAQ、LFQ intensity。Intensity是将某Protein Groups里所有Unique和Razor peptides的信号强度进行加和,作为一个原始强度值。而iBAQ是在此基础上,除以某个蛋白的理论肽段数目,有点类似于长度标准化;LFQ则是将原始强度值在样本之间进行校正,以消除处理、上样、预分和仪器等造成的样本间误差。所以,iBAQ可以用于样本内进行比较,而LFQ用于样本间比较。无论是Intensity、iBAQ和LFQ,在后续定量分析中,一般都会进行log2转换、样本内中值或者quantile标准化,随后进行缺失值的过滤和填充,最后进入差异定量分析(图4)。Proteome Discoverer(PD)搜库默认定量值为iBAQ,一般常用的标准化方式为FOT(Fraction of Total),即用样本内所有蛋白的iBAQ总和进行标准化,然后基于标准化后的数据分布,选择10e-5或者10e-8等进行缺失值的填充,有点类似于最小值填充,随后进行下游数据分析流程(图5)。
图 5 Label Free数据PD搜库策略预处理流程
3 TMT数据预处理流程
在大样本尤其是临床大队列样本研究中,TMT 标记的蛋白质组学技术应用较多,从调研的25篇文献中(图6)可以看出,其搜库方式也较为丰富。除了Maxquant、PD外,MSFragger和MS-GF+也是比较常见的搜库方法。
图 6 TMT蛋白组数据调研信息
这里我们仅以MSFragger搜库策略为例,展示TMT蛋白组数据的预处理流程(图7)。一般而言,MSFragger先对原始蛋白组数据进行搜库,得到pepXML格式的搜库结果文件,随后利用Philosopher工具包进行肽段、蛋白和翻译后修饰的定量和过滤等处理。首先,MSFragger的输出结果可以通过PeptideProphet进行肽段的鉴定和验证,对于修饰组如磷酸化修饰组数据,可以在PeptideProphet输出结果的基础上通过PTMProphet进行修饰位点的鉴定。而对于蛋白的鉴定,则可以通过ProteinProphet进行处理。最后,利用Philosopher进行FDR的过滤和定量,获得肽段水平、修饰水平或者蛋白水平的TMT reporter ion intensity。但是,每个样本中所有蛋白的相对定量值,需要基于参考通道的样品进行校正,即将某个样本中蛋白的TMT reporter internsity值与参考通道样本中该蛋白的intensity值的比值(TMT ratio)作为该蛋白的相对定量值。
图 7 MSFragger搜库策略的数据预处理流程
在获得每个蛋白的TMT ratio值后,进行log2转换,并进行样本内的中值标准化过程。不过,该过程也并非简单的用TMT ratio值除以中值,而是经过了多重数据转换过程(图8)。首先计算每个样本的TMT ratio中值,并计算所有样本的全局中值M0;随后按照常规分析策略,用各自样本的中值标准化,在此基础上计算每个样本的绝对中值偏差MAD,并获得所有样本的全局绝对中值偏差MAD0;最后再基于M0和MAD0对蛋白相对定量值进行标准化。你以为这就结束了么?我们刚才提到了参考通道的蛋白相对定量值,最终蛋白质的相对表达值A表示为标准化后的蛋白定量值(取完log2转换)加上对应参考通道蛋白值(取完log2转换),随后进行缺失值处理、批次效应去除和下游的差异表达分析等过程。
图 8 TMT蛋白组数据的标准化流程
精彩往期推荐
2023-04-24
2023-04-06
2023-05-09
2023-05-06
2023-04-27
04-23 飞飞
【报名火爆】2024单细胞蛋白质组学技术与产业应用研讨会线上直播通道发布!04-23
特洁安Aquafine助力河南电子半导体客户高品质生产,为“中国芯”提供有力保障04-23
降本增效 | 奥豪斯称重产品助力制药行业04-23 奥豪斯
Aliben动态 | 俄罗斯科学院院士Valery Tuchin教授到访艾立本科技参观交流04-23 艾立本科技
春启青莲礼,血浆免费试 | 高深度血浆蛋白质组限时免费测!04-23
【Vocus B文献分享】一种可检测有机和无机物种的中压化学电离反应腔表征04-23
德国元素TOC总有机碳分析仪线下用户培训邀请函(第一轮通知)04-23
最高91分,机会巨大!答题赛最后12小时,通道即将关闭!04-23 市场宣传部
【 Stage-RTL反射率测试】典型配置、硬件说明、软件操作04-23
相约青岛-第六届大气臭氧污染防治研讨会04-22 TOFWERK中国
从专家共识看吉比爱如何布局质谱自动化及应对临床质谱挑战04-22 华大吉比爱
精彩回顾|华大吉比爱质谱整体解决方案亮相第五届北京临床质谱论坛04-22 华大吉比爱
汪建:三十而立,要立得正、立得稳,走出一片新的光辉04-22 华大集团
尹烨:想成为对人类历史有伟大贡献的组织,就必须秉承痴心和使命04-22 华大集团
答题有礼|世界地球日,与哈希一起保护世界上最重要的资源04-22
世界地球日,哈希助力保护水资源04-22
【惊喜不断】前处理产品秒杀季,超低优惠!04-22 电商部
德国元素耗材之星 | 线状铜(还原铜)04-22
飞凡焕新,锂想质选 | 赛默飞亮相CIBF202404-22