生信分析系列干货 | 高分文章蛋白质组学数据预处理方法调研报告

2023-05-19 12:41:04, 景杰生物杭州景杰生物科技股份有限公司

随着质谱技术和生物信息工具的不断发展和成熟，蛋白质组和翻译后修饰组学已经在生命科学、基础医学等科研领域被广泛应用。但是，同其他多组学数据一样，蛋白质组和翻译后修饰组学数据在正式进行分析之前，需要经过数据的质控和预处理。一般来说，蛋白质组和翻译后修饰组学数据的预处理流程主要包含以下几个部分，如下图：

图 1 蛋白质组学数据预处理流程

当然，不同实验室、不同蛋白质组学技术、不同软件、甚至是在不同组织中，蛋白质组学数据的预处理方式和流程也存在很大差异。为了全面了解蛋白质组学数据和翻译后修饰组数据预处理方式，我们调研了近5年来50余篇代表性的高水平文章，并总结出不同技术路线、不同搜库软件和技术流程的数据预处理方法，这里我们挑选部分调研结果供大家参考学习，希望对大家有所启发。

1 DIA数据预处理流程

目前DIA蛋白质组学数据主要有两种常见的预处理流程：Spectronaut搜库策略和DIA-NN搜库策略。首先来看下Spectronaut搜库策略：

图 2 spectronaut搜库策略的预处理流程

从调研结果可以看出，不论是蛋白质组学还是翻译后修饰组学，也不管是在血液、组织还是细胞中，数据预处理的方式大同小异。以Matthias Mann课题组2022年在《Nature Medicine》中发表的文章（PMID: 35654907）为例，组织来源和血浆来源的DIA蛋白组学数据分别通过Spectronaut v13和Spectronaut v15.4搜库获得肽段和蛋白的相对定量信息，并对其进行log2的转换。随后进行缺失值的过滤和填充，在该项研究中，研究人员通过正态分布的随机值对样本中的缺失值进行填充，填充后的数据进入下游的统计和生物信息的分析。但该研究中并没有提及数据标准化的方式和批次效应问题，在我们调研的其他工作中（图2），在log2转换后和缺失值处理前，可能需要对数据进行样本内的中值标准化，使不同样本的数据分布处于同一水平，便于进行样本间的差异蛋白比较。去除批次效应，一般采用常见的Combat方式即可。

对DIA-NN搜库策略而言，其数据预处理方式与Spectronaut类似，在DIA-NN搜库得到相对定量值后先进行log2转换、数据标准化、缺失值处理等过程，最后进行差异蛋白的鉴定（图3）。

图 3 DIA-NN搜库策略的预处理流程

2 Label Free数据预处理流程

Label Free蛋白组数据的搜库方式与DIA数据有所不同，从调研的15篇文献结果中可以看出，其搜库方式主要有两种：Maxquant和Proteome Discoverer。

图 4 Label Free数据Maxquant搜库策略预处理流程

Maxquant搜库结果会得到3种定量值：Intensity、iBAQ、LFQ intensity。Intensity是将某Protein Groups里所有Unique和Razor peptides的信号强度进行加和，作为一个原始强度值。而iBAQ是在此基础上，除以某个蛋白的理论肽段数目，有点类似于长度标准化；LFQ则是将原始强度值在样本之间进行校正，以消除处理、上样、预分和仪器等造成的样本间误差。所以，iBAQ可以用于样本内进行比较，而LFQ用于样本间比较。无论是Intensity、iBAQ和LFQ，在后续定量分析中，一般都会进行log2转换、样本内中值或者quantile标准化，随后进行缺失值的过滤和填充，最后进入差异定量分析（图4）。Proteome Discoverer(PD)搜库默认定量值为iBAQ，一般常用的标准化方式为FOT（Fraction of Total），即用样本内所有蛋白的iBAQ总和进行标准化，然后基于标准化后的数据分布，选择10e-5或者10e-8等进行缺失值的填充，有点类似于最小值填充，随后进行下游数据分析流程（图5）。

图 5 Label Free数据PD搜库策略预处理流程

3 TMT数据预处理流程

在大样本尤其是临床大队列样本研究中，TMT 标记的蛋白质组学技术应用较多，从调研的25篇文献中（图6）可以看出，其搜库方式也较为丰富。除了Maxquant、PD外，MSFragger和MS-GF+也是比较常见的搜库方法。

图 6 TMT蛋白组数据调研信息

这里我们仅以MSFragger搜库策略为例，展示TMT蛋白组数据的预处理流程（图7）。一般而言，MSFragger先对原始蛋白组数据进行搜库，得到pepXML格式的搜库结果文件，随后利用Philosopher工具包进行肽段、蛋白和翻译后修饰的定量和过滤等处理。首先，MSFragger的输出结果可以通过PeptideProphet进行肽段的鉴定和验证，对于修饰组如磷酸化修饰组数据，可以在PeptideProphet输出结果的基础上通过PTMProphet进行修饰位点的鉴定。而对于蛋白的鉴定，则可以通过ProteinProphet进行处理。最后，利用Philosopher进行FDR的过滤和定量，获得肽段水平、修饰水平或者蛋白水平的TMT reporter ion intensity。但是，每个样本中所有蛋白的相对定量值，需要基于参考通道的样品进行校正，即将某个样本中蛋白的TMT reporter internsity值与参考通道样本中该蛋白的intensity值的比值（TMT ratio）作为该蛋白的相对定量值。

图 7 MSFragger搜库策略的数据预处理流程

在获得每个蛋白的TMT ratio值后，进行log2转换，并进行样本内的中值标准化过程。不过，该过程也并非简单的用TMT ratio值除以中值，而是经过了多重数据转换过程（图8）。首先计算每个样本的TMT ratio中值，并计算所有样本的全局中值M0；随后按照常规分析策略，用各自样本的中值标准化，在此基础上计算每个样本的绝对中值偏差MAD，并获得所有样本的全局绝对中值偏差MAD0；最后再基于M0和MAD0对蛋白相对定量值进行标准化。你以为这就结束了么？我们刚才提到了参考通道的蛋白相对定量值，最终蛋白质的相对表达值A表示为标准化后的蛋白定量值（取完log2转换）加上对应参考通道蛋白值（取完log2转换），随后进行缺失值处理、批次效应去除和下游的差异表达分析等过程。

图 8 TMT蛋白组数据的标准化流程

好了，以上就是目前蛋白质组学数据常见的数据预处理流程，涵盖DIA、Label Free和TMT标记蛋白质组学技术。在实际应用过程中，您可以按照自己数据的实际情况，根据需要选择合适的数据预处理方法，最后祝您科研顺利、生活愉快！

精彩往期推荐

生信分析系列干货 | 景杰云平台——功能富集分析工具操作指南

2023-04-24

生信分析系列干货 | 蛋白质组学数据挖掘神器 — 功能富集分析

2023-04-06

景绣前程，杰出未来 | 景杰生物荣登胡润“2023全球未来独角兽”榜单

2023-05-09

“景”彩脉动 | 景杰生物荣登“动脉网2023未来医疗100强”榜单

2023-05-06

强强联合！浙江大学&景杰生物合作举办第6期蛋白质组学专题研习班

2023-04-27

参考文献：

1. Niu L, et al. 2022. Noninvasive proteomic biomarkers for alcohol-related liver disease. Nat Med.

2. Jayavelu AK, et al. 2022. The proteogenomic subtypes of acute myeloid leukemia. Cancer Cell.

3. Xu JY, et al. 2020. Integrative Proteomic Characterization of Human Lung Adenocarcinoma. Cell.

4. Cao L, et al. 2021. Clinical Proteomic Tumor Analysis Consortium. Proteogenomic characterization of pancreatic ductal adenocarcinoma. Cell.

5. Huang C, et al. 2021. Clinical Proteomic Tumor Analysis Consortium. Proteogenomic insights into the biology and treatment of HPV-negative head and neck squamous cell carcinoma. Cancer Cell.

本文由景杰生物团队报道，欢迎转发到朋友圈。如有转载、投稿等其他合作需求，请文章下方留言，或添加微信ptm-market咨询。