FC/T检验/PLS-DA筛选差异代谢物方法介绍

2021-05-19 17:41:23, 小迈 武汉迈维代谢生物科技股份有限公司




开展代谢组学研究,筛选差异代谢物往往是数据分析中最基本的一项分析内容,但分析方法有很多种,例如PLS-DA法、OPLS-DA法、T检验法、倍数变化法……


各位老师可能会困惑:到底该选择哪种分析方法?这些方法的筛选指标都有哪些??每项指标的阈值如何设置???这些指标是否需要同时满足????


那么接下来,小迈就为各位老师一一解答这些疑惑。



在代谢组学研究中,最常见的差异代谢物筛选方法主要有以下三种:

1. 倍数变化法(FC值)

2. T检验法(P值、FDR值)

3. (O)PLS-DA法(VIP值)



1

倍数变化法

倍数变化法即根据代谢物的相对定量或绝对定量结果,计算某个代谢物在两组间表达量的差异倍数(Fold Change),简称FC值。假设A物质在对照组中定量结果为1,在疾病组中定量结果为3,那么此物质的FC值即为3。由于代谢物定量结果肯定是非负数,那么FC的取值就是(0, +∞)。为筛选到差异更为显著的代谢物,小迈提供给各位老师的结果中默认选择的是FC值≥2或≤0.5的物质,此标准设置的较为严格,若因此筛到的差异代谢物较少,可根据需求将差异倍数标准调整为1.5倍或者1.2倍,这两种阈值在代谢组研究相关文章中也是较为常见的。

此外,为呈现更好的作图效果,在分析中通常会对FC值取log2对数,若log2FC≥1,则代表此差异代谢物上调,若log2FC≤-1,则代表此差异代谢物下调。



 

代谢物差异倍数条形图



2

T检验法

T检验,又叫student t 检验(Student’s t test),是一种常用的假设检验方法,也是差异代谢物筛选中常见的统计策略之一。假设检验首先必须要有假设,我们假设某代谢物在A组和B组的含量没有差异(H0,零假设),然后基于此假设,通过t test计算出统计量t值和其对应的p值,如果P-value<0.05,那么说明小概率事件出现了,我们应该拒绝零假设,即A组和B组的含量不一样,即有显著差异。


代谢组学数据具有高维的特点,所以在进行单变量分析时,会面临多重假设检验的问题。如果我们不对每次假设检验的检验水准进行α校正,则总体犯一类错误的概率会明显增加,假阳性增加。解决方法可采用 Bonferion 校正,即用原检验水准除以假设检验的次数m作为每次假设检验新的检验水准 (α/m) 。但由于 Bonferioni 校正的方法过于保守,筛选标准严格,会明显降低检验效能。阳性发现错误率(false discovery rate,FDR) ,这种方法可用于估计多重假设检验的阳性结果中,可能包含多少假阳性结果。FDR 方法不仅能够将假阳性的比例控制在规定的范围内,而且较之传统的方法在检验效能上也得到显著的提高。


综上,如果选择了T检验作为差异代谢物筛选方法,就需要选择P值或FDR值作为检验值,然后对该检验阈值进行设置。P值为负二项分布计算得到,FDR值为P值经过多重检验校正得到。P值或FDR值的阈值,通常选择0.05,也可以根据代谢组结果具体情况适当降低或提高阈值,如0.01、0.001等。



 

基于FC值和P值的差异代谢物火山图


3

(O)PLS-DA法

由于代谢组数据具有“高维、高噪音、高变异”的特点,因此一般采用多元统计分析方法,可以在最大程度保留原始信息的基础上将高维复杂的数据进行“简化和降维”,建立可靠的数学模型对研究对象的代谢谱特点进行归纳和总结。常见的多元统计分析方法包括PLS-DA或OPLS-DA。


偏最小二乘判别分析(PLS-DA)是一种有监督模式识别的多元统计分析方法,将多维数据在压缩前先按需要寻找的差异因素分组(预先设定Y值来进行目标分类和判别),这样可以找到与用于分组的因素最相关的变量,而减少一些其它因素的影响。PLS-DA常用于区分各组间代谢轮廓的总体差异,筛选组间的差异代谢物。


正交偏最小二乘判别分析(OPLS-DA)结合了正交信号矫正(OSC)和PLS-DA方法,能够将X矩阵信息分解成与Y相关和不相关的两类信息,通过去除不相关的差异来筛选差异变量。


具体流程为:使用SIMCA软件对数据进行对数转换加UV格式化处理,首先对第一主成分进行OPLS-DA建模分析,模型的质量用7折交叉验证(7-fold cross validation)进行检验;然后用交叉验证后得到的R2Y(模型对分类变量Y的解释度)和Q2(模型的预测性)对模型有效性进行评判;最后通过置换检验(permutation test),随机200次改变分类变量Y的排列顺序得到不同的随机Q2值,从而对模型有效性做进一步的检验。



 

OPLS-DA模型验证


VIP(Variable important in projection)是(O)PLS-DA模型变量的变量权重值,可用于衡量各代谢物积累差异对各组样本分类判别的影响强度和解释能力,VIP≥1为常见的差异代谢物筛选标准



 

差异代谢物VIP值图






小结

以上3种分析方法中前两种属于单变量分析法,(O)PLS-DA分析属于多变量分析法,由于代谢组学数据具有“高维、海量”的特点,因此推荐使用单维和多维的方法进行结合,根据数据特性从不同角度进行分析。同时考量两类统计分析方法的结果,有助于我们从不同角度观察数据,得出结论,也可以帮助我们避免只使用一类统计分析方法带来的假阳性错误或模型过拟合。组合方式既可使用FC值与VIP值相结合,也可选择P值或FDR值与VIP值相结合。


但如果使用(O)PLS-DA分析方法所构建的模型较差,此时选择P值与FC值相结合的方式作为差异代谢物筛选标准亦是可行的,参考文献:Ahn H S , Yeom J , Yu J , et al. Convergence of Plasma Metabolomics and Proteomics Analysis to Discover Signatures of High-Grade Serous Ovarian Cancer[J]. Cancers, 2020, 12(11):3447 。


99%的代谢组学研究者都在阅读下文:

客户文章 | COVID-19患者出院3个月并发肺部后遗症的血浆代谢组学分析
大咖直播 | 学术大牛高燃开麦,手把手教你申基金
新品首发:错过了空间转录组,不要错过空间代谢组!
项目文章 | GUT:磁控胶囊内窥镜-肠道内容物无创采样的新方法!
干货 | 教你如何绘制简单又好看的热图




咨询电话:027-62433042

微信:18062045271

邮箱:support@metware.cn

网址:www.metware.cn

我就知道你“在看”


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2026 ANTPEDIA, All Rights Reserved