2021-05-19 17:41:23, 小迈 武汉迈维代谢生物科技股份有限公司

开展代谢组学研究,筛选差异代谢物往往是数据分析中最基本的一项分析内容,但分析方法有很多种,例如PLS-DA法、OPLS-DA法、T检验法、倍数变化法……
各位老师可能会困惑:到底该选择哪种分析方法?这些方法的筛选指标都有哪些??每项指标的阈值如何设置???这些指标是否需要同时满足????
那么接下来,小迈就为各位老师一一解答这些疑惑。

在代谢组学研究中,最常见的差异代谢物筛选方法主要有以下三种:
1. 倍数变化法(FC值)
2. T检验法(P值、FDR值)
3. (O)PLS-DA法(VIP值)
倍数变化法
倍数变化法即根据代谢物的相对定量或绝对定量结果,计算某个代谢物在两组间表达量的差异倍数(Fold Change),简称FC值。假设A物质在对照组中定量结果为1,在疾病组中定量结果为3,那么此物质的FC值即为3。由于代谢物定量结果肯定是非负数,那么FC的取值就是(0, +∞)。为筛选到差异更为显著的代谢物,小迈提供给各位老师的结果中默认选择的是FC值≥2或≤0.5的物质,此标准设置的较为严格,若因此筛到的差异代谢物较少,可根据需求将差异倍数标准调整为1.5倍或者1.2倍,这两种阈值在代谢组研究相关文章中也是较为常见的。
此外,为呈现更好的作图效果,在分析中通常会对FC值取log2对数,若log2FC≥1,则代表此差异代谢物上调,若log2FC≤-1,则代表此差异代谢物下调。
■ ■■■■
代谢物差异倍数条形图
T检验法
T检验,又叫student t 检验(Student’s t test),是一种常用的假设检验方法,也是差异代谢物筛选中常见的统计策略之一。假设检验首先必须要有假设,我们假设某代谢物在A组和B组的含量没有差异(H0,零假设),然后基于此假设,通过t test计算出统计量t值和其对应的p值,如果P-value<0.05,那么说明小概率事件出现了,我们应该拒绝零假设,即A组和B组的含量不一样,即有显著差异。

代谢组学数据具有高维的特点,所以在进行单变量分析时,会面临多重假设检验的问题。如果我们不对每次假设检验的检验水准进行α校正,则总体犯一类错误的概率会明显增加,假阳性增加。解决方法可采用 Bonferion 校正,即用原检验水准除以假设检验的次数m作为每次假设检验新的检验水准 (α/m) 。但由于 Bonferioni 校正的方法过于保守,筛选标准严格,会明显降低检验效能。阳性发现错误率(false discovery rate,FDR) ,这种方法可用于估计多重假设检验的阳性结果中,可能包含多少假阳性结果。FDR 方法不仅能够将假阳性的比例控制在规定的范围内,而且较之传统的方法在检验效能上也得到显著的提高。
综上,如果选择了T检验作为差异代谢物筛选方法,就需要选择P值或FDR值作为检验值,然后对该检验阈值进行设置。P值为负二项分布计算得到,FDR值为P值经过多重检验校正得到。P值或FDR值的阈值,通常选择0.05,也可以根据代谢组结果具体情况适当降低或提高阈值,如0.01、0.001等。

■ ■■■■
基于FC值和P值的差异代谢物火山图
(O)PLS-DA法
由于代谢组数据具有“高维、高噪音、高变异”的特点,因此一般采用多元统计分析方法,可以在最大程度保留原始信息的基础上将高维复杂的数据进行“简化和降维”,建立可靠的数学模型对研究对象的代谢谱特点进行归纳和总结。常见的多元统计分析方法包括PLS-DA或OPLS-DA。
偏最小二乘判别分析(PLS-DA)是一种有监督模式识别的多元统计分析方法,将多维数据在压缩前先按需要寻找的差异因素分组(预先设定Y值来进行目标分类和判别),这样可以找到与用于分组的因素最相关的变量,而减少一些其它因素的影响。PLS-DA常用于区分各组间代谢轮廓的总体差异,筛选组间的差异代谢物。
正交偏最小二乘判别分析(OPLS-DA)结合了正交信号矫正(OSC)和PLS-DA方法,能够将X矩阵信息分解成与Y相关和不相关的两类信息,通过去除不相关的差异来筛选差异变量。

具体流程为:使用SIMCA软件对数据进行对数转换加UV格式化处理,首先对第一主成分进行OPLS-DA建模分析,模型的质量用7折交叉验证(7-fold cross validation)进行检验;然后用交叉验证后得到的R2Y(模型对分类变量Y的解释度)和Q2(模型的预测性)对模型有效性进行评判;最后通过置换检验(permutation test),随机200次改变分类变量Y的排列顺序得到不同的随机Q2值,从而对模型有效性做进一步的检验。

■ ■■■■
OPLS-DA模型验证
VIP(Variable important in projection)是(O)PLS-DA模型变量的变量权重值,可用于衡量各代谢物积累差异对各组样本分类判别的影响强度和解释能力,VIP≥1为常见的差异代谢物筛选标准。

■ ■■■■
差异代谢物VIP值图
以上3种分析方法中前两种属于单变量分析法,(O)PLS-DA分析属于多变量分析法,由于代谢组学数据具有“高维、海量”的特点,因此推荐使用单维和多维的方法进行结合,根据数据特性从不同角度进行分析。同时考量两类统计分析方法的结果,有助于我们从不同角度观察数据,得出结论,也可以帮助我们避免只使用一类统计分析方法带来的假阳性错误或模型过拟合。组合方式既可使用FC值与VIP值相结合,也可选择P值或FDR值与VIP值相结合。
但如果使用(O)PLS-DA分析方法所构建的模型较差,此时选择P值与FC值相结合的方式作为差异代谢物筛选标准亦是可行的,参考文献:Ahn H S , Yeom J , Yu J , et al. Convergence of Plasma Metabolomics and Proteomics Analysis to Discover Signatures of High-Grade Serous Ovarian Cancer[J]. Cancers, 2020, 12(11):3447 。
99%的代谢组学研究者都在阅读下文:


我就知道你“在看”
04-24 奥豪斯
传奇续写:奥豪斯旗下涡旋振荡器Vortex-Genie 2焕新登场04-24 奥豪斯
采用先进防静电技术,最大限度减少干扰04-24 奥豪斯
询价有礼 | 奥豪斯电化学产品解决方案04-24 奥豪斯
Angew速递:台式easyXAFS原位解析高效析氧反应的定向非晶到非晶重构04-23 Dr. Dai
MSTD系列显微镜专用电动滑台:显微镜下图像分毫必现04-23 光电行业都会关注
分光光度计怎么用?一步步教你正确操作与数据读取方法04-23 管理员
分光光度计的工作原理详解:从朗伯-比尔定律到现代检测技术04-23 管理员
展会回顾|“融两业共生之力 筑湾区超级枢纽”2026大湾区创新生态大会04-22 谱临晟
荧飒光学践行企业社会责任,赋能光电人才高质量培养04-22 荧飒光学
天平安装丨现场直击地震对天平的影响,几十台天平瞬间“跳动”?04-22 小普
报名通知丨英斯特朗塑料力学测试高阶培训研讨会04-22 英斯特朗
成都科林分析邀您共赴TFF·2026酒类风味分析与感官评价暨创新技术论坛,期待与您相遇!04-22
吉艾姆4月双展齐发 | 武汉科仪展+脂在浙里研讨会04-22
应用笔记 | 基于Flex自动化平台的多体液胞外囊泡分离及EV蛋白质组学分析流程04-21 肖伟弟 曾嘉明
CCMT2026开展即高能 | Equator-X™ 双模式测量仪引爆全场04-21
告别预测偏差!Percepta自建专属训练库,pKa预测更准更快04-21 ACDLabs 李丹
世界地球日,查看地球的【愿望清单】04-21
【前沿激荡,智汇北京】IGC 2026圆满落幕,益世科生物共绘细胞基因治疗新蓝图04-21
硬核方案护航核安全|衡昇质谱斩获核材料检测装备大奖04-21


