多组学关联分析“重器”—— O2PLS

2022-07-15 08:35:22, 星标关注 上海欧易生物医学科技有限公司


老师

小欧小欧快告诉我,我要怎么选择微生物和代谢物用于相关性分析呢?

小欧

老师,您好,我们建议的挑选原则可多了去了~

小欧

选择1:我们可以挑选物种丰度Top15的微生物,挑选VIP值降序排列的代谢物;

小欧

选择2:我们也可以从差异的微生物组和差异的代谢物中挑选;

小欧

选择3:当然也可以从我们关注的微生物和代谢物中指定哦~~

老师

小欧小欧,我犯了选择综合症怎么办?

老师

小欧

别怕,小欧再教您一招,让统计建模数据来说话!不用再纠结人为选择。隆重推荐—— O2PLS分析。

没错,他就是组学关联分析“重器”:O2PLS

O2PLS

分析

小欧接下来会从这几个方面来给各位介绍介绍O2PLS分析:

一、有监督模型和无监督模型

二、有监督模型之判别分析

三、O2PLS的实现及应用(emmmmmm重点对分析结果展示感兴趣,想略过原理的老师,欢迎直接跳到这部分~~ ^_^)

01

有监督模型和无监督模型

有监督模型

监督学习可以理解为,从“老师”那里获取知识、信息,“老师”提供对错指示、告知最终答案。在监督学习中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。要实现的目标是“对于输入数据X能预测变量Y”。

监督学习一般包括分类与回归两种类型。比如常见的线性回归、逻辑回归LR、决策树、支持向量机SVM等都是有监督模型。

无监督模型

无监督方法是指在没有“老师”的情况下,“学生”自学的过程。自学过程中对知识进行归纳、总结。无监督学习中,要回答的问题是“从数据X中能发现什么”。比如常见的PCA、NMDS、PCoA及一些聚类算法(如k-means聚类),这些都是无监督模型。

02

有监督模型之判别分析Discriminant Analysis(DA)

有监督模型判别分析常见几类:线性判别分析(LDA)、偏最小二乘法判别分析(PLS-DA)、正交偏最小二乘法判别分析(OPLS-DA)。

说到判别分析,我们不得不提一下在微生物中常用的LEfSe分析,就是结合使用了LDA分析,即线性判别分析。

· Linear discriminant Analysis(LDA)线性判别分析

LDA可用来降维,也可用来分类。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。如下图,比方说:我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别数据的类别中心之间的距离尽可能的大[4]。

PCA也是降维,那LDA和PCA之间有哪些异同点呢?

相同点

1)均可以对数据进行降维;

2)在降维时均使用了矩阵特征分解的思想;

3)都假设数据符合高斯分布;

不同点

1)LDA是有监督的降维方法,而PCA是无监督的降维方法;

2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制;

3)LDA除了可以用于降维,还可以用于分类;

4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

· 偏最小二乘法及偏最小二乘法判别分析

PLS(partial least squares)偏最小二乘法是一种已被应用的监督方法,PLS方法中描述性的数据矩阵X(比如光谱测量值、微阵列芯片信号强度)可以被响应数据矩阵Y(比如生理指标测量值、样品重复信息)所提供的信息识别。然而,数据矩阵X中与数据矩阵Y不相关的系统变量可影响PLS分析模型,这将使得矩阵X、Y中的某些正相关被忽略。

· PLS-DA(Partial least squares-discriminant analysis)偏最小二乘判别分析

偏最小二乘回归分析法,通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个线性回归模型。

因为数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型。当Y是分类数据时称为“偏最小二乘判别分析(Partial least squares Discriminant Analysis, PLS-DA)”。

· 正交偏最小二乘法方法(orthogonal-PLS, OPLS)

OPLS是一种新近发展起来的将正交信号校正方法(orthogonal signal correction, OSC)与PLS进行结合,对PLS进行修正的分析方法。OPLS是一种类似于PLS的多变量预测监督方法,根据数据矩阵Y的差异,OPLS将数据矩阵X的差异分为两个部分,第一部分代表与Y相关的差异,第二部分代表与Y不相关(正交垂直)的差异,OPLS可将这两部分差异进行区分。

· O2PLS(Two-way Orthogonal PLS) two-way正交偏最小二乘法

O2PLS可在两个数据矩阵中进行双因素建模和预测。O2PLS模型最初于2003年由Trygg团队开发[1][2],是对两个数据矩阵(两组学)进行统计建模,预测两个矩阵中有潜在关联的数据集合(如有关联的基因和代谢物集合),是OPLS模型延伸而来。可以使用Simca-P软件(收费)或者Matlab一类商业软件分析。

结合其公式可知

X和Y分别代表2个组学的数据矩阵,在建立O2PLS模型的时候,会将这两组数据集的变量关系分解为以下3个部分:

(1)关联部分:Joint part,两组学有关联变化的部分

(2)正交部分:Orthogonal part,两组学数据彼此正交,互不相关

(3)噪音部分:Noise part,两组学的冗余信息

03

O2PLS的实现及应用

如上所述,Bouhaddani团队于2018年开发了基于开源的R包OmicsPLS的实现方法(Bouhaddani et al, 2018)[3]。   

假设我们有2组数据:微生物16S物种丰度数据,以及代谢物含量矩阵。

在对16S物种丰度和代谢物含量矩阵进行标准化(比如Z-score)后,将数据导入OmicsPLS包,通过统计建模,获取微生物和代谢物Joint Part在第一主成分和第二主成分的载荷矩阵,并图形化展示(如下图),图中越靠近外圈的因子(微生物和代谢物),为两组学关联越高的因子。

O2PLS载荷图

上图标注出了两组学中关联度最高的10个微生物和代谢物。

将上百个微生物和代谢物缩小到各自10个的范围,在进行后续相关性分析,就更有依据啦,而且由于条目的限制,作图也会更美观!

比如下图都是通过筛选到10个或者20个条目后,进一步分析得到的微生物和代谢物关联结果:

微生物和代谢物关联network图

微生物和代谢物关联heatmap图(1)

微生物和代谢物关联heatmap图(2)

当然了,O2PLS不仅可以用于微生物组和代谢组的关联,转录组、蛋白组也是适用的,想了解更多内容欢迎老师们联系我们哦~~

欧易生物已经建立从基因组、转录组、表观组到蛋白组、代谢组的完整多组学技术服务体系,如果想了解欧易更多有关多组学服务和分析内容,欢迎老师

官网对应链接(https://www.oebiotech.com/research/multiomics.html)

参考文献

[1] Trygg J, Wold S. O2‐PLS, a two‐block (X–Y) latentvariable regression (LVR) method with an integral OSC filter[J]. Journal of Chemometrics, 2003, 17(1): 53-64.

[2] Bouhaddani SE, et al. Evaluation of O2PLS in Omics data integration[J]. BMC bioinformatics. 2016, 17(S2):11.

[3] Bouhaddani SE, et al. Integrating omics datasets with the OmicsPLS package[J]. BMC Bioinformatics, 2018, 19(1).

[4] 线性判别分析LDA原理总结 - 刘建平Pinard - 博客园https://www.cnblogs.com/pinard/p/6244265.html


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved