多组学关联分析“重器”—— O2PLS

2022-07-15 08:35:22, 星标关注上海欧易生物医学科技有限公司

老师

小欧小欧快告诉我，我要怎么选择微生物和代谢物用于相关性分析呢？

小欧

老师，您好，我们建议的挑选原则可多了去了~

小欧

选择1：我们可以挑选物种丰度Top15的微生物，挑选VIP值降序排列的代谢物；

小欧

选择2：我们也可以从差异的微生物组和差异的代谢物中挑选；

小欧

选择3：当然也可以从我们关注的微生物和代谢物中指定哦~~

老师

小欧小欧，我犯了选择综合症怎么办？

老师

小欧

别怕，小欧再教您一招，让统计建模数据来说话！不用再纠结人为选择。隆重推荐—— O2PLS分析。

没错，他就是组学关联分析“重器”：O2PLS

O2PLS

分析

小欧接下来会从这几个方面来给各位介绍介绍O2PLS分析：

一、有监督模型和无监督模型

二、有监督模型之判别分析

三、O2PLS的实现及应用（emmmmmm重点对分析结果展示感兴趣，想略过原理的老师，欢迎直接跳到这部分~~ ^_^）

有监督模型和无监督模型

有监督模型

监督学习可以理解为，从“老师”那里获取知识、信息，“老师”提供对错指示、告知最终答案。在监督学习中，我们只需要给定输入样本集，机器就可以从中推演出指定目标变量的可能结果。机器只需从输入数据中预测合适的模型，并从中计算出目标变量的结果。要实现的目标是“对于输入数据X能预测变量Y”。

监督学习一般包括分类与回归两种类型。比如常见的线性回归、逻辑回归LR、决策树、支持向量机SVM等都是有监督模型。

无监督模型

无监督方法是指在没有“老师”的情况下，“学生”自学的过程。自学过程中对知识进行归纳、总结。无监督学习中，要回答的问题是“从数据X中能发现什么”。比如常见的PCA、NMDS、PCoA及一些聚类算法（如k-means聚类），这些都是无监督模型。

有监督模型之判别分析Discriminant Analysis（DA）

有监督模型判别分析常见几类：线性判别分析（LDA）、偏最小二乘法判别分析（PLS-DA）、正交偏最小二乘法判别分析（OPLS-DA）。

说到判别分析，我们不得不提一下在微生物中常用的LEfSe分析，就是结合使用了LDA分析，即线性判别分析。

· Linear discriminant Analysis（LDA）线性判别分析

LDA可用来降维，也可用来分类。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。如下图，比方说：我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别数据的类别中心之间的距离尽可能的大[4]。

PCA也是降维，那LDA和PCA之间有哪些异同点呢？

相同点

1）均可以对数据进行降维；

2）在降维时均使用了矩阵特征分解的思想；

3）都假设数据符合高斯分布；

不同点

1）LDA是有监督的降维方法，而PCA是无监督的降维方法；

2）LDA降维最多降到类别数k-1的维数，而PCA没有这个限制；

3）LDA除了可以用于降维，还可以用于分类；

4）LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。

· 偏最小二乘法及偏最小二乘法判别分析

PLS（partial least squares）偏最小二乘法是一种已被应用的监督方法，PLS方法中描述性的数据矩阵X（比如光谱测量值、微阵列芯片信号强度）可以被响应数据矩阵Y（比如生理指标测量值、样品重复信息）所提供的信息识别。然而，数据矩阵X中与数据矩阵Y不相关的系统变量可影响PLS分析模型，这将使得矩阵X、Y中的某些正相关被忽略。

· PLS-DA（Partial least squares-discriminant analysis）偏最小二乘判别分析

偏最小二乘回归分析法，通过投影分别将预测变量和观测变量投影到一个新空间，来寻找一个线性回归模型。

因为数据X和Y都会投影到新空间，PLS系列的方法都被称为双线性因子模型。当Y是分类数据时称为“偏最小二乘判别分析（Partial least squares Discriminant Analysis， PLS-DA）”。

· 正交偏最小二乘法方法（orthogonal-PLS, OPLS）

OPLS是一种新近发展起来的将正交信号校正方法（orthogonal signal correction, OSC）与PLS进行结合，对PLS进行修正的分析方法。OPLS是一种类似于PLS的多变量预测监督方法，根据数据矩阵Y的差异，OPLS将数据矩阵X的差异分为两个部分，第一部分代表与Y相关的差异，第二部分代表与Y不相关（正交垂直）的差异，OPLS可将这两部分差异进行区分。

· O2PLS（Two-way Orthogonal PLS） two-way正交偏最小二乘法

O2PLS可在两个数据矩阵中进行双因素建模和预测。O2PLS模型最初于2003年由Trygg团队开发[1][2]，是对两个数据矩阵（两组学）进行统计建模，预测两个矩阵中有潜在关联的数据集合（如有关联的基因和代谢物集合），是OPLS模型延伸而来。可以使用Simca-P软件（收费）或者Matlab一类商业软件分析。

结合其公式可知

X和Y分别代表2个组学的数据矩阵，在建立O2PLS模型的时候，会将这两组数据集的变量关系分解为以下3个部分：

（1）关联部分：Joint part，两组学有关联变化的部分

（2）正交部分：Orthogonal part，两组学数据彼此正交，互不相关

（3）噪音部分：Noise part，两组学的冗余信息

O2PLS的实现及应用

如上所述，Bouhaddani团队于2018年开发了基于开源的R包OmicsPLS的实现方法（Bouhaddani et al, 2018)[3]。

假设我们有2组数据：微生物16S物种丰度数据，以及代谢物含量矩阵。

在对16S物种丰度和代谢物含量矩阵进行标准化（比如Z-score）后，将数据导入OmicsPLS包，通过统计建模，获取微生物和代谢物Joint Part在第一主成分和第二主成分的载荷矩阵，并图形化展示（如下图），图中越靠近外圈的因子（微生物和代谢物），为两组学关联越高的因子。

O2PLS载荷图

上图标注出了两组学中关联度最高的10个微生物和代谢物。

将上百个微生物和代谢物缩小到各自10个的范围，在进行后续相关性分析，就更有依据啦，而且由于条目的限制，作图也会更美观！

比如下图都是通过筛选到10个或者20个条目后，进一步分析得到的微生物和代谢物关联结果：

微生物和代谢物关联network图

微生物和代谢物关联heatmap图（1）

微生物和代谢物关联heatmap图（2）

当然了，O2PLS不仅可以用于微生物组和代谢组的关联，转录组、蛋白组也是适用的，想了解更多内容欢迎老师们联系我们哦~~

欧易生物已经建立从基因组、转录组、表观组到蛋白组、代谢组的完整多组学技术服务体系，如果想了解欧易更多有关多组学服务和分析内容，欢迎老师

官网对应链接（https://www.oebiotech.com/research/multiomics.html）

参考文献

[1] Trygg J, Wold S. O2‐PLS, a two‐block (X–Y) latentvariable regression (LVR) method with an integral OSC filter[J]. Journal of Chemometrics, 2003, 17(1): 53-64.

[2] Bouhaddani SE, et al. Evaluation of O2PLS in Omics data integration[J]. BMC bioinformatics. 2016, 17(S2):11.

[3] Bouhaddani SE, et al. Integrating omics datasets with the OmicsPLS package[J]. BMC Bioinformatics, 2018, 19(1).

[4] 线性判别分析LDA原理总结 - 刘建平Pinard - 博客园https://www.cnblogs.com/pinard/p/6244265.html

星标关注的近期文章