基于悟空云平台的蛋白质组和代谢组数据分析（九统计分析.之.主成分分析）

2025-03-25 14:41:23, 诗盛上海易算生物科技有限公司

本系列的基本逻辑路线：原始数据由来--->原始数据获取--->搜库获得表格数据--->表格数据分析（数据质量控制-->单元多元统计分析-->富集分析等等）。所以建议刚看的伙伴们从第一回看起。

后续所使用的分析工具主要是由本人亲手编写的“悟空云平台”，也不要忘了本平台的金牌赞助商---Omicsolution（http://www.omicsolution.com/），也请大家多多支持该司的业务。

欢迎大家加入我建立的QQ群：688728477~~在群里大家可以任意提问与解答相关的问题。也鼓励小伙伴们付费咨询群主，群主可以手把手教你玩数据~~

请大家关注转发，欢迎更多的小伙伴“入坑”，这个领域需要你的力量~~

往期回顾：

《基于悟空云平台的蛋白质组和代谢组数据分析（蛋白质组一）》

《基于悟空云平台的蛋白质组和代谢组数据分析（二原始数据获取）》

《基于悟空云平台的蛋白质组和代谢组数据分析（三蛋白质组数据搜库）》

《基于悟空云平台的蛋白质组和代谢组数据分析（四代谢组原始数据处理）》

《基于悟空云平台的蛋白质组和代谢组数据分析（五数据预处理/前处理.之.数据筛选）》

《基于悟空云平台的蛋白质组和代谢组数据分析（六数据预处理/前处理.之.数据质量控制）》

《基于悟空云平台的蛋白质组和代谢组数据分析（七数据预处理/前处理.之.数据标准化）》

《基于悟空云平台的蛋白质组和代谢组数据分析（八统计分析.之.假设检验）》

~~~~~~

书接上回，上回我们聊到了假设检验，从这些方法中我们可以得到一个常用的筛选差异表达物的指标---P值，并且本人也建议，当你的对象（蛋白质、代谢物或者基因等等）个数比较多时，这时候应该使用校正以后的P值。此外，我们也提到，在这个过程中，我们也可以直接得到两组样本的比值，即倍数变化（Fold Change，简称FC），这是我们用来筛选差异表达物常用的第二个指标。

那么接下来，我们接着聊多元统计分析中常用的主成分分析（Principal Component Analysis，简称PCA）。其原理我在这里就不做介绍了，网上资料实在是太多，感兴趣的话，也可以看下下面这篇文章，个人觉得讲的也是很不多的：

但我们需要知道的是，PCA是一种线性组合原始指标的无监督方法，也就是不会预先告诉模型类别标签的情况，模型在求解的时候也不会用到这个信息。在进行PCA求解的时候，核心是用到了奇异值分解（https://en.wikipedia.org/wiki/Singular_value_decomposition），比如在R语言中，我们常用的是prcomp函数，我们可以查看下其源代码：

如果暂时看不懂的话，没关系的，知道怎么去用就好，至于原理部分，可以后续慢慢去研究。

其用处也是我们常乐道的“降维”~~那么在我们蛋白质组、代谢组亦或基因组数据分析领域，其常用来画一个2维或者3维得分图，看下样本的分布情况，像这样：

其背后的逻辑就是，同一组处理下的每一个生物学重复中，蛋白质、代谢物亦或基因表达量应该相近，那么在这种得分图中，他们应该离的比较近，并且不同组之间相距应该比较远。这样的话，才说我们的实验数据结果相对比较好。比如一个控制组和给药组的数据，如果在这种图中，不同组的样本交叉混合在一起了，很有可能说明：

1. 实验过程人员操作不严谨？样本搞混淆了？

2. 加的药根本没有任何用？药品买的是假货？

3. 数据处理过程不恰当？

4. 数据处理方法没有选择合适？

5. ......

这些有可能的问题都值得我们反思一下。所以，这也是我们在做代谢组数据分析时，用Quality Control（QC）的样本，来评价数据质量（比如批次效应处理的情况）的一种形式：

那么在悟空云平台怎么做呢？

首先，还是用电脑打开官网：http://www.omicsolution.org/wu-kong-beta-linux/main/，在“功能圈”的“统计分析”模块中，找到“PCA分析”：

其次，打开对应的模块：

还是那样，如果你不导入你自己的数据，这里给出的就是示例数据，你的数据形式应该跟示例数据保持一致。现在假设我们导入自己的数据（前几回那个细胞的数据，应该都还记得吧~~）：

然后，我们就要根据我们这个数据情况来简单设置下参数了，前面说这个，这个数据是有4种细胞，也就是4组，每一组生物学重复3次。所以这里的参数设置应该如下：

再次强调一点：这里，我们的样本有4组，所以类别名称应该有4个，颜色应该也选中4个！

最后就是点击对应的结果按钮，结果就直接算出来：

1. 碎石图：

该图展示每一个主成分占比的分布情况。

2. 2维得分图：

这个就是我们经常在文献里面看到的图形形式。

3. 载荷结果和得分结果表格：

这里的载荷表格给出的是一种系数，反映的是每一个蛋白质与主成分的相关性，这也是画后面载荷图以及载荷网络图的数据来源。主成分得分结果就是每一个样本在每一个主成分中的得分值，前两列数值也就是用来画上面说的得分图。不过这里多说一句，二维得分图，我们经常看到的是用第一主成分和第二主成分的得分来画，但是不说一定就要用这两个，这个表中，任何2列都可以用来画那种得分图，或者3列来画3维图！

4. 载荷图：

这里需要注意的是，当导入的数据量比较大时，也就是行数太多，这里会给一个提示，说的是，在计算的过程中，计算比较耗时:

如果你不介意多等一会，那么就勾上下面的选项（导入的数据越多，需要计算的时间越长），比如数据比较多的时候，给出的图是这样的：

是的，你没有看错，就是这样一坨，其表达的意思就是越红表示该蛋白质对主成分的贡献（或者相关性）越大~~所以当数量比较大的时候，这种图的可读性几乎就没有了。不过还是看你个人喜好。

当数据量少一点时：

是不是就容易看一些！~

5. 载荷网络图：

这个跟载荷图表达的意思一样，就是另外一种表达形式而已，所以当数据量比较多的时候，也会给一个提示：

如果你不介意，最后算出来的结果大体像这样子：

可读性也不高，中间的每一个白点就表示一个主成分，外面一圈就是每一个蛋白质，越红色表示越正贡献（或者正相关），越蓝表示越负相关。

当数据量少一些时：

结果显示稍微清晰一些~~

~~~~~~

这就是做PCA分析常用的一些结果展现。当然，PCA的用处远不止我上面说的这些，基于PCA的方法（亦或是奇异值分解）延伸的其他的方法也不少。以后有机会咱们再聊其他的，至少现在这些基本的，常用的咱们要掌握好。

---------

PCA分析是一种无监督方法，不预先考虑类别标签。那么有没有预先就考虑类别标签的方法呢？！是有的，咱们下回继续聊。

预知后事如何，且听下回唠嗑~~

---------

让人人都方便分析自己的数据！本人致力于打造一款国内较为实用的数据分析云平台(http://www.omicsolution.org/wu-kong-beta-linux/main/)，为广大国内有需求的小伙伴提供帮助，也感谢大家关注转发，以求帮助更多的人，谢谢
关注一下又不会怀孕，哈哈。。。

平台目前包含的工具（还在持续更新中...）：