干货 | 一文快速get GSEA富集分析是什么,怎么用?

2022-08-12 01:51:29, 小维 武汉迈特维尔生物科技有限公司


1

什么是GESA富集分析

GSEA,全称是Gene Set Enrichment Analysis,该方法发表于2005年的Gene set enrichment analysis: a knowledge-based approach forinterpreting genome-wide expression profiles,是一种基于基因集的富集分析方法。

2

为什么要做GESEA富集分析

提到基因的富集分析,我们首先会想到超几何分析。那么GSEA富集分析是什么,相比较超几何分布有什么优势呢?基于超几何分布的富集分析,进行富集分析时会出现两个问题:

(1)超几何分布依赖于显著上调或下调的基因,容易遗漏部分差异表达不显著但有重要生物学意义的基因。基因富集分析(GSEA)不需要指定明确的差异基因阈值,把基因按照在两组样本中的差异表达程度进行排序,然后采用统计学方法检验预先设定的基因集合是否在排序表的顶端或低段富集。

(2)常规的超几何富集分析富集到某个通路时会出现这种情况,这条通路既有上调的差异基因又有下调的差异基因,那么这条通路总体是被抑制还是激活是不清楚的。GSEA是基于基因集的富集分析方法,对基因表达量数据进行分析时,选择一个或多个功能基因集进行分析(以某个kegg通路为例,可以认为一个基因集),基因表达量的数据与表型或者不同样本的关联度进行排序,然后判断每个基因集内的基因是否位于基于表型相关度排序后的基因列表的上部或者下部,来判断词基因集内的基因协同变化对表型或不同处理样本的影响。

3

GSEA富集分析怎么看

(1)GSEA富集计算原理

GSEA主要包括三个步骤:计算富集得分(Enrichment Score);估计富集得分的显著性水平;多重假设检验。

GSEA输入的是两组样本的基因的表达量数据,找到两组样本的差异表达基因,根据Fold change进行排序,来直观展示不同基因在两组样本的变化趋势。排序之后,顶部的基因认为是A组上调的差异基因,底部基因认为是A组下调的差异基因。那么进行GSEA分析时,挑选的基因集的基因如果在这个列表顶部富集,可以认为这个基因集是上调趋势,如果在底部富集则是下调趋势(参看A,B图)

(2)GSEA图片分析结果解读

下图形是GSEA分析的标准图形,该图分为3部分,最上面部分为基因EnrichmentScore的折线图,从左至右,每个基因计算一个ES值,连成线。横轴为该基因下的每个基因,纵轴为对应基因的RunningES。 在折线图中有个峰值,该峰值就是这个基因集的Enrichemntscore。一般关注基因集的Enrichemntscore,峰出现在前端还是后端(ES值大于0在前端,小于0在后端),和Leading-edge subset (即对富集贡献最大的部分,领头亚集)。如果ES值大于0,则峰值前的基因为Leading-edge subset ;如果ES值小于0,则峰值后的基因为Leading-edge subset。在ES图中出现领头亚集的形状,表明这个功能基因集在某处理条件下具有更显著的生物学意义。如果峰值出现在正值处,认为峰值之前的基因就是该基因集下的核心基因。图中我们一般关注ES值,峰出现在前端还是后端(ES值大于0在前端,小于0在后端)以及Leading-edge subset(即对富集贡献最大的部分);在ES图中出现领头亚集的形状(红色虚线前),表明这个功能基因集在某处理条件下具有更显著的生物学意义。

中间部分为用线条标记位于基因集下的每个基因的位置,每个竖杠代表一个基因,竖杠的位置就是每个基因集里的基因在所有排序好的基因的位置。如果基因集里的基因集中在所有基因的前部分,就是在A组里面富集,如果集中在后面部分,就是在B组里面富集。最下面部分,展示的是所有基因在处理前后的变化量,一般是signal2noise值的排序后的z-score值,所有图片这里都是一样的。红色表示在A样本里表达量高,蓝色表示在B样本里表达量高。

(3)GSEA结果文件查看

结果查看:

day10与day0两组样本,其中day10样本3个生物学重复,day0样本3个生物学重复。4/299,代表的富集的基因集的数目和分析的基因集的总数。

在每个组别下富集到的基因集,从总体上看,其表达量在该组中高表达。

其中:GS为基因集的名字;SIZE代表该基因集下的基因总数;ES代表Enrichmentscore;NES代表归一化后的Enrichmentscore;NOM p-val代表pvalue,表征富集结果的可信度;FDR q-val代表qvalue,是多重假设检验矫正后的p值。(注意GSEA采用pvalue< 5%, qvalue < 25% 对结果进行过滤。)

针对某个条目,点Details可以跳转到每个基因集详细结果页面:Upregulated in class说明该基因集在Long-term这组中高表达。

这是对于该基因集下的每个基因给出了详细的统计信息,RANK IN GENE LIST代表该基因在排序号的列表中的位置;RANK METRIC SCORE代表该基因排序量的值,比如foldchange值;RUNNIG ES代表累计的Enrichment score,;CORE ENRICHMENT代表是否属于核心基因,即对该基因集的Enerchment score做出了主要贡献的基因,如果是yes ,则表明该基因的贡献度大。

4总结

GSEA富集分析已经成为一个富集分析计算比较成熟的工具,无论是获得某个通路或者GO条目的GSEA富集图还是通过GSEA获得差异分组中GO或者KEGG的富集的结果,GSEA都有着超几何分布不可比拟的优势,正在分析数据的伙伴可以尝试下了。

参考文献:

1. Kusano M ,  Fukushima A ,  Tabuchi-Kobayashi M , et al. Cytosolic GLUTAMINE SYNTHETASE1;1 Modulates Metabolism and Chloroplast Development in Roots 1 [OPEN][J]. Plant Physiology, 2020.

2. Yu Yongtao,Guo Shaogui,Ren Yi et al. Citrullus lanatusQuantitative Transcriptomic and Proteomic Analysis of Fruit Development and Ripening in Watermelon ().[J] .Front Plant Sci, 2022, 13: 818392.

精彩合集,欢迎收藏

‍●项目文章合集

●空间代谢组合集

●蛋白专题合集

●空间代谢组合集

●会议预告 | 技术革新 共创未来——蛋白组学研究前沿技术交流会

客服微信:metware888

咨询电话:027-62433042

邮箱:support@metware.cn

网址:www.metware.cn

我就知道你“在看”


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved