高分文章中的GSEA富集分析大揭秘

2022-08-20 06:16:21, 小维 武汉迈特维尔生物科技有限公司


点击跳转活动链接

1

 什么是GESA富集分析


GSEA,全称是GeneSet Enrichment Analysis,该方法发表于2005年的Geneset enrichment analysis: a knowledge-based approach forinte-rpreting genome-wide expression profiles,是一种基于基因集的富集分析方法。


2

 为什么要做GESEA富集分析


提到基因的富集分析,我们首先会想到超几何分析。那么GSEA富集分析是什么,相比较超几何分布有什么优势呢?


基于超几何分布的富集分析,进行富集分析时会出现两个问题:

(1)超几何分布依赖于显著上调或下调的基因,容易遗漏部分差异表达不显著但有重要生物学意义的基因。基因富集分析(GSEA)不需要指定明确的差异基因阈值,把基因按照在两组样本中的差异表达程度进行排序,然后采用统计学方法检验预先设定的基因集合是否在排序表的顶端或底端富集。

(2)常规的超几何富集分析富集到某个通路时会出现这种情况,这条通路既有上调的差异基因又有下调的差异基因,那么这条通路总体是被抑制还是激活是不清楚的。GSEA是基于基因集的富集分析方法,对基因表达量数据进行分析时,选择一个或多个功能基因集进行分析(以某个kegg通路为例,可以认为一个基因集),基因表达量的数据与表型或者不同样本的关联度进行排序,然后判断每个基因集内的基因是否位于基于表型相关度排序后的基因列表的上部或者下部,来判断词基因集内的基因协同变化对表型或不同处理样本的影响。


3

 GSEA富集分析计算原理


GSEA主要包括三个步骤:计算富集得分(EnrichmentScore);估计富集得分的显著性水平;多重假设检验。


GSEA输入的是两组样本的基因的表达量数据,找到两组样本的差异表达基因,根据Foldchange进行排序,来直观展示不同基因在两组样本的变化趋势。排序之后,顶部的基因认为是A组上调的差异基因,底部基因认为是A组下调的差异基因。那么进行GSEA分析时,挑选的基因集的基因如果在这个列表顶部富集,可以认为这个基因集是上调趋势,如果在底部富集则是下调趋势(参看AB图)




(1)GSEA图片分析结果解读

下图形是GSEA分析的标准图形,该图分为3部分,最上面部分为基因EnrichmentScore的折线图,从左至右,每个基因计算一个ES值,连成线。横轴为该基因下的每个基因,纵轴为对应基因的RunningES。 在折线图中有个峰值,该峰值就是这个基因集的Enrichemntscore。一般关注基因集的Enrichemntscore,峰出现在前端还是后端(ES值大于0在前端,小于0在后端),和Leading-edgesubset (即对富集贡献最大的部分,领头亚集)。如果ES值大于0,则峰值前的基因为Leading-edgesubset ;如果ES值小于0,则峰值后的基因为Leading-edgesubset。在ES图中出现领头亚集的形状,表明这个功能基因集在某处理条件下具有更显著的生物学意义。如果峰值出现在正值处,认为峰值之前的基因就是该基因集下的核心基因。


图中我们一般关注ES值,峰出现在前端还是后端(ES值大于0在前端,小于0在后端)以及Leading-edgesubset(即对富集贡献最大的部分);在ES图中出现领头亚集的形状(红色虚线前),表明这个功能基因集在某处理条件下具有更显著的生物学意义。


中间部分为用线条标记位于基因集下的每个基因的位置,每个竖杠代表一个基因,竖杠的位置就是每个基因集里的基因在所有排序好的基因的位置。如果基因集里的基因集中在所有基因的前部分,就是在A组里面富集,如果集中在后面部分,就是在B组里面富集。最下面部分,展示的是所有基因在处理前后的变化量,一般是signal2noise值的排序后的z-score值,所有图片这里都是一样的。红色表示在A样本里表达量高,蓝色表示在B样本里表达量高。




(2)GSEA结果文件查看

点击汇总的html结果:index.html


day10day0两组样本,其中day10样本3个生物学重复,day0样本3个生物学重复。4/299,代表的富集的基因集的数目和分析的基因集的总数。

在每个组别下富集到的基因集,从总体上看,其表达量在该组中高表达。点击enrichmentresults in html,可以在网页查看富集的结果。



其中:GS为基因集的名字;SIZE代表该基因集下的基因总数;ES代表EnrichmentscoreNES代表归一化后的EnrichmentscoreNOMp-val代表pvalue,表征富集结果的可信度;FDRq-val代表qvalue,是多重假设检验矫正后的p值。(注意GSEA采用pvalue<5%, qvalue < 25% 对结果进行过滤。)


针对某个条目,点Details可以跳转到每个基因集详细结果页面:Upregulatedin class说明该基因集在Long-term这组中高表达。



这是对于该基因集下的每个基因给出了详细的统计信息,RANKIN GENE LIST代表该基因在排序号的列表中的位置;RANKMETRIC SCORE代表该基因排序量的值,比如foldchange值;RUNNIGES代表累计的Enrichmentscore,COREENRICHMENT代表是否属于核心基因,即对该基因集的Enerchmentscore做出了主要贡献的基因,如果是yes,则表明该基因的贡献度大。



4

 GSEA富集分析怎么用

应用案例

在阿尔茨海默病中,铁转运丧失通过促进铁死亡而诱导记忆障碍



研究摘要

铁稳态紊乱与阿尔茨海默病(AD)有关,过量的铁会加剧氧化损伤和认知缺陷。铁死亡是一种依赖于细胞内铁的非凋亡形式的细胞死亡。然而,铁死亡在AD发病机制中的作用仍不明确。在这里,本文报道了APPswe/PS1dE9小鼠作为阿尔茨海默病小鼠模型和阿尔茨海默症患者的大脑中,唯一确定的哺乳动物非血红素铁输出物——膜铁转运蛋白下调。将Fpnfl/fl小鼠与NEX-Cre小鼠杂交后,新皮质和海马主要神经元Fpn基因缺失导致阿尔茨海默症样海马萎缩和记忆缺陷。有趣的是,在Fpnfl/fl/NEXcre和阿尔茨海默症小鼠中观察到铁死亡典型的形态学和分子特征。对缺铁相关转录组数据的基因集富集分析(Geneset enrichment analysis, GSEA)显示,AD相关基因集中差异表达基因高度富集。此外,在体外和体内,应用特异性的铁死亡抑制剂可有效降低聚集诱导的神经元死亡和记忆障碍。此外,恢复Fpn可改善APPswe/PS1dE9小鼠的铁死亡和记忆障碍。我们的研究证明了Fpn和铁死亡在AD进展中的关键作用,从而为该病提供了有前景的治疗方法。


文中对GSEA富集分析的描述


参考文献:

Bao W D ,  Pang P ,  Zhou X T , et al. Loss of ferroportin induces memory impa-irment by promoting ferroptosis in Alzheimer''s disease[J]. Cell Death and Differentiation, 2021(Suppl 1).


福利
免费申请《空间代谢组》书籍


点击跳转到活动赠书页面


客服微信:metware888

咨询电话:027-62433042

邮箱:support@metware.cn

网址:www.metware.cn


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved