2022-08-12 01:51:29, 小维 武汉迈特维尔生物科技有限公司
1
什么是GESA富集分析
GSEA,全称是Gene Set Enrichment Analysis,该方法发表于2005年的Gene set enrichment analysis: a knowledge-based approach forinterpreting genome-wide expression profiles,是一种基于基因集的富集分析方法。
2
为什么要做GESEA富集分析
提到基因的富集分析,我们首先会想到超几何分析。那么GSEA富集分析是什么,相比较超几何分布有什么优势呢?基于超几何分布的富集分析,进行富集分析时会出现两个问题:
(1)超几何分布依赖于显著上调或下调的基因,容易遗漏部分差异表达不显著但有重要生物学意义的基因。基因富集分析(GSEA)不需要指定明确的差异基因阈值,把基因按照在两组样本中的差异表达程度进行排序,然后采用统计学方法检验预先设定的基因集合是否在排序表的顶端或低段富集。
(2)常规的超几何富集分析富集到某个通路时会出现这种情况,这条通路既有上调的差异基因又有下调的差异基因,那么这条通路总体是被抑制还是激活是不清楚的。GSEA是基于基因集的富集分析方法,对基因表达量数据进行分析时,选择一个或多个功能基因集进行分析(以某个kegg通路为例,可以认为一个基因集),基因表达量的数据与表型或者不同样本的关联度进行排序,然后判断每个基因集内的基因是否位于基于表型相关度排序后的基因列表的上部或者下部,来判断词基因集内的基因协同变化对表型或不同处理样本的影响。
3
GSEA富集分析怎么看
(1)GSEA富集计算原理
GSEA主要包括三个步骤:计算富集得分(Enrichment Score);估计富集得分的显著性水平;多重假设检验。
GSEA输入的是两组样本的基因的表达量数据,找到两组样本的差异表达基因,根据Fold change进行排序,来直观展示不同基因在两组样本的变化趋势。排序之后,顶部的基因认为是A组上调的差异基因,底部基因认为是A组下调的差异基因。那么进行GSEA分析时,挑选的基因集的基因如果在这个列表顶部富集,可以认为这个基因集是上调趋势,如果在底部富集则是下调趋势(参看A,B图)
(2)GSEA图片分析结果解读
下图形是GSEA分析的标准图形,该图分为3部分,最上面部分为基因EnrichmentScore的折线图,从左至右,每个基因计算一个ES值,连成线。横轴为该基因下的每个基因,纵轴为对应基因的RunningES。 在折线图中有个峰值,该峰值就是这个基因集的Enrichemntscore。一般关注基因集的Enrichemntscore,峰出现在前端还是后端(ES值大于0在前端,小于0在后端),和Leading-edge subset (即对富集贡献最大的部分,领头亚集)。如果ES值大于0,则峰值前的基因为Leading-edge subset ;如果ES值小于0,则峰值后的基因为Leading-edge subset。在ES图中出现领头亚集的形状,表明这个功能基因集在某处理条件下具有更显著的生物学意义。如果峰值出现在正值处,认为峰值之前的基因就是该基因集下的核心基因。图中我们一般关注ES值,峰出现在前端还是后端(ES值大于0在前端,小于0在后端)以及Leading-edge subset(即对富集贡献最大的部分);在ES图中出现领头亚集的形状(红色虚线前),表明这个功能基因集在某处理条件下具有更显著的生物学意义。
中间部分为用线条标记位于基因集下的每个基因的位置,每个竖杠代表一个基因,竖杠的位置就是每个基因集里的基因在所有排序好的基因的位置。如果基因集里的基因集中在所有基因的前部分,就是在A组里面富集,如果集中在后面部分,就是在B组里面富集。最下面部分,展示的是所有基因在处理前后的变化量,一般是signal2noise值的排序后的z-score值,所有图片这里都是一样的。红色表示在A样本里表达量高,蓝色表示在B样本里表达量高。
(3)GSEA结果文件查看
结果查看:
day10与day0两组样本,其中day10样本3个生物学重复,day0样本3个生物学重复。4/299,代表的富集的基因集的数目和分析的基因集的总数。
在每个组别下富集到的基因集,从总体上看,其表达量在该组中高表达。
其中:GS为基因集的名字;SIZE代表该基因集下的基因总数;ES代表Enrichmentscore;NES代表归一化后的Enrichmentscore;NOM p-val代表pvalue,表征富集结果的可信度;FDR q-val代表qvalue,是多重假设检验矫正后的p值。(注意GSEA采用pvalue< 5%, qvalue < 25% 对结果进行过滤。)
针对某个条目,点Details可以跳转到每个基因集详细结果页面:Upregulated in class说明该基因集在Long-term这组中高表达。
这是对于该基因集下的每个基因给出了详细的统计信息,RANK IN GENE LIST代表该基因在排序号的列表中的位置;RANK METRIC SCORE代表该基因排序量的值,比如foldchange值;RUNNIG ES代表累计的Enrichment score,;CORE ENRICHMENT代表是否属于核心基因,即对该基因集的Enerchment score做出了主要贡献的基因,如果是yes ,则表明该基因的贡献度大。
4总结
GSEA富集分析已经成为一个富集分析计算比较成熟的工具,无论是获得某个通路或者GO条目的GSEA富集图还是通过GSEA获得差异分组中GO或者KEGG的富集的结果,GSEA都有着超几何分布不可比拟的优势,正在分析数据的伙伴可以尝试下了。
参考文献:
1. Kusano M , Fukushima A , Tabuchi-Kobayashi M , et al. Cytosolic GLUTAMINE SYNTHETASE1;1 Modulates Metabolism and Chloroplast Development in Roots 1 [OPEN][J]. Plant Physiology, 2020.
2. Yu Yongtao,Guo Shaogui,Ren Yi et al. Citrullus lanatusQuantitative Transcriptomic and Proteomic Analysis of Fruit Development and Ripening in Watermelon ().[J] .Front Plant Sci, 2022, 13: 818392.
精彩合集,欢迎收藏
●项目文章合集
●空间代谢组合集
●蛋白专题合集
●空间代谢组合集
●会议预告 | 技术革新 共创未来——蛋白组学研究前沿技术交流会
客服微信:metware888
咨询电话:027-62433042
邮箱:support@metware.cn
网址:www.metware.cn
我就知道你“在看”
07-01 英斯特朗
连载 | 药物一致性评价与粒度分析(三)07-01 欧美克仪器
【仪器百科】LS-909丨干湿二合一激光粒度分析仪07-01 欧美克仪器
标准物质解决方案 | PFASs(全氟及多氟化合物)06-29
第九期阿尔塔有约 | 环境专题【新污染物:PFAS】技术研讨会精彩回顾及提问解答06-29
“绿色技术范式”,分析化学未来发展方向——访中国分析测试协会副理事长、辽宁省分析科学研究院原院长刘成雁教授06-29 转载仪器信息网
华西医院-标准型数显脑立体定位仪、双通道体温维持仪、体式显微镜安装完成06-29 迈越生物
科鉴检测助力2家仪器企业获得首批产品可靠性认证证书06-28 科鉴检测
德国耶拿:锂电池生命周期分析解决方案06-28 德国耶拿
AI已来!生命科学本科教学如何紧跟技术浪潮06-28 Opentrons
盛瀚售后,五星级服务的秘诀是什么?06-28 SHINE
专为汽车制造商打造的柔性解决方案——实现制程控制06-28
西北工业大学-脑立体定位仪安装完成06-28 迈越生物
会议邀请 | 第九届海上检验医师论坛06-28
卓立要闻 | 创新发展ing…6月卓立“大事小情”速览06-28 光电行业都会关注
打造信任合作伙伴!2024年度卓立汉光客户满意度调查开启06-28 光电行业都会关注
如何挑选适用于三阶光学非线性的测量系统?Z扫描测量系统来助力!06-28 光电行业都会关注
招聘启事—中国科学院沈阳自动化研究所微纳光学测量表征技术课题组06-28 光电行业都会关注
谱育科技作为主要完成方 荣获2023年度国家科学技术进步一等奖和二等奖06-28 点击关注→
仪器原理丨顶空仪与吹扫捕集仪科普小知识06-28 天美色谱