微生物专题 | 16S文章中高频出现的关键分析内容解析

2022-04-14 16:14:24, 小迈 武汉迈特维尔生物科技有限公司



微生物16S结题报告里面的分析内容非常丰富,包含各种复杂的分析方法、算法和统计学概念。本文根据已发表文献(16S或者16S+代谢组)中出现的次数,从中挑出以下7项常见分析内容进行重点解析,助您从冗长的结题报告中快速筛选出核心分析内容,用于文章撰写。


1. 相对丰度柱形图(用于查看优势物种类型和丰度)

根据物种注释结果,选取每个样本或分组在各分类水平(Phylum、Class、Order、Family、Genus)上最大丰度排名前10 的物种,生成物种相对丰度柱形累加图,以便直观查看各样本在不同分类水平上,相对丰度较高的物种及其比例。


 

门水平相对丰度柱形图(左图为样本,右图为组)

横坐标是样本名(组名);纵坐标(RelativeAbundance)表示相对丰度;Others表示图中这 10个门之外的其他所有门的相对丰度之和



2. α多样性(用于分析样本内物种多样性)

α多样性用于分析样本内(Within-community)的微生物群落多样性,通过单样本的多样性分析(Alpha多样性)可以反映样本内的微生物群落的丰富度和多样性。在结题报告中,采用7种常用指数来度量α多样性:Observedspecies、Chao1和Ace反映样本中物种丰富度,但不考虑每个物种的均匀度(物种的占比情况);Shannon、Simpson、goodscoverage和PDwhole tree即反映物种的丰富度也反映物种均匀度。



同时,α多样性指数箱型图,用于分析α多样性组间差异,可以直观的反映组内物种多样性的中位数、离散程度、最大值、最小值、异常值。通过T-test、wilcox、Tukey、Kruskal-Wallis检验(只有 2个分组时进行 T-test和 wilcox秩和检验,分组大于 2时进行 Tukey和 Kruskal-Wallis检验)分析组间物种多样性差异是否显著。以observed_species 和shannon指数为例,其组间差异分析的箱形图如下:


 

observed_species和shannon指数组间差异箱形图



3. β多样性(用于分析样本间物种组成差异)

β多样性是度量不同样本间菌群组成的相似度大小的指标,即关注各样本间的菌群组成差异。只有当样本(组)间菌群组成存在差异,才有可能进一步探讨菌群与疾病(不同处理条件)的关系。在报告中,采用PCA、PCoA、NMDS三种分析方法来考察和区分样本间的菌群组成差异。


首先根据所有样本的物种注释结果和OTUs的丰度信息,将相同分类的OTUs 信息合并处理得到物种丰度信息表(ProfilingTable)。同时利用 OTUs之间的系统发生关系,进一步计算Unifrac 距离(UnweightedUnifrac)。Unifrac距离是一种利用各样本中微生物序列间的进化信息计算样本间距离,两个以上的样本,则得到一个距离矩阵。然后,利用OTUs 的丰度信息对Unifrac 距离(UnweightedUnifrac)进一步构建Weighted Unifrac 距离。最后,通过多变量统计学方法主成分分析(PCA,PrincipalComponent Analysis),主坐标分析(PCoA,PrincipalCo-ordinates Analysis),无度量多维标定法(NMDS,Non-MetricMulti-Dimensional Scaling),非加权组平均聚类分析(UPGMA,UnweightedPair-group Method with Arithmetic Means)分析以及Beta 多样性指数组间差异分析等方法,从中发现不同样本(组)间的差异。


 

β多样性分析(PCA、PCoA、NMDS)


上图中每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的物种组成结构越相似,落构成差异越小。PCA/PCoA图中:横坐标表示主成分1,纵坐标表示主成分2,百分比表示主成分对样本差异的贡献值;NMDS图中:Stress小于0.2时,说明可以准确反映样本间的差异程度。由于每个项目的实验设计和样本菌群组成差异巨大,无法预先知道哪种β多样性分析方法是将样本间菌群差异区分开的最优方法。因此,在报告中提供了多种β多样性分析方法和图片,在撰写文章时,您只需从中选出最能解释生物学问题的图片展示在文章中即可。



4. Lefse分析(筛选Biomarker)

通过前面的分析找到有显著差异的两组之后,需要知道两组之间的差异是由哪些菌群引起的,即差异微生物的筛选,也是biomarker的筛选。LefSe分析(LDAEffectSize)是一种用于发现和解释高维度生物标识(基因、通路和分类单元)的分析工具,可以用于进行两个或多个分组的比较,它强调统计意义和生物相关性,能够在组与组之间寻找具有统计学差异的Biomarker。


 

左:LDA值分布柱形图;右:物种分类学分枝图



左图LDA值分布柱状图中展示了LDA Score 大于设定值(默认设置为4)的物种,即组间具有统计学差异的Biomarker。展示了不同组中丰度差异显著的物种,柱状图的长度代表差异物种的影响大小(即为LDAScore),柱状图的颜色代表各自的组别;右分支图中,由内至外辐射的圆圈代表了由门至属(或种)的分类级别。在不同分类级别上的每一个小圆圈代表该水平下的一个分类,小圆圈直径大小与相对丰度大小呈正比。着色原则:无显著差异的物种统一着色为黄色,差异物种Biomarker跟随组进行着色,红色节点表示在红色组别中起到重要作用的微生物类群,绿色节点表示在绿色组别中起到重要作用的微生物类群,若图中某一组缺失,则表明此组中并无差异显著的物种,故此组缺失。图中英文字母表示的物种名称在右侧图例中进行展示



5. 随机森林分析(biomarker验证)

随机森林属于集成类型的机器学习算法,利用自助聚集(bootstrapaggregating)重抽样方法从原始样本中有放回的抽取多个样本作为训练集,对训练集进行决策树建模,然后组合多个决策树的预测,通过投票得出最终预测结果。


 

变量重要性排序图



左图MeanDecreaseAccuracy衡量把一个变量的取值变为随机数,随机森林预测准确性的降低程度。该值越大表示该变量的重要性越大。横坐标:平均下降准确度,纵坐标:排名前50重要物种;右图MeanDecreaseGini通过基尼(Gini)指数计算每个变量对分类树每个节点上观测值的异质性的影响,从而比较变量 的重要性。该值越大表示该变量的重要性越大。横坐标:平均下降Gini指数,纵坐标:排名前50重要物种。


根据随机森林方法筛选出的最佳模型,绘制ROC曲线,ROC是一种常用的统计学分析方法,在医学研究中主要用于评价诊断试验的效能。在报告中,通过绘制ROC曲线,并计算ROC曲线下面积(AUC),来确定哪种菌(群)具有最佳的诊断价值。


 

ROC曲线


横坐标:假阳性(Specificity)比例,纵坐标:真阳性(Sensitivity)比例,ROC曲线越靠近左上角,试验的准确性就越高。若AUC值为1.0,反映出对两个群组的完美区分,且不存在预测误差。若AUC值在1.0和0.5之间,在AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好。AUC在0.5~0.7时有较低准确性,AUC在0.7~0.9时有一定准确性,AUC在0.9以上时有较高准确性。AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。AUC<0.5不符合真实情况,在实际中极少出现。



6. Network分析

共发生网络图为研究复杂微生物环境的群落结构和功能提供了新的视角。由于不同环境下微生物的共发生关系截然不同,通过物种共发生网络图,可以直观看出不同环境因素对微生物适应性的影响,以及某个环境下占互作主导地位的优势物种、互作紧密的物种群,这些优势物种以及物种群往往对维持该环境的微生物群落结构和功能稳定发挥着独特以及重要的作用。


 

Network图


不同节点代表不同属,节点大小代表该属的平均相对丰度,相同门的节点颜色相同(如图例所示),节点之间的连线的粗细与物种互作的相关系数绝对值正相关,连线颜色和相关性的正负对应(红色正相关,蓝色负相关)



7. 功能聚类热图

通过不同软件和数据库对16S测序数据进行功能预测,能初步分析菌群组成变化与疾病或表型是如何关联在一起的,迈维代谢可以提供4种功能预测软件供大家选择,PICRUSt2、Tax4Fun2、FAPROTAX、BugBase。如果需要系统研究菌群的基因及其功能,建议做宏基因组测序。


功能聚类热图是根据样品在数据库中的功能注释及丰度信息,选取丰度排名前35 的功能及它们在每个样品中的丰度信息绘制热图,并从功能差异层面进行聚类。



上图中横向表示功能,纵向表示样本,格子表征相对丰度,颜色越红表示相对丰度越高,越蓝表示相对丰度越低,同时对功能和样本做了聚类。从中可以筛选出与疾病或者表型相关的功能与组间差异的关系,分析菌群组成变化与疾病或表型是如何关联在一起的。



到这里,微生物组16S文章撰写需要的主要结果就齐全了,结题报告的其他分析内容也都有各自的生物学意义,个性化的分析内容会根据研究者的具体需求进行提供。


99%的代谢组学研究者都在阅读下文:

视频实操SCI作图课(3):OPLS-DA分析,组间差异的挖掘神器

干货 | 代谢组数据预处理(二):巧踢离群值,让你的数据会说话

大爆发!平均IF>10 | 项目文章(大湾区)遍地开花

大爆发!平均IF=15 | 项目文章(武汉地区)遍地开花


客服微信:metware888

咨询电话:027-62433042

邮箱:support@metware.cn

网址:www.metware.cn

我就知道你“在看”


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved