奔流到海不复回,STREAM带你了解细胞发育流向

2023-05-09 15:30:29, 欧易生物 上海欧易生物医学科技有限公司



古诗云:"黄河之水天上来,奔流到海不复回",细胞在发育过程中的分化趋势也如这河水,由胚胎干细胞( ESCs )逐渐发育为不同的组织和结构,最终分化成为高度特异性的组织器官。


但是细胞的分化和成熟是一个动态过程,具象化则体现在不同组织细胞的功能逐渐异质化,不同细胞基因的表达也呈现出不同的变化趋势。这种复杂变化并不是常规降维聚类可以区分的,为了更准确地解释这种动态变化,科研人员根据单细胞的数据特性开发出一些拟时序和假时间的分析算法,例如monocle,paga以及velocyte等。以上算法和相关软件,大都是基于基因表达或者推测每个细胞的动力学趋势来识别不同细胞的变化,无法根据亚群组成及连续过渡变化来刻画出整体细胞的发育轨迹。


基于以上需求,Wolf等人开发出一款新的轨迹分析软件-STREAM[1],它能够从单细胞数据中提取复杂的拓扑和几何特征,然后进行相对精确的假时间估量,进而更加可靠地重建大量细胞中的复杂细胞轨迹。软件于2019年发表在Nature Communications,目前已有近200的文章引用,相关代码和信息维护在 github.com/pinellolab/STREAM。



STREAM是一款开源python软件,通过ElPiGraph弹性主图算法[2]将高维数据映射到低维空间,可以从单细胞转录组和表观基因组数据中分离并可视化复杂的分支轨迹。


在scRNA单细胞数据的分析中,主要包括以下三步:

1. 选择细胞的特征信息(主成分or高变基因)及降维聚类;

2. ElPiGraph学习并拟合 tree-branch 结构;

3. 下游绘图和差异基因分析。


图1 STREAM分析步骤



1.选择细胞的特征信息及降维聚类

根据scRNA的表达矩阵,软件选取高变基因或topn的主成分作为细胞的特征信息,然后采用改进的局部线性嵌入非线性降维方法(MLLE[3])将细胞投影到较低维空间,最后以2D和3D的展示方式查看整体细胞的变化趋势,细胞类型相关的metadata信息也会整合并可视化(图2)。这里使用的MLLE降维方法,可以在将细胞映射到低维空间的同时又能保留局部流形结构。


图2 mlle 降维聚类可视化


此外,软件也可以出具tsne和umap的聚类展示结果,对比调整哪种降维方式更符合实际需求,官方建议降维聚类选择mlle或se。


2.ElPiGraph 同步学习并拟合 tree-branch 结构

降维聚类后会先使用 Kruskal 算法构建一个最小生成树 (MST) 作为初始树结构,如图3。然后用ElPiGraph 算法进行树分支结构拟合,不断的从候选分支结构中选择弹性能量最小的结构作为最佳结构(分支点最多50),最终得到图4的ElPiGraph 弹性主图(principal graph),该结构代表不同轨迹连续曲线的树结构。


图3 初始最小生成树

图4 分支结构拟合后弹性主图


表1为计算弹性主图后输出的假时间结果,第一列为细胞ID,label为分组信息,kmeans和node是弹性主图中该细胞的分群以及分支点位置,branch_id_alias 是细胞位于哪两个分支之间,后面的S*_pseudotime则是以该分支点为起始点的假时间细胞排序。


表1 不同分支点拟时序信息


最后我们可以根据图4的细胞分组信息和先验知识,指定某一部分细胞作为root细胞,绘制细胞流向图以及散点地铁图。这里我们展示的是分化中的血细胞数据,可以看出图5中细胞由最左侧的HSC细胞逐步分化为多能造血祖细胞和淋系倾向多潜能祖细胞,然后分化为谱系定向祖细胞。结合图5和图7,可以看出溪流图中的细胞分化趋势以及整体占比情况,基本和血液细胞分化模型吻合。



图5 指定root 后溪流图和地铁图


图6 指定root假时间图

图7 血液细胞分化层次模型


3.溪流图,地铁图和差异基因分析

确定了分支点和不同分支后,软件根据两个分支细胞间的基因表达均值来检测并识别出分支间的差异表达基因;与此同时,还会基于假时间前20%和后80%细胞的平均基因表达倍数变化,筛选出差异大于阈值的基因,并且计算所有细胞假时间和这些基因表达间的Spearman相关性。默认参数中,log2变化倍数>0.25的基因认为是差异基因,Spearman相关系数高于0.4的基因被定义为过渡变化基因。


图8 差异基因和过渡基因分析


差异基因中的greater 和less 分别为节点流向中前期高后期低表达基因和前期低后期高表达基因信息,表2中,U 为曼-惠特尼U检验结果,z_score为标准化的U分值,mean_up和mean_down 分别为两个分支中基因标准化后的表达均值,logfc为平均值计算的倍数变化。


表2 差异基因结果示例


过渡基因是在节点前后变化超过阈值且与假时间Spearman相关性较高的基因,如表3,stat 为相关性数值,其他列信息同差异基因。


表3 过渡基因结果示例


与其他软件相比,STREAM着重于拓扑正确性和伪时间准确性,从整体细胞去区分组间的连续过渡变化而不是针对某一个细胞去进行假时间分析,结果包含分支点的差异基因以及过渡基因,方便后期对假时间不同时间段细胞的功能筛选和定位。


参考文献

[1] Chen H , Albergante L  Hsu J Y , et al. Single-cell trajectories reconstruction, exploration and mapping of omics data with STREAM[J]. Nature Communications, 2019, 10(1).

[2] Albergante L ,  Mirkes E M ,  Chen H , et al. Robust And Scalable Learning Of Complex Dataset Topologies Via Elpigraph[J].  2018.

[3] Zhang Z , Jing W . MLLE: Modified Locally Linear Embedding Using Multiple Weights[C]// 2008:1593-1600.


上海欧易生物医学科技有限公司(简称:“欧易生物”),成立于2009年,经过十多年稳健发展,已经成长为拥有“晶准生物”“鹿明生物”“青岛欧易”三家全资子公司,近600名员工的生物科技领域集团型企业。


欧易生物始终秉持着“硬数据 · 好服务”的理念服务于大众。为大生命科学、大健康相关研究领域,以及医药、食品及日化企业的客户,提供从基础研究到药物靶点发现、药理药效及安全性评价、疾病分子标志物筛选、致病菌及耐药菌溯源等相关技术服务,全力加速客户研究与开发进程,提升客户研究与开发价值。


欧易生物携手旗下子公司,实现了中心法则上、中、下游多层组学的串联,从基因组、转录组、表观组、微生物组,到蛋白组、代谢组及近年热门的单细胞&空间多组学技术服务,为科研用户提供全面的创新多组学技术服务。



欧易生物已先后获得闵行区研发机构、闵行区企业技术中心、上海市科技小巨人企业、产权管理体系认证企业等资质。拥有授权发明专利30+项,在受理发明专利50+项,软件著作权150+项。


END

排版人:小久


原创声明:本文由欧易生物(OEBIOTECH)学术团队报道,本文著作权归文章作者所有。欢迎个人转发及分享,未经作者的允许禁止转载。


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved