免费用!不会生信也能用的单细胞分析工具

2021-11-10 19:50:55, HHY 上海吉凯基因医学科技股份有限公司


近年来,单细胞测序的快速发展极大推进了我们对生物系统的认知。这项技术的巨大潜力促使计算生物学家开发了一系列的分析工具,但大部分分析工具要求编程背景。今天,小编为大家介绍一款免费且几乎不需要编程背景,即可实现单细胞分析的工具,cellxgene。


Cellxgene有两个产品,cellxgene data portal用于探索已发表的数据;cellxgene desktop用于探索个人单细胞数据。小编主要对cellxgene desktop进行描述,并在接下来的内容中简称为cellxgene。


单细胞分析过程中,包含测序结果的fastq文件转化为细胞-基因表达量矩阵、质控(Quality Control)结束后即可进行聚类(Clustering)。聚类将表达模式相近的细胞归为一类,并给每个细胞分群分配一个数字ID(Fig. 1a)。为每个由数字代表的细胞群打上一个代表细胞身份的标签的过程称为细胞类型注释(Fig. 1b),该过程有助于从生物学角度理解聚类结果。Cellxgene即可实现为细胞打标签的过程。此外,cellxgene还可实现成分分析,差异分析等,本篇小指南主要从细胞类型注释和成分分析两方面介绍。


 Fig. 1 利用cellxgene实现细胞类型注释



个人数据


如果你的数据是h5ad格式并满足一定要求,则该数据可直接被cellxgene使用。


h5ad文件
h5ad文件提供了一种可扩展的方式来记录数据及其注释 (annotation)。单细胞测序的h5ad被分割成X, obs, var, uns等多个部分 (Fig. 2),分别存储不同的信息。其中X是表达量矩阵;obs包含细胞元数据,即从不同方向描述细胞的结果,例如细胞所属tissue;var包含基因元数据,即从不同方向描述基因的结果,X, obs, var均以dataframe格式存储;uns是非结构化注释,更多解释可查询h5ad(AnnData)


h5ad文件需满足的要求

1. X是矩阵数据(通常是原始或经过normalization的数据)

2. 至少一种降维方式(例如 tSNE, UMAP)的结果

3. 每个细胞需要一个唯一的标识符

4. 每个基因需要一个唯一的标识符


Fig. 2 AnnData数据格式


官方数据


除对自己的数据进行注释、探索外,cellxgene data portal也存储了许多公共数据,本篇小指南使用肺部数据对该软件的各种功能进行解释(Fig.3),由于需要展示细胞类型注释过程,已删除原注释。


Fig.3 Cellxgene Data Portal



Cellxgene需要python 3.6以上的版本及最新的Google Chrome浏览器。Cellxgene无桌面版,只能打开终端,输入以下命令安装并启动cellxgene,

# 安装pip install cellxgene# 启动cellxgene launch h5ad_path/mydataset.h5ad --open


h5ad_path代表存放h5ad文件的路径,可右键h5ad文件➡️ 属性➡️ 位置,位置给出的路径即为存放h5ad文件的路径,实际启动时,使用该路径取代上述命令中的h5ad_path即可。




Cellxgene提供了一个强大且清晰的界面供使用者探索自己的单细胞数据,该章节从多种目的出发,解释cellxgene的使用。


1. Cellxgene界面介绍


启动cellxgene后,chrome浏览器会自动开启Fig. 4中的界面,该界面可被大致分为五部分,


(1) 细胞元数据

h5ad文件中obs部分(即对细胞的描述)均在左侧面板展现出来,左侧面板上下两部分分别通过分类和数值统计描述细胞。例如reported_cell_type_number为利用聚类对细胞分群后,为细胞分配的数字ID;n_genes表示细胞表达的基因数量分布。


右侧水滴状图标表示可根据该分类对细胞染色。点击每种分类的下拉键头,可查看该分类下所有类型、该类型对应的细胞数、用以代表该类型的颜色。点击数值型统计右侧的染色键,同样可以根据对应参数对细胞染色。


(2) 降维方式:cellxgene将基因的表达量数据降维后展示在二维embledding plot上,如h5ad文件包含多种降维方式的结果,则多种降维方式可选择,该数据集只包含umap;


(3) embledding plot: 降维后的图,每个点代表一个细胞,相似的细胞聚集在一起;


(4) 基因:检索感兴趣的基因,查看该基因的表达情况;


(5) 工具栏:实现细胞选择,计算marker基因等功能,具体为:

a) 选择进行差异分析的细胞集1和细胞集2;

b) 进行差异分析,并给出差异基因

c) 选择子细胞集

d) 还原子细胞集为整个数据集

e) 套索 (lasso) 选择工具

f) 缩放+移动画布

g) 展示分类标签。基于不同标准对细胞染色后,该键可在embledding plot中为细胞添加标签

h) 筛选

i) 撤回

j) 重做


Fig. 4 Cellxgene界面


2.细胞类型注释

细胞类型注释是依据标志物(Marker)为细胞群打上代表细胞身份的标签的过程。标志物是指在已知细胞类型中特异性表达的基因。理想情况下,每个细胞群将独特地表达一个细胞类型的标志物。标志物和细胞类型之间的对应关系可从文献或数据库中获得。


利用cellxgene为细胞群打标签可通过以下步骤完成:


(1)创建新分类方式,cell_type,用于存储细胞类型注释的结果(Fig.5)。

a. 点击create new category创建新分类

b. 复制reported_cell_type_number,创建新分类cell_type


Fig.5 创建新分类


(2)为细胞群打标签(Fig.6)

a.查看来源于文献或数据库的marker的表达情况。该图中以ENSMUSG00000045394(即Epcam)为例,Epcam是肺部上皮细胞(Epithelial cell)的marker,该marker在细胞分群 4,6,7,17中分布较广。


b.将细胞分群 4,6,7,17修改为Epithelial cell。以此类推,寻找更多marker,并将所有细胞分群逐一修改。利用其他细胞类型对应的marker逐一注释过程中,可能会与前期注释结果产生矛盾,在这种情况下,需要寻找更多证据对细胞进行最终注释。


Fig.6 注释细胞类型


3. 成分分析


细胞类型的比例差异往往具有生物学意义,例如细胞类型构成的差异可以揭示疾病机制、癌症的免疫反应和发育过程。在细胞水平,从组成结构的角度来分析聚类数据的过程即为成分分析。Cellxgene提供一种非常方便的方式进行成分分析。例如查看不同类型细胞在不同年龄段样本中的占比,点击reported_cell_type_number右侧的染色键,然后点击var_time的下拉键头即可查看 (Fig. 7)。此外,cellxgene还可分组查看数值型统计在不同分组中的分布状况,如Fig. 8。


Fig.7 成分分析之分类型


Fig.8 成分分析之数值型


以上即为利用cellxgene进行细胞类型注释和成分分析的过程,差异分析和寻找marker的小指南敬请期待!


以上即为利用cellxgene进行细胞类型注释和成分分析的过程,想要了解更多关于单细胞的内容,快快报名以下课程:


探索你的数据——单细胞转录组数据分析的正确打开方式
1.一份可互动的单细胞转录组报告是什么样的?
2.单细胞转录组分析的流程及原理简介;
3.使用单细胞数据可视化神器cellxgene探索数据。




1.实验技术干货

2.蛋白质组学研究

3.腺病毒简介及应用

4.临床基础研究思路解析    

5.组织特异性腺相关病毒

6.单细胞测序    

7.慢病毒实验操作指南

8.悬浮细胞专用病毒

9.靶点设计/数据库教程

10.测序技术研究与应用

11.非编码RNA研究技术与应用

12.腺相关病毒选择/应用    

13.表观遗传研究

14.文章解析

15.国自然课题设计思路解析

16.生物信息分析及工具      

17.外泌体研究    

18.肿瘤免疫研究

19.高分文章  



  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2022 ANTPEDIA, All Rights Reserved