数据库ID知多少？ | 景杰学术

2020-05-12 17:04:57, 景杰学术杭州景杰生物科技股份有限公司

在蛋白组学分析的过程中，我们经常会遇到各式各样的蛋白ID，本期小编就带大家认识一下几种常见数据库的ID类型，肯定能让你有收获噢！

1、RefSeq ID

（https://www.ncbi.nlm.nih.gov/refseq/）

RefSeq数据库中所有的数据是一个非冗余的、提供参考标准的数据，包括染色体、基因组（细胞器、病毒、质粒）、蛋白、RNA等。NCBI的RefSeq数据库ID，一般是两个大写首字母，加下划线，后面接数字。两个首字母如 “NC_”、 “NM_”、“NP_”分别对应DNA、mRNA、Protein。

下表主要针对与蛋白相关的部分，给出其ID前缀的主要说明：

ID名称

数据库

说明

AP_xxx

Mixed

AC_标记序列对应的蛋白产物。

NM_xxx

Mixed

转录产物序列；成熟mRNA转录本序列。

NP_xxx

Mixed

蛋白产物；主要是全长转录氨基酸序列，但也有一些只有部分蛋白质的部分氨基酸序列。

NR_xxx

Mixed

非编码的转录子序列，包括结构RNAs，假基因转子等。

XM_xxx

Automated

转录产物；mRNA来自基因组注释，序列相当于基因组重叠群。

XP_xxx

Automated

蛋白产物；序列相当于基因组重叠群。

XR_xxx

Automated

转录产物；非编码区来自基因组注释，序列相当于基因组重叠群。

YP_xxx

Mixed

蛋白产物。不涉及到转录，主要用来标记细菌、病毒和线粒体。

ZP_xxx

Automated

蛋白产物，主要是用电脑自动注释。

2、UniProt ID

（https://www.uniprot.org/）

在前期的数据库介绍中我们有提到这部分；其中Entry是UniProt数据库中每个蛋白质独一无二的ID号；也就是我们平常说的Protein ID；而Entry name作为蛋白ID的简称，是由“GeneSymbol+物种“构成，可直接用来做蛋白结构域注释，是比较常见的。

在下载了完整的数据库后，可以从fasta序列中核实蛋白来自哪个数据库。

下图中sp指代的就是Swiss-Prot数据库，是注释精炼的蛋白序列库，它的所有序列都经过了科学家的查阅文献核实(reviewed, manually annotated)。而tr，也就是TrEMBL数据库全称“Translation of EMBL”，是从EMBL中的cDNA序列翻译得到的，其中TrEMBL收录的是未经人工注释的编码DNA序列翻译数据，相比之下，sp数据库更可靠。

3、Ensembl ID

(http://www.ensembl.org/info/data/ftp/index.html)

Ensembl ID我们可以从结构上进行拆分—“物种前缀+序列类型+数字”。

以ENSP00000378638.3为例：

其中ENS是固定字符，表示这是一个Ensembl ID。默认物种是人，如果是小鼠（Mus musculus）的话则以ENSMUS开头，常见的还有“ENSDAR”，表示Danio rerio (Zebrafish)；

字母“G”或“P”等则表示该ID指的具体序列类型，常见的序列类型用G、P、T，分别表示gene、protein和transcript。

11个数字组成的唯一编号，可以理解为基因的真实编号；

如果带有“.3”等标识，表示其在Ensembl数据中进行了3次变更，也就是版本号。

4、其他ID

除了以上三种常见的ID，在生信分析过程中，常见的还有GO ID和KO ID。

GO ID（https://www.ebi.ac.uk/QuickGO/），每个GO term 唯一的ID，由“GO:”和7位数字组成，如GO:0009058。

需要说明的是GO terms之间还有“层级关系”，比如下图一为GO:0009058（biosynthetic process，https://www.ebi.ac.uk/QuickGO/term/GO:0009058）的level 2对应的ID以及一部分子terms。