数据库ID知多少? | 景杰学术

2020-05-12 17:04:57, 景杰学术 杭州景杰生物科技股份有限公司


在蛋白组学分析的过程中,我们经常会遇到各式各样的蛋白ID,本期小编就带大家认识一下几种常见数据库的ID类型,肯定能让你有收获噢!

1、RefSeq ID

(https://www.ncbi.nlm.nih.gov/refseq/)

RefSeq数据库中所有的数据是一个非冗余的、提供参考标准的数据,包括染色体、基因组(细胞器、病毒、质粒)、蛋白、RNA等。NCBI的RefSeq数据库ID,一般是两个大写首字母,加下划线,后面接数字。两个首字母如 “NC_”、 “NM_”、“NP_”分别对应DNA、mRNA、Protein。

下表主要针对与蛋白相关的部分,给出其ID前缀的主要说明:

ID名称

数据库

说明

AP_xxx

Mixed

AC_标记序列对应的蛋白产物。

NM_xxx

Mixed

转录产物序列;成熟mRNA转录本序列。

NP_xxx

Mixed

蛋白产物;主要是全长转录氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列。

NR_xxx

Mixed

非编码的转录子序列,包括结构RNAs,假基因转子等。

XM_xxx

Automated

转录产物;mRNA来自基因组注释,序列相当于基因组重叠群。

XP_xxx

Automated

蛋白产物;序列相当于基因组重叠群。

XR_xxx

Automated

转录产物;非编码区来自基因组注释,序列相当于基因组重叠群。

YP_xxx

Mixed

蛋白产物。不涉及到转录,主要用来标记细菌、病毒和线粒体。

ZP_xxx

Automated

蛋白产物,主要是用电脑自动注释。

2、UniProt ID

(https://www.uniprot.org/)

在前期的数据库介绍中我们有提到这部分;其中Entry是UniProt数据库中每个蛋白质独一无二的ID号;也就是我们平常说的Protein ID;而Entry name作为蛋白ID的简称,是由“GeneSymbol+物种“构成,可直接用来做蛋白结构域注释,是比较常见的。

在下载了完整的数据库后,可以从fasta序列中核实蛋白来自哪个数据库。

下图中sp指代的就是Swiss-Prot数据库,是注释精炼的蛋白序列库,它的所有序列都经过了科学家的查阅文献核实(reviewed, manually annotated)。而tr,也就是TrEMBL数据库全称“Translation of EMBL”,是从EMBL中的cDNA序列翻译得到的,其中TrEMBL收录的是未经人工注释的编码DNA序列翻译数据,相比之下,sp数据库更可靠。

3、Ensembl ID 

(http://www.ensembl.org/info/data/ftp/index.html)

Ensembl ID我们可以从结构上进行拆分—“物种前缀+序列类型+数字”。

以ENSP00000378638.3为例:

其中ENS是固定字符,表示这是一个Ensembl ID。默认物种是人,如果是小鼠(Mus musculus)的话则以ENSMUS开头,常见的还有“ENSDAR”,表示Danio rerio (Zebrafish);

字母“G”或“P”等则表示该ID指的具体序列类型,常见的序列类型用G、P、T,分别表示gene、protein和transcript。

11个数字组成的唯一编号,可以理解为基因的真实编号;

如果带有“.3”等标识,表示其在Ensembl数据中进行了3次变更,也就是版本号。

4、其他ID

除了以上三种常见的ID,在生信分析过程中,常见的还有GO ID和KO ID。

GO ID(https://www.ebi.ac.uk/QuickGO/),每个GO term 唯一的ID,由“GO:”和7位数字组成,如GO:0009058。

需要说明的是GO terms之间还有“层级关系”,比如下图一为GO:0009058(biosynthetic process,https://www.ebi.ac.uk/QuickGO/term/GO:0009058)的level 2对应的ID以及一部分子terms。

KO ID(https://www.kegg.jp/kegg/pathway.html),KEGG Orthology数据库为每个gene指配的一个KO ID(K number),常见由“K”和5个数字组成,如K05822。需要注意的是,KO ID与Pathway ID是不一样的。

想不到简单的一个ID竟然隐藏了这么多的信息,值得学习。

往期干货回顾

投稿篇

第01课:投稿建议:写完文章往哪投?蛋白组学领域期刊介绍与投稿建议

第02课:上传组学数据:投稿前你需要知道的一件小事,如何上传组学原始数据?

第03课:MS-Viewer:MCP投稿必备技能,MS-Viewer使用说明

绘图与数据处理篇

第01课:制作火山图:简单两步,用Excel轻松搞定火山图

第02课:蛋白互作网络图:手把手教你做蛋白互作网络图(文字版)、蛋白互作网络图(视频版)

第03课:画韦恩图:教你轻松画韦恩图

第04课:EXCEL技巧:干货分享,不可错过的Excel小技巧

第05课:绘制散点图:Excel技巧分享篇——绘制相关性散点图

第06课:AI修图:科研必备: Adobe Illustrator(AI)修图教程

第07课:Maxquant篇:如何从MaxQuant软件中导出谱图 | 景杰学术

第08课:离子谱图篇:如何解读b/y离子谱图?| 景杰学术

数据库篇

第01课:植物研究数据库:推荐 | 植物科学研究常用数据库与网站

第02课:蛋白数据库:干货分享!常用的蛋白数据库,你了解多少?

第03课:KEGG通路数据库:干货分享,你知道却不是很了解的KEGG信号通路数据库

第04课:NCBI数据库:【干货分享】蛋白组学之NCBI数据库介绍

第05课:iProX数据库:干货分享,iProX数据库上传指南

第06课:iGPS软件:干货分享!iGPS软件预测激酶分析

第07课:预测修饰位点:实用!如何预测蛋白质上的修饰位点?CSS-Palm一下!

第08课:磷酸化修饰:如何避免磷酸化修饰位点鉴定的“坑”,你知道吗?


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved