2020-05-12 17:04:57, 景杰学术 杭州景杰生物科技股份有限公司
在蛋白组学分析的过程中,我们经常会遇到各式各样的蛋白ID,本期小编就带大家认识一下几种常见数据库的ID类型,肯定能让你有收获噢!
1、RefSeq ID
(https://www.ncbi.nlm.nih.gov/refseq/)
RefSeq数据库中所有的数据是一个非冗余的、提供参考标准的数据,包括染色体、基因组(细胞器、病毒、质粒)、蛋白、RNA等。NCBI的RefSeq数据库ID,一般是两个大写首字母,加下划线,后面接数字。两个首字母如 “NC_”、 “NM_”、“NP_”分别对应DNA、mRNA、Protein。
下表主要针对与蛋白相关的部分,给出其ID前缀的主要说明:
ID名称
数据库
说明
AP_xxx
Mixed
AC_标记序列对应的蛋白产物。
NM_xxx
Mixed
转录产物序列;成熟mRNA转录本序列。
NP_xxx
Mixed
蛋白产物;主要是全长转录氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列。
NR_xxx
Mixed
非编码的转录子序列,包括结构RNAs,假基因转子等。
XM_xxx
Automated
转录产物;mRNA来自基因组注释,序列相当于基因组重叠群。
XP_xxx
Automated
蛋白产物;序列相当于基因组重叠群。
XR_xxx
Automated
转录产物;非编码区来自基因组注释,序列相当于基因组重叠群。
YP_xxx
Mixed
蛋白产物。不涉及到转录,主要用来标记细菌、病毒和线粒体。
ZP_xxx
Automated
蛋白产物,主要是用电脑自动注释。
2、UniProt ID
(https://www.uniprot.org/)
在前期的数据库介绍中我们有提到这部分;其中Entry是UniProt数据库中每个蛋白质独一无二的ID号;也就是我们平常说的Protein ID;而Entry name作为蛋白ID的简称,是由“GeneSymbol+物种“构成,可直接用来做蛋白结构域注释,是比较常见的。
在下载了完整的数据库后,可以从fasta序列中核实蛋白来自哪个数据库。
下图中sp指代的就是Swiss-Prot数据库,是注释精炼的蛋白序列库,它的所有序列都经过了科学家的查阅文献核实(reviewed, manually annotated)。而tr,也就是TrEMBL数据库全称“Translation of EMBL”,是从EMBL中的cDNA序列翻译得到的,其中TrEMBL收录的是未经人工注释的编码DNA序列翻译数据,相比之下,sp数据库更可靠。
3、Ensembl ID
(http://www.ensembl.org/info/data/ftp/index.html)
Ensembl ID我们可以从结构上进行拆分—“物种前缀+序列类型+数字”。
以ENSP00000378638.3为例:
其中ENS是固定字符,表示这是一个Ensembl ID。默认物种是人,如果是小鼠(Mus musculus)的话则以ENSMUS开头,常见的还有“ENSDAR”,表示Danio rerio (Zebrafish);
字母“G”或“P”等则表示该ID指的具体序列类型,常见的序列类型用G、P、T,分别表示gene、protein和transcript。
11个数字组成的唯一编号,可以理解为基因的真实编号;
如果带有“.3”等标识,表示其在Ensembl数据中进行了3次变更,也就是版本号。
4、其他ID
除了以上三种常见的ID,在生信分析过程中,常见的还有GO ID和KO ID。
GO ID(https://www.ebi.ac.uk/QuickGO/),每个GO term 唯一的ID,由“GO:”和7位数字组成,如GO:0009058。
需要说明的是GO terms之间还有“层级关系”,比如下图一为GO:0009058(biosynthetic process,https://www.ebi.ac.uk/QuickGO/term/GO:0009058)的level 2对应的ID以及一部分子terms。
KO ID(https://www.kegg.jp/kegg/pathway.html),KEGG Orthology数据库为每个gene指配的一个KO ID(K number),常见由“K”和5个数字组成,如K05822。需要注意的是,KO ID与Pathway ID是不一样的。
想不到简单的一个ID竟然隐藏了这么多的信息,值得学习。
往期干货回顾
投稿篇
第01课:投稿建议:写完文章往哪投?蛋白组学领域期刊介绍与投稿建议
第02课:上传组学数据:投稿前你需要知道的一件小事,如何上传组学原始数据?
第03课:MS-Viewer:MCP投稿必备技能,MS-Viewer使用说明
绘图与数据处理篇
第01课:制作火山图:简单两步,用Excel轻松搞定火山图
第02课:蛋白互作网络图:手把手教你做蛋白互作网络图(文字版)、蛋白互作网络图(视频版)
第03课:画韦恩图:教你轻松画韦恩图
第04课:EXCEL技巧:干货分享,不可错过的Excel小技巧
第05课:绘制散点图:Excel技巧分享篇——绘制相关性散点图
第06课:AI修图:科研必备: Adobe Illustrator(AI)修图教程
第07课:Maxquant篇:如何从MaxQuant软件中导出谱图 | 景杰学术
第08课:离子谱图篇:如何解读b/y离子谱图?| 景杰学术
数据库篇
第01课:植物研究数据库:推荐 | 植物科学研究常用数据库与网站
第02课:蛋白数据库:干货分享!常用的蛋白数据库,你了解多少?
第03课:KEGG通路数据库:干货分享,你知道却不是很了解的KEGG信号通路数据库
第04课:NCBI数据库:【干货分享】蛋白组学之NCBI数据库介绍
第05课:iProX数据库:干货分享,iProX数据库上传指南
第06课:iGPS软件:干货分享!iGPS软件预测激酶分析
第07课:预测修饰位点:实用!如何预测蛋白质上的修饰位点?CSS-Palm一下!
第08课:磷酸化修饰:如何避免磷酸化修饰位点鉴定的“坑”,你知道吗?
07-01 英斯特朗
连载 | 药物一致性评价与粒度分析(三)07-01 欧美克仪器
【仪器百科】LS-909丨干湿二合一激光粒度分析仪07-01 欧美克仪器
标准物质解决方案 | PFASs(全氟及多氟化合物)06-29
第九期阿尔塔有约 | 环境专题【新污染物:PFAS】技术研讨会精彩回顾及提问解答06-29
“绿色技术范式”,分析化学未来发展方向——访中国分析测试协会副理事长、辽宁省分析科学研究院原院长刘成雁教授06-29 转载仪器信息网
华西医院-标准型数显脑立体定位仪、双通道体温维持仪、体式显微镜安装完成06-29 迈越生物
科鉴检测助力2家仪器企业获得首批产品可靠性认证证书06-28 科鉴检测
德国耶拿:锂电池生命周期分析解决方案06-28 德国耶拿
AI已来!生命科学本科教学如何紧跟技术浪潮06-28 Opentrons
盛瀚售后,五星级服务的秘诀是什么?06-28 SHINE
专为汽车制造商打造的柔性解决方案——实现制程控制06-28
西北工业大学-脑立体定位仪安装完成06-28 迈越生物
会议邀请 | 第九届海上检验医师论坛06-28
卓立要闻 | 创新发展ing…6月卓立“大事小情”速览06-28 光电行业都会关注
打造信任合作伙伴!2024年度卓立汉光客户满意度调查开启06-28 光电行业都会关注
如何挑选适用于三阶光学非线性的测量系统?Z扫描测量系统来助力!06-28 光电行业都会关注
招聘启事—中国科学院沈阳自动化研究所微纳光学测量表征技术课题组06-28 光电行业都会关注
谱育科技作为主要完成方 荣获2023年度国家科学技术进步一等奖和二等奖06-28 点击关注→
仪器原理丨顶空仪与吹扫捕集仪科普小知识06-28 天美色谱