权威发布:长链非编码RNA命名规则

2022-09-14 04:53:44 上海欧易生物医学科技有限公司


对于人类基因命名标准的制定而言,雨果基因命名委员会(HGNC)是唯一官方授权的机构。HGNC的数据库中有38000个基因名称,其中大部分是编码蛋白基因;但HGNC也命名了8500多个人类非编码基因及假非编码基因,通过与各层次专家们的合作,他们命名了大多数的小非编码RNA。

小非编码RNA一般可根据它们的同源性及相同功能来分类。相比而言,长链非编码RNA则有其完全不同的一系列特点,它们的长度超过200个碱基,不具有保守序列的同源性,还有多变的功能属性。就像编码蛋白基因一样,长链非编码RNA也是尽量基于它们产物的已知功能来命名。

为了帮助科研人员能有效地命名lncRNA,让他们的命名更规范,名字更能反映功能,HGNC制作了这么一个命名指导标准,供科研人员参考。在一个长链非编码RNA要发表之前,研究人员应先得到HGNC的认可。

依据相关预测,人类基因组中有大量的长链非编码RNA(至少几千条),但人类了解其功能的很少。所以,一般用基因组上下文来对未知功能的lncRNA命名。HGNC希望与研究者们一起把长链非编码RNA命名的工作做好。HGNC的目标是让lncRNA的命名具有唯一性、准确性(让名字最大程度的反映功能)。

lncRNA 命名指导标准一条lncRNA要命名得合理准确,有一些原则需要去遵循,有许多的因素需要去注意。详细的命名原则及考虑因素如下:

每一条lncRNA的名字应具有唯一性 “名字唯一性”这条原则很重要,不能违反。它能让我们在研究分析某个基因时不会产生问题(不会发生这种事情:一条基因几个名字,存在重名的基因等)。另一方面,上述问题也不利于HGNC对命名规则的管理及维护。如果一个作者发布一个lncRNA名字,而它已经在别的地方使用过,HGNC将会指定一个新的名字供选择。例如,一个新的lncRNA,它的功能是维持上皮细胞在非分化状态,本来打算命名为ANCR,但是这个名字已经被使用于“快乐木偶综合症染色体区,Angelman syndrome chromosome region”,所以与作者达成一致,用DANCR来命名这个lncRNA“differentiation antagonizing non-protein coding RNA”.

lncRNA的名字应是描述基因的缩写每条lncRNA的标识都应是一个描述该基因的“缩写”或者“首字母简写”。

例如BANCR就是由‘BRAF-activated non-protein coding RNA’短语的首字母排列而成。这样让人们容易理解名字的含义。

lncRNA的名字应仅由拉丁字母和阿拉伯数字组成每条lncRNA的标识中不应出现标点符号,但可以用字母或者数字来代替标点符号。

连字符仅在特殊场合使用。例如:反义编码蛋白基因可在标识中加连字符(BACE1-AS就是BACE1 antisense RNA的名字)。

lncRNA的名字中的字母应为大写为了与其它种类物种的基因区别开来(如啮齿动物基因的标识只要求首字母大写,其余小写),人类基因标识中的字母都应为大写。

例如“热气”(HOTAIR)基因,在人类中叫HOTAIR,而在老鼠中写成Hotair。

lncRNA的名字中不应涉及具体的物种类型例如:如果基因名字中有H/h(代表人类),由于牵涉到同源基因的问题,就会造成一些疑惑和误导。

lncRNA的标识应避免采用一些常用的词汇基因的名字中出现的常用词汇会带来一些混乱,给分析研究带来很多问题,因此,在命名中应避免出现常见词汇。

例如:“AIRN”基因最初公布时叫‘AIR’,从公共数据库中搜索可得到22万条不相关的信息,而搜索“AIRN”则只有10条信息。可见“AIRN”的搜索效率有效得多。同样的例子很多。

lncRNA的标识应尽可能的反映其功能例如:''XIST''基因是''X (inactive)-specific transcript''的缩写,该基因的作用是参与沉默一对X染色体的转录。

命名的时候尽量反映基因通常的功能,而不体现其突变表型。基因的命名应简洁明了,不应包含太多信息。

基因的标识中不应具有攻击或轻蔑的色彩。

基因的标识中不应具有个人及地方色彩。

基因的标识中不应含有神化,虚构或历史人物的名字。

基因的标识中不应含有“臆想”和没什么意义的信息。

功能性转录假基因应包含它们假基因的名字目前,一些数量较少的转录假基因被发现具有功能性,例如PTENP1基因就与“PTEN-targeting”miRNA结合一起参与调节PTEN的表达水平。

具有功能的转录假基因在命名时应保留它们的假基因名称,并且不应改变其基于功能的名称。为了方便搜索,这个功能应加在标识的最后。PTENP1的命名就是这方面的例子。PTENP1 是‘phosphatase and tensin homolog pseudogene 1 (functional)’.

如何命名未知功能的基因应遵循如下要求未知功能的lncRNA应依据基因组上下文来命名,图一中给出如何系统化的命名的规则。

图一

如果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,然后制定以后后缀,这个后缀可以下方式分类:反义(antisense,AS),BACE1-AS;内含子(intronic,IT),例如,SPRY4-IT1;重叠(overlapping,OT),例如,OSX2-OT;长链基因间lncRNA(Long intergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,例如LINC00485.本质上以上命名原则是以GNECODE的注释目录为基准,反义RNA,正义内含子,正义重叠和长链基因间非编码RNA(lincRNA).一些新的分类方法也应该考虑,特别对这些lnRNA,它们与编码基因是头碰头(head to head),因此推断它们拥有双向启动子,HGNC推荐命名这些lncRNA为反义上游(Antisense upstream,AU),例如,GENE2-AU1。大家也应该注意到HGNC并不赞成以剪接变异体来命名,所以两个剪接变异体命名是以其中一个lncRNA基因来命名,例如,GENE2-AS1;如果一个lncRNA基因编码的转录本跨多于一个蛋白编码基因,用lncRNA的5’末端的第一个蛋白编码基因来命名,例如GENE-AS2上述命名的基本架构适用于大多数lncRNA,但对于基因密集区域的lncRNA可能就不适用了,这种情况下,你应该与HGNC沟通来解决。

推荐原文:

A short guide to long non-codingRNA gene nomenclature

Abstract

The HUGO GeneNomenclature Committee (HGNC) is the only organisation authorised to assignstandardised nomenclature to human genes. Of the 38,000 approved gene symbolsin our database (http://www.genenames.org), the majorityrepresent protein-coding (pc) genes; however, we also name pseudogenes,phenotypic loci, some genomic features, and to date have named more than 8,500human non-protein coding RNA (ncRNA) genes and ncRNA pseudogenes. We havealready established unique names for most of the small ncRNA genes by workingwith experts for each class. Small ncRNAs can be defined into their respectiveclasses by their shared homology and common function. In contrast, longnon-coding RNA (lncRNA) genes represent a disparate set of loci related only bytheir size, more than 200 bases in length, share no conserved sequencehomology, and have variable functions. As with pc genes, wherever possible,lncRNAs are named based on the known function of their product; a short guideis presented herein to help authors when developing novel gene symbols forlncRNAs with characterised function. Researchers must contact the HGNC withtheir suggestions prior to publication, to check whether the proposed genesymbol can be approved. Although thousands of lncRNAs have been predicted inthe human genome, for the vast majority their function remains unresolved.lncRNA genes with no known function are named based on their genomic context.Working with lncRNA researchers, the HGNC aims to provide unique and, whereverpossible, meaningful gene symbols to all lncRNA genes.

Keywords: Long non-codingRNA, Nomenclature, ncRNA, lncRNA


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved