转录组专题 | 快快收藏!业界最“全”最“基础”50个转录组名词解释

2022-07-21 04:43:34, 小维 武汉迈特维尔生物科技有限公司



转录组不求人:最全转录组基础概念解读


转录组:转录组广义上指在某一生理条件下,细胞内所有转录组产物的集合,包括:mRNA、ncRNA、rRNA等;狭义上指所有mRNA的集合。我们通常检测的转录组指的是mRNA。转录组具有时间特异性、组织特异性、空间特异性等特点。

ncRNA:non-coding RNA,非编码 RNA。指不编码蛋白质的 RNA。其中包括 rRNA,tRNA,snRNA,snoRNA 和 microRNA 等多种已知功能的 RNA,及未知功能的 RNA。其共同特点是都能从基因组上转录而来,不需要翻译成蛋白即可在 RNA 水平上行使各自的生物学功能。

lncRNA:long noncoding RNA,长链非编码 RNA。长度在 200-100000nt之间,不具有编码蛋白功能的转录本。根据与编码基因的位置关系可分为:Antisense lncRNA (反义长非编码 RNA)、Intronic lncRNA (内含子长非编码 RNA)、Long intergenic noncoding RNA (基因间区长非编码 RNA)、Sense lncRNA(正义长非编码 RNA)、Bidirectional lncRNA(双向长非编码 RNA)。

small RNA:是长度大约在 18-30bp 的非编码 RNA 分子,包括 micro RNAs、siRNAs 和 pi RNAs,是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要作用。

CircRNA:与传统的线性RNA(linear RNA,含5’和3’末端)不同,circRNA分子呈封闭环状结构,不受RNA外切酶影响,表达更稳定,不易降解。在功能上,近年的研究表明,circRNA分子富含microRNA(miRNA)结合位点,在细胞中起到miRNA海绵(miRNA sponge)的作用,进而解除miRNA对其靶基因的抑制作用,升高靶基因的表达水平。

全转录组:广义层面上的全转录组指细胞中所能转录组出来的所有RNA总和,狭义上的全转录组只具有编码功能的mRNA及具有调控功能的ncRNA。


基因相关概念

Gene:具有编码蛋白质或决定某一性状作用的一段核酸序列。

Intron:内含子,是真核生物细胞 DNA 中的间插序列。这些序列被转录在前体 RNA 中,经过剪接被去除,最终不存在于成熟 RNA 分子中。术语内含子也指编码相应 RNA 内含子的 DNA 中的区域。

Exon:外显子,是真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟 RNA 中的基因序列,又称表达序列。既存在于最初的转录产物中,也存在于成熟的 RNA 分子中的核苷酸序列。术语外显子也指编码相应RNA 外显子的 DNA 中的区域。

Intergenic:基因间区,指基因与基因之间的间隔序列,不属于基因结构,不直接决定氨基酸,可能通过转录后调控影响性状的区域。

UTR:Untranslated Regions, 非翻译区域。是信使 RNA(mRNA)分子两端的非编码片段。5''-UTR 从 mRNA 起点的甲基化鸟嘌呤核苷酸帽延伸至 AUG 起始密码子,3''-UTR 从编码区末端的终止密码子延伸至多聚 A 尾巴(Poly-A)的前端。

Transcript:转录本,是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的 mRNA。一条基因通过内含子的不同剪接可构成不同的转录本。

Isoform:同一个基因经可变剪切或内含子选择机制产生不同的转录本,这些不同转录本即称 isoform。

plus strand/minus strand:正链/负链。对于一个基因来说,DNA 的两条链中有一条链作为 RNA 合成时的模板,这条链叫负链,另一条叫正链。

antisense strand/sense strand:无义链/有义链。模板链在双链 DNA 中,用来转录 mRNA 的DNA 链称为模板链(template strand),不用于转录的链则称为非模板链(nontemplate strand)。根据碱基互补配对原则,转录出的 mRNA 链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的 T 在 mRNA 链中全部置换成了 U。正是由于非模板链的碱基序列实际上代表了 mRNA 的碱基序列(只不过在 mRNA  中 T  换成了 U),因此非模板链又被称为编码链(coding strand),有义链(sense strand)和克里克链(crick strand),而用来转录mRNA 的 DNA 链被称为非编码链(anticoding strand)或无义链(antisense strand)或沃森链(watson strand)。

Gene family:基因家族。真核细胞中,许多相关的基因常按功能成套组合,被称为基因家族。它们来源于同一祖先,由一个基因通过基因重复产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。

ORF:open reading frame,开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。


转录组建库与测序概念

Library construction:文库构建,高通量测序前准备步骤。针对不同的研究目的建库方法不同。通常包括核酸样品检测、片段化、扩增、加接头、片段选择、纯化、浓度检测等步骤。

Insert size:插入片段大小,决定测序的长度。

Adaptor:接头,用于上机测序。建库时引入的接头序列与测序芯片(flow cell)上固定的接头相互识别。

链特异性建库:可以确定转录本来自正链还是负链。操作原理是首先利用随机引物合成RNA的一条cDNA链,在合成第二条链的时候用dUTP代替dTTP,加adaptor后用UDGase处理,将有U的第二条cDNA降解掉。降解发生之后,双链的文库就只剩下了一条链(负链)。首先利用随机引物合成RNA的一条cDNA链,在合成第二条链的时候用dUTP代替dTTP,加adaptor后用UDGase处理,将有U的第二条cDNA降解掉。降解发生之后,双链的文库就只剩下了一条链(负链)。

Index:测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。

Illumina:Illumina 二代测序仪提供商,Illumina Novaseq为目前通用测序仪。

PE150:Paired End 双端。测序策略的一种,PE150指的是双端测序,每端测150bp。转录组测序默认选择的测序策略。

SE50:Single end 双端。测序策略的一种,SE50指的是双单端测序,测50bp。

Sequencing depth:测序深度。测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为 2M,测序深度为 10X,那么获得的总数据量为 20M。

全长转录组测序:以PacBio公司的SMRT单分子实时测序技术(Single molecule real-time sequencing)为代表的三代测序技术对样品的转录组进行高通量测序,与传统转录组测序相比,三代测序技术长读长的特点允许mRNA不经打断即可直接进行测序,从而能够直接获得mRNA的全长序列,保证了mRNA序列的精确性,该技术能够更好的识别普通转录组测序无法准确识别的Isoform、融合基因、可变剪接等。


转录组拼接与比对概念

Raw Data / Raw Reads:测序下机得到的原始图像数据经过base calling转化而来的原始数据。

Clean Data / Clean Reads:去除接头和低质量Reads后的数据,后续分析均基于Clean Data。

有参转录组:针对有参考基因组序列的物种进行 mRNA 的分析。

无参转录组:针对尚无参考基因组序列发布的物种进行 mRNA 的分析。

Assembly:组装/拼接,即在没有参考序列的情况下进行序列拼接,对未知基因组或转录组序列进行测序,利用生物信息学分析手段,对序列进行拼接、组装,从而获得其基因组或者转录组本。

N50(或 N90):无参转录组中,按照长度将拼接得到的转录本从大到小排序,依次累加转录本的长度,到不小于总长 50%/90%的拼接转录本的长度就是 N50(或N90)。

Q20/Q30:Q20,Q30它们代表的是某一碱基质量值占全部碱基数的百分比,Q20代表的是碱基质量大于20的碱基占碱基总数的比例。测序时,每个碱基对应一个碱基质量值Phred,Phred=-10log10(e),e为该碱基的错误率。当某个碱基错误率为1%时,该碱基的Phred为20。

Alignment:比对,通过算法获取两个或多个序列之间的相似性以至于同源性。

Unigene:在无参转录组中,经过拼接的到的转录本并不一定完全是正确的,同时还会得到许多相似度很高、但长度不等的转录本,Unigene即为这些相似转录本的集合,根据设置的相似度阈值,将拼接组装的到的转录本进行聚类,得到的每一个聚类即为一个Unigene,属于同一Unigene的转录本被认为是同一个基因,从中挑选出长度最长的转录组作为该Unigene的代表进行后续的功能注释和表达水平计算。

genome browser:基因组浏览器,用于查看 mapping 结果的工具。例如:IGV,UCSC Genome browser。


表达定量与注释相关

Read Count: The number of reads mapped to this gene. 这是高通量测序的文件,每个样本中每个基因的reads都会统计然后用于差异基因分析,用read count分析差异基因只能用DESeq2和edgR这两个R包,这两个R包会对read矩阵进行标准化。

RPKM:每千个碱基的转录每百万映射读取的reads),主要用来对单端测序(single-end RNA-seq)进行定量的方法。

FPKM:每千个碱基的转录每百万映射读取的fragments),主要是针对pair-end测序表达量进行计算。FPKM和RPKM可以视为表达量。不能用于差异基因分析!

TPM:Transcripts Per Million,表达量表示方法,其是先对基因长度标准化,再对测序深度标准化,与FPKM正好相反。

Gene annotation:基因注释,分为基因的结构注释和基因的功能注释。

CDS predict:CDS(coding sequence)序列是编码序列,是用来编码蛋白质的那段序列,是 mRNA 的一部分。CDS 预测是指通过一定的方式如序列比对、ORF 预测(estscan)来获取基因编码的核酸序列和氨基酸序列。

GO:GO是基因联合会(Gene Onotology Consortium)所创立的数据库,旨在建立一个适用于各种堆基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能。它主要包括三个分支: 生物过程、分子功能和细胞组件。网址:http://www.geneontology.org/.

COG/KOG: Cluster of Orthologous Groups of pretein,蛋白相邻类的聚簇。该数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成的。对于预测单个蛋白质的功能和整个新基因组中的蛋白质的功能非常有用。详见http://www.ncbi.nlm.nih.gov/COG/。

Nr:(NCBI non-redundant protein sequences)是NCBI官方的蛋白序列数据库,它包括了GenBank基因的蛋白编码序列,PDB(Protein DataBank)蛋白数据库、SwissProt蛋白序列及来自PIR(Protein Information Resource)和PRF(Protein Research Foundation)等数据库的蛋白序列。

KEGG: Kyoto Encyclopedia of Genes and Genomes,京都基因及基因组百科全书,是一个有关生物系统较完善的数据库,关联基因组信息和功能信息的知识库。其由基因蛋白序列(KEGG Genes)、具有内源性和外源性的化学物质(KEGG Ligand)、分子相互作用和代谢通路图(KEGG Pathway)和各种生物之间的层次关系(KEGG Brite)构成,在功能注释分析中,我们主要关注的是KEGG代谢通路图的分析。详见http://www.genome.jp/kegg/。


差异与富集分析

FC:Fold Change,即差异倍数。

FDR:False Discovery Rate,即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝的原假设个数的比例的期望值。通过控制FDR来决定P值的阈值。

皮尔逊相关系数 r:Pearson''s Correlation Coefficient,用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。其中,1表示变量完全正相关,0表示无关,-1表示完全负相关。在高通量测序中,将皮尔逊相关系数作为生物学重复相关性的评估指标。越接近 1,说明两个重复样品相关性越强。

Differential analysis:差异分析。通过计算基因在不同样本中的表达量,比较基因表达差异。常见差异分析软件DESeq2(有生物学重复),edgeR(无生物学重复)。

差异基因:根据设定的阈值和统计学检验结果,在不同组样品中表达水平具有显著差别的基因。转录组分析中,默认差异基因筛选参数为FDR<0.05,Fold Change≥2或者Fold Change≤0.5.

富集分析:当分析差异基因时,根据特定的分类方法 (GO、KEGG等) 对基因进行分类,因为不同分类所包含的基因数目不同,如果只通过某一类基因中差异基因的数目评估这一类基因是否具有差异表达,得到的结果是不准确的,富集分析就是利用超几何分布或Fisher精确检验的方法,消除测序总体背景值和基因分类背景值的影响,能够准确阐明样品间不同类别功能基因是否具有差异。

可变剪接: 大多数真核基因转录产生的 mRNA 前体是按一种方式剪接产生出一种 mRNA,因而只产生一种蛋白质。但有些基因产生的mRNA 前体可按不同的方式剪接,产生出两种或更多种 mRNA,即可变剪接(alternative splicing)。




精彩合集,欢迎收藏



客服微信:metware888

咨询电话:027-62433042

邮箱:support@metware.cn

网址:www.metware.cn

我就知道你“在看”


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved