一文带你看懂高质量动植物基因组研究思路

2023-04-06 22:10:39, 基因组学服务专家 上海欧易生物医学科技有限公司



01


背景


动植物基因组的大小由几十Mb到上百Gb不等,尤其是植物基因组中存在高杂合、高度重复序列以及复杂的多倍体现象,用短读长的二代测序无法拼接和组装出这些高复杂区域的基因组信息,因此,对于杂合度高、重复度高、多倍体或者超大基因组来说,高质量基因组的组装是非常具有挑战性的一般需要reads的长度超过在基因组中发现的大片段的重复序列区域。要实现这些高复杂度动植物基因组的组装,必须采用三代长读长测序技术而近年来三代测序技术的快速发展,则极大地推动了越来越多高质量复杂基因组的成功组装。


02


De novo项目拓展研究与案例分享


随着测序技术与基因组组装技术的快速发展,越来越多物种的基因组被组装,其中不乏一些高重复性、高杂合性、多倍体或者超大基因组的成功组装。仅靠组装一个高质量基因组就可以发表一篇不错文章的时代已经过去,基因组De novo组装已逐渐成为基因数据挖掘的基础项目,结合不同的生物学问题,以高质量基因组组装为基础,结合多种不同的组学数据或分析手段,多角度、多层次阐述生物学现象,解决生物学问题,是目前基因组研究的大方向。为此,我们梳理了在基因组De novo组装基础上,结合不同材料样本背景的个性化需求,可以拓展的研究思路(De novo+ 项目,图2.1)。根据样本特点,也可以将这些思路进行不同的组合,实现多组学联合分析。

图2.1:De novo+ 项目研究思路导图


03


三代测序


三代测序是单分子测序,与二代测序相比,长读长测序技术的发展是推动植物基因组组装的主要动力。PacBio和Oxford Nanopore是目前占据三代测序市场的两大主流生产商,他们的三代测序长reads读取技术也各有千秋。


3.1 Nanopore测序

Oxford Nanopore Technologies(ONT)通过检测DNA或者RNA单链分子通过两端带电压的纳米孔芯片时,不同碱基序列组合在纳米孔内部产生不同的电流阻信号而测序(图3.1)。其优点是读长长,特别是ultra long ONT, 测序长度可达上百kb,同时其测序设备小巧、简洁。但其也有明显的缺点:(1)需要抽提高质量的DNA,而且reads 越长,对DNA的质量和完整度要求越高。(2)错误率较高。

图3.1:ONT测序技术原理示意图(图片来源于网络)


3.2 PacBio 测序

PacBio Sequel II测序系统也属于SMRT(Single Molecule Real-Time)测序技术,在一个ZMW(Zero Mode Waveguide)孔中,利用荧光可逆终止dNTP检测技术,DNA聚合酶以一条DNA链为模板,边合成边测序(图3.2)。PacBio Sequel II测序系统支持两种测序模式——CLR(Continuous Long Reads)模式和CCS (Circular Consensus Sequencing)模式。

图3.2:PacBio Sequel II 测序技术原理示意图(图片来源于网络)


3.2.1 CLR测序模式

根据PacBio数据,采用CLR模式时,有半数以上的reads读长可以超过50Kb。但是由于文库片段越长,对抽提的DNA质量要求就越高,抽提的技术难度就越大,因此,目前采用CLR模式测序时,一般构建的文库平均长度为20-30Kb。在CLR测序模式中,聚合酶分子从一端的接头开始沿着双链DNA分子边合成边置换边,随着链的延长,聚合酶的活力越来越低,而且聚合酶在单链接头部位时相对不稳定,容易脱落。因此,在CLR测序模式下, 绝大部分reads只能被读取1次,因此在合成或读取过程中造成的错误被保留了下来,而且这些错误在reads上也是随机分布的(图3.3 左)。


3.2.2 CCS测序模式

在CCS模式下,文库插入片段长度较短,一般被限定在10-20kb之间,目前主流的平均插入片段长度为15kb左右。这种一致性序列通过对来自单个ZMW中的subreads进行比对产生,产生的CCS reads使用CCS算法需要至少两轮读取来自插入片段的subreads。

对于单个ZMW中的同一条序列来说,在聚合酶的活力下降或聚合酶脱落之前,这条序列已经被读取了数次(多轮passes),将这些同一序列产生的subreads进行自身的比对,其中1条subreads上某一个位点的错误,可以被其他几条进行校正,这样就产生了高置信度的reads,也就是HiFi reads (图3.3 右)。在这种模式下,序列读取的准确性得以显著提高(99.8%以上),同时,对于大部分物种来说,15kb的读长基本可以跨越基因组上的大部分重复序列区域,实现对基因组全序列的覆盖。因此这种15kb HiFi reads的模式一经推出,很快就得到了认可和推广。这种模式也是目前我们首推的三代测序模式。

与以往错误率偏高的三代测序技术相比,15kb CCS模式的优势非常明显,是长读长与高准确性的完美结合,而且组装速度快,在数据存储和计算资源的需求方面也有很大优势。不过,这种模式也有不足之处,比如为了提高准确率而对同一序列多次测序会造成数据量产出的浪费,从而导致相对较高的测序成本。另外,即使是几近完美的15 kb读长也可能无法实现复杂植物基因组中常见的巢式的、高度相似的重复结构。许多复杂的植物基因组具有大于20kb的重复结构。对于这样的序列,还需要辅助更长读长的其他测序技术,比如ONT Ultra-long reads或者BioNano测序。

图3.3:PacBio CLR模式与CCS模式对比示意图


04


基因组三代测序主要应用范围


De novo测序即从头测序,是指在没有参考基因组的条件下从头组装一个基因组。随着三代测序技术与分析软件的日臻成熟以及测序成本的下降,三代De novo测序在动植物基因组研究中得到广泛应用,主要包括以下几种应用场景:


(1)无基因组信息的物种;

(2)已有的基因组组装质量不高,不满足研究需求;

(3)已有高质量基因组,但物种的不同品种之间(或者突变体与野生型之间)差异大,需要针对特定的品种进行高质量基因组的组装和注释,用于基因资源的挖掘(如水稻、玉米、棉花、大豆等);

(4)远缘杂交品种;

(5)泛基因组;

(6)将基因组三代De novo组装注释与比较基因组结合,研究关键性状,物种进化,适应性机制,育种等发面。

(5)将基因组三代De novo组装注释与BSA,GWAS,群体研究或个体差异研究相结合,形成系统地研究。 


05


De novo项目拓展研究与案例分享


接下来,结合欧易代表性的项目文章,介绍下基因组在科研领域和生产实践上的具体应用:


案例1:基因组De novo组装+BSA测序——中国玉米界首篇Nature正刊:野生玉米基因组组装以及克隆控制玉米高蛋白品质形成和氮素高效利用的关键基因THP9

文章题目:THP9 enhances seed protein content and nitrogen-use efficiency in maize

发表期刊:Nature

影响因子:69.504

合作单位:中国科学院分子植物科学卓越创新中心巫永睿研究组。中国科学院分子植物科学卓越创新中心黄永财博士后、王海海副研究员、朱一栋博士生为本文的共同第一作者。其中基因组组装、注释、BSA分析由上海欧易生物完成。


研究背景


玉米的祖先起源于南美洲墨西哥南部的大刍草,它像杂草一样生长,种子外面包裹着坚硬的壳。早在9000年以前,人类祖先就开始驯化它,把杂草一样的野生玉米大刍草逐渐改造成了今天的玉米。如今,玉米已成为世界上主要且最高产的农作物之一,70%的玉米都用作饲料,有“饲料之王”的美称。但由于普通玉米籽粒蛋白含量较低,大部分杂交种籽粒蛋白含量不到8%,不能满足动物对畜牧饲料蛋白的需求,严重限制了玉米的应用。野生玉米中含有很多优良基因及性状,如籽粒蛋白含量高(~30%),但是其高蛋白形成的机制由于缺乏一个高质量的基因组而成为一个世纪级难题。因此组装高质量的野生玉米基因组,克隆控制玉米高蛋白和氮素高效利用的关键基因,解析其机制是科学家们研究的重要方向。


研究内容


研究团队利用trio-binning技术对野生玉米和B73杂交F1代基因组成功分型,组装出两套高质量基因组,并利用BSA、GWAS和图位克隆等技术,对高世代回交的近等基因系材料定位,成功克隆了控制高蛋白的关键基因THP9。通过过表达等试验证明了该基因的生物学功能,同时作者利用大量大田试验证明了该优良基因对于提高玉米蛋白含量,提升氮素利用效率有重要的理论和实践意义。


研究结果


1)研究团队将野生玉米(Zea mays ssp. parviglumis, accession number Ames21814)和栽培玉米B73构建F1材料,通过三代测序技术和三维基因组相结合的测序策略,利用trio-binning技术成功组装出高杂合的野生玉米单倍体基因组,基因组大小2.4G,contig N50达62 Mb,Scaffold N50 245.33 Mb,BUSCO为96.8%,是目前已发表玉米基因组中连续性最高的一个基因组。最后注释出58,092个蛋白编码基因,86.58%的重复序列。

2)作者通过构建高世代的野生玉米与B73的回交群体,筛选极端表型混池材料,通过BSA技术对野生玉米高蛋白基因定位和克隆。进一步作者对高蛋白遗传群体进行精细定位,成功克隆了首个控制玉米高蛋白含量的主效基因THP9。

3)该基因编码天冬酰胺合成酶4 (ASN4),负责合成天冬酰胺,是氮代谢的中心,充当氨基基团的分子间转移反应中充当氮供体。因此,植物中的天冬酰胺水平与种子蛋白质含量密切相关。研究发现野生玉米优良基因Thp9-T显著高表达,而B73和一些玉米自交系中含有Thp9的突变形式Thp9-B,导致 ASN4 的表达量较低。野生玉米优良基因Thp9-T导入玉米自交系B73后,使种子蛋白质含量增加约35%,根,茎和叶中氮含量也明显增加,并且生物量即植株整体重量也大大增加。

4)进一步,作者将野生玉米高蛋白基因Thp9-T杂交导入我国推广面积最大的玉米生产栽培品种郑单958中,也可以显著提高杂交种籽粒蛋白含量,表明该基因在培育高蛋白玉米中具有重要的应用潜能。同时,在减少氮肥施用条件下,可以有效保持玉米的生物量以及植株和籽粒中氮含量水平,这对于在低氮条件下促进玉米高产、稳产具有重要意义。


研究结论


本项研究组装了一个高质量的野生玉米基因组,并从野生玉米中发现一个控制高蛋白玉米形成的关键优异变异基因Thp9-T,它可以提高玉米中氮的同化效率从而有利于产生更多的蛋白质。将Thp9-T导入现代玉米品种,大大提高了氨基酸水平,尤其是天冬酰胺,并且在不影响粒重的情况下增加了种子蛋白质含量。同时,在大田试验中,本项研究也验证了Thp9-T在高蛋白育种改良过程中起着重大作用,不仅显著提高玉米栽培品种郑单958的籽粒蛋白含量,而且在在低氮条件下能有效保持玉米的生物量以及植株和籽粒氮含量水平,对今后该基因的进一步推广应用奠定了坚实基础。


案例2:基因组De novo组装+群体GWAS分析——蓖麻起源、驯化以及农艺性状的遗传基础研究

文章题目:Genomic insights into the origin,domestication and genetic basis of

agronomic traits of castor bean

发表期刊:Genome Biology 

影响因子:17.904

合作单位:中国科学院昆明植物研究所李德铢课题组和西南林业大学刘爱忠课题组。中国科学院昆明植物研究所徐伟副研究员为第一作者。其中基因组组装、比较基因组和群体进化分析由上海欧易生物完成。


研究背景


蓖麻(Ricinus communis L.)是大戟科一种重要的油料作物,在工业上有重要的应用价值。关于蓖麻起源、驯化和遗传基础等研究工作,由于缺乏一个高质量的基因组而受限制,因此组装一个高质量的蓖麻参考基因组对于揭示蓖麻的栽培起源,群体动态历史以及重要农艺性状的分子基础具有非常重要的现实意义。


研究内容


本研究组装了一个高质量的染色体水平的大戟科植物的野生祖先基因组,为理解大戟科植物的基因组进化提供了新的见解。进一步地,通过对全球505份蓖麻品种的重测序数据的群体进化分析,揭示了大约3200年前蓖麻驯化的东非起源。选择性清除分析揭示了从野生树木祖先衍生为一年生品种的受选择区域。GWAS和QTL分析确定了与营养结构和种子性状相关的关键候选基因。该研究系统描述了蓖麻驯化和基因组进化,为蓖麻的改良和利用提供了坚实的分子和遗传证据。


研究结果


1)研究者利用PacBio Sequel三代数据和Hi-C测序数据组装了野生种蓖麻树(Rc039)的高质量基因组,基因组大小336 Mb,contig N50 11.59 Mb,scaffold N50 32.06 Mb。注释出25,826个蛋白编码基因,含53.9%重复序列。通过比较基因组学分析,发现蓖麻基因组经历了一次古老的WGD事件。对蓖麻(2n=20)、麻风树(2n=22)和木薯(2n=36)三个大戟科基因组进行共线性分析表明,三者之间存在大量共线性区域。同时研究者发现蓖麻的5号染色体在大戟科物种分化中发生了多次断裂和融合事件,揭示了染色体进化在决定大戟科不同物种染色体数目中的重要作用。

2)以野生蓖麻基因组为参考基因组,对279份种质的进行了重测序数据(平均测序深度19.5×),结合226份已发表的数据,共获得来源于35个国家和地区505份重测序数据。群体结构分析显示这些种质分为三个主要亚群:埃塞俄比亚野生种(WE)、肯尼亚野生种(WK)和栽培种(LC)。其中埃塞俄比亚野生种和肯尼亚野生种遗传关系较近,分化程度低,连锁不平衡(LD)衰减速率快,衰减距离小,表现出较高的遗传多样性。相反,栽培种与WE或者WK之间有明显的遗传分化,LD衰减速率慢,衰减距离大,遗传多样性降低。

3)种群动态历史分析揭示蓖麻群体在4400至6000年前经历了一次严重的瓶颈事件,导致了有效群体大小急剧下降。随后有效群体大小缓慢增加,在200至4000年前达到最大,推测可能与第一次工业革命(机器制造)期间为获取具有高级润滑油特性的蓖麻油而大量引种栽培有关。同时,该研究发现野生蓖麻与栽培蓖麻的分化时间约在3200年前,与古埃及栽培蓖麻的考古时间大致相同。但埃塞俄比亚(WE)和肯尼亚野生蓖麻(WK)在约7000年前就发生了分化。通过潜在适生区预测分析,发现在全新世期 (7000-5000 年前),野生蓖麻群体在埃塞俄比亚和肯尼亚边境地区发生了大规模减少,甚至消失。已有大量证据表明,约6000年前该区域遭受了频繁的极端干旱事件,导致湖泊水面急剧下降、植被消失和人类迁徙。这些结果表明蓖麻群体的遗传瓶颈和群体分化可能与当时肯尼亚边境地区急剧的气候变化有关。

4)通过比较野生种群体(包括WE和WK)与栽培种群体(LC),采用ROD和FST分析方法进行选择性清除位点扫描。共鉴定出326个受人为选择的区域,包含1220 基因,主要涉及开花(如TFL1),次生细胞壁合成(如MYB46)和适应性相关的通路。同时,一些与种子大小相关的基因(如SOD7,TTG2,GW5,ABI5)也受到了选择。通过GWAS分析鉴定出13个与3种株型性状显著相关的信号,其中一个与茎节数(NN)有关,9个与茎粗(DMS)有关,2个与植株高度(PH)有关。

 5)蓖麻种子大小和粒重性状的GWAS分析和QTL定位。将种子性状拆分为种子长度(SL)、宽度(SW)、厚度(ST)、面积(SA)、单粒种(SSW)和籽油含量(SOC)。利用构建的种子大小的RIL群体进行QTL定位,鉴定到除SA之外五个性状的18个QTLs位点。通过GWAS鉴定到与除SOC外的5个性状显著关联的17个位点。对这些位点所包含的基因进行功能分析,为理解蓖麻株型性状和产量关联性状的遗传基础提供了重要的信息。


研究结论


该研究组装了一个高质量的野生蓖麻基因组,通过比较基因组揭示了大戟科不同物种间染色体进化现象。通过群体进化,GWAS等分析揭示出东非蓖麻是现存的野生种,而栽培蓖麻大约发生在3200年前。野生蓖麻群体在约7000年前发生分化,可能与东非大裂谷Turkana Depression区域的急剧气候变化有关,这次事件也导致蓖麻有效群体大小的减少和瓶颈的发生。通过选择性清除和GWAS分析,揭示出大量与蓖麻株型和种子大小相关的候选位点。该研究不但为人们理解蓖麻的起源、驯化和群体动态历史提供了新的认识,尤其是对多年生木本树到一年生作物的驯化过程,而且为蓖麻的遗传育种和改良提供了丰富的野生资源和候选基因。


案例3:基因组De novo组装+比较基因组分析——棕尾别麻蝇染色体级基因组组装为肉蝇进化适应提供见解

文章题目:Chromosome-level De novo genome assembly of Sarcophaga peregrina provides insights into the evolutionary adaptation of flesh flies.

发表期刊:Molecular Ecology Resources

影响因子:6.286

合作单位:中南大学基础医学院法医系主任郭亚东课题组。中南大学基础医学院任立品博士为本文第一作者。其中基因组组装、注释和比较基因组分析由上海欧易生物完成。


研究背景


棕尾别麻蝇被认为具有重要的生态、医学和法医意义,并具有不寻常的生物学特征,如卵胎生生殖模式和适应腐肉。棕尾别麻蝇高质量基因组的组装将有助于进一步揭示其潜在的机制。


研究内容


通过三代测序、Hi-C测序组装了一个高质量染色体级别的棕尾别麻蝇基因组,通过基因组组件注释对棕尾别麻蝇基因组上的重复序列、功能基因和转录因子基因、ncRNA等进行了注释和分析,并通过比较基因组分析,揭示了扩大和正选择的与生物学特性相关的基因,为棕尾别麻蝇提供了有价值的基因组资源,并进一步揭示其潜在的分子机制。


研究结果


1)组装了一个560Mb的棕尾别麻蝇De novo基因组,contig N50为3.84 Mb,基因组组装完整度BUSCOs评估为97.9%。总长度为548.19 Mb的基因组序列被挂载到6条染色体上,占基因组草图的97.76%。

2)共鉴定出15710个基因,有潜在功能注释的蛋白编码基因14476个,占已组装基因组中所有基因的92.14%。重复序列占组装基因组的45.70%,其中TEs占基因组的12.35%。最终在组装的基因组中鉴定出9,636个基因家族,其中有13个基因家系(包含106个基因)是棕尾别麻蝇特有的。

3)比较基因组分析揭示了与生物学特性相关的扩张基因家族和正选择的基因,如脂质代谢、嗅觉受体活性、抗氧化酶、蛋白质水解和丝氨酸型内肽酶活性,这些生物学特性有助于阐明卵生生殖和腐肉进食的适应性。鉴定了卵黄蛋白、转铁蛋白和鞘磷脂酸酶等卵黄蛋白编码基因。

棕尾别麻蝇染色体水平基因组组装及与其他物种的基因组比较分析。

a. 组装基因组的迭群关联矩阵;b. 棕尾别麻蝇和黑腹果蝇基因组之间的染色体共线性。c. 维恩图显示了棕尾别麻蝇与其他蝇类间同源簇的分布。

棕尾别麻蝇与其他9个种的基因组收缩/扩张比较分析。

分枝上的数字表示每个分枝的扩展(蓝色)和收缩(红色)基因家族的数量。每个分支附近的数目表示每个分支显著扩张(红色)和收缩(蓝色)基因家族的数目。黑色数字表示散度时间,两个红色圆圈表示校准节点。


研究结论


在这项研究中,利用PacBio三代测序数据和Hi-C测序数据组装了一个高质量的染色体级别棕尾别麻蝇基因组,具有高覆盖和高连续性,可用于进一步深入了解棕尾别麻蝇的系统发育多样性。该基因组不仅为揭示棕尾别麻蝇等腐肉食性物种的进化适应性提供了重要资源,也为进一步开展大规模系统发育工程中的昆虫进化研究填补了空白。


06


欧易在De novo项目上的优势


欧易生物自从2009年成立以来,秉承“硬数据、好服务”的价值理念,为广大科研工作者提供上百次基因组组装服务,物种涵盖各种动植物,特别是在植物方面有丰富的组装经验。

1)优质服务:充分的售前沟通 + 个性化方案设计 + 执行中及时沟通 + 专业售后支持

2)专业顾问指导:上百个物种组装经验,植物方面尤为突出,专业技术顾问在复杂多倍体组装方面经验丰富。

3)比较基因组分析专业解读:比较基因组分析是大部分物种基因组De novo项目的灵魂,既为文章提供多张精致美图,又可以从系统进化等角度多方面阐释生物学现象。欧易生物在挖掘比较基因组数据信息方面独具优势,带给客户超值服务。

4)De novo+项目一站式服务:欧易生物拥有多种组学(基因组、转录组、代谢组、蛋白组)服务项目,对于以De novo基因组组装为基础的De novo+项目,在提供专业方案设计的同时,享受一站式服务。


END


原创声明:本文由欧易生物(OEBIOTECH)学术团队报道,本文著作权归文章作者所有。欢迎个人转发及分享,未经作者的允许禁止转载。


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved