​项目文章 | 基因组分析为苎麻驯化研究提供全面视角

2022-07-15 08:24:14, 星标关注 上海欧易生物医学科技有限公司


点击 … 设为星标
● 点击 蓝字 关注我们 ●

前言

2021年5月16日,中国农科院麻类研究所 刘头明 研究员上海欧易生物医学科技有限公司合作在Plant Journal(IF=6.141)上在线发表青叶苎麻基因组与群体研究最新科研成果。文章题目为 “Genomic analyses provide comprehensive insights into the domestication of bast fiber crop ramie (Boehmeria nivea”。刘头明研究员为通讯作者,中国农科院麻类研究所王延周副研究员、博士研究生李富、硕士研究生何巧芸和上海欧易生物医学科技有限公司鲍志贵为共同第一作者,上海欧易生物的安冬、张婷和王恒允也参与此项研究。上海欧易生物为该研究的数据分析提供全面服务。


摘要

苎麻(Boehmeria nivea)是一种生产天然纤维的作物,具有重要的经济价值,在中国已有数千年的种植历史,然而,这种作物的进化在很大程度上仍不清楚。在此,我们报道了一个基于栽培和野生材料基因组组装和重测序的苎麻驯化分析。我们分别从头组装了野生苎麻和栽培苎麻的两个染色体水平的基因组。两个基因组之间的大量结构变异,以及群体重测序产生的遗传变异,构成了苎麻基因组变异图谱。群体多样性分析发现,186个推测的驯化清除位点包含1238个预测基因,其中92个基因与纤维生长相关。此外,我们在两个基因组杂交的分离群体中鉴定了7个与纤维产量性状相关的遗传位点,其中5个位点与选择性清除位点存在重叠。这些结果表明,苎麻驯化过程中,韧皮纤维性状是比较集中的。本研究对苎麻的驯化具有一定的指导意义,并为苎麻的生物学和育种研究提供了有价值的资源。

 

研究背景

植物纤维作为最重要的可再生资源之一,被广泛应用于造纸工业和制造各种纺织品和复合材料。韧皮纤维、来自种子毛状体的棉纤维和来自木材的木质部纤维是人类使用的三种最重要的纤维类型。从植物的茎皮中提取的韧皮纤维一直被用来生产纺织品。虽然韧皮纤维类作物的特点是茎皮中纤维含量丰富,但它们几乎没有进化关系,这些作物产生的韧皮纤维是否经历了趋同进化尚不清楚。最近,包括亚麻、大麻、黄麻和红麻在内的几种韧皮纤维作物的基因组的报道为探索这些作物韧皮纤维的形成和进化提供了机会。


苎麻(Boehmeria nivea)是中国最古老、最重要的纤维生产作物之一,已有4700多年的种植历史。苎麻纤维具有许多优良的特性,如长纤维链有时可达55厘米,这使苎麻纤维成为研究植物细胞伸长和细胞壁形成的有用模型。尽管对苎麻来说已有contig级别的基因组组装本可用,但苎麻物种形成和性状多样化相关的进化动态背后的遗传和分子基础尚不清楚。分类学、遗传学和分子生物学证据表明,栽培苎麻是从野生苎麻(Boehmeria nivea var. tenacissima)驯化而来。


在此,我们对栽培苎麻及其野生种的高质量基因组进行从头组装,并对栽培种和野生种进行重测序来探索苎麻驯化的过程。本研究结果为苎麻的进化提供了全面的认识,两个高质量的基因组组装和大规模的基因组变异数据为苎麻未来的生物学和育种研究提供了宝贵的资源。

 

研究结果

1. 基因组组装与注释

利用Nanopore和PacBio的三代测序、Hi-C测序和Illumina测序数据分别对野生种“青叶苎麻”和优良栽培品种“中饲苎1号”进行从头组装,得到270.2 Mb的野生苎麻基因组和266.0 Mb的栽培苎麻基因组,contig N50分别为10.51 Mb(野生种)和2.33 Mb(栽培种)。通过Hi-C组装将97%的野生苎麻序列和93%的栽培苎麻序列分别挂载到相应的基因组上 (图1a),Scaffold N50分别为19.55 Mb和17.80 Mb。基因组共线性分析显示,两个组装本具有良好的共线性,同源性平均百分比为96.4 -97.0%(图1b)。BUSCO评估表明两个基因组的组装完整性为96.9%(表1)。


我们结合de novo注释、同源数据库及转录组分析方法对蛋白质编码基因进行了注释,从野生种基因组和栽培种基因组中分别鉴定出20,693个和19,498个预测基因,对应的转录本预测为34,657个(野生)和36,099个(栽培)。此外,从野生种中预测出1176个非编码RNA和112.7 Mb的重复序列(占基因组的45.5%);在栽培种中预测出1126个非编码RNA和117.1 Mb的重复序列(占基因组的44.3%)。长末端重复序列(LTR)和DNA逆转录转座子这两类重复序列占比最丰富,分别占野生种基因组的40.5%和栽培种基因组的39.1%。值得注意的是,由于苎麻所有染色体都是亚端着丝点,我们观察到重复序列聚集分布在染色体的一端(图1a)。利用LTR装配指数(LAI)进一步评估基因组的完整性,发现野生种基因组达到黄金级(LAI = 23.38),栽培种基因组达到参考级(LAI = 19.28)。

 

2. 苎麻基因组进化

苎麻属于蔷薇目荨麻科,是荨麻科唯一具有组装基因组的成员。因此,作为荨麻科的首个基因组,苎麻对于研究蔷薇目植物系统发育具有重要意义。通过对10个物种(其中8个来自蔷薇目)基因组的2578个单拷贝同源基因的分析,我们发现苎麻与蔷薇科的野草莓(F. vesca)、鼠李科的枣树(Z. jujuba)和大麻科的大麻(C. sativa)的分化时间分别在大约89.0、75.1、75.1个百万年前(MYA)。苎麻与桑科的代表物种白桑(M. alba)共有一个单系分支,其进化关系最为密切,在~48.7个百万年前共有一个祖先。进一步的基因组比较分析表明,苎麻和桑树基因组具有良好的共线性(图1d)。


枣树(Z. jujuba)和榕树(F. erecta)的基因组分别有12条染色体和13条染色体,而桑树和苎麻有14条染色体。因此,我们通过鉴定这些蔷薇目物种基因组中的共线模块来探索其核型进化。结果表明,在进化过程中,从蔷薇目早期进化物种(枣树)到苎麻、桑树和榕树三个物种的祖先,9条染色体(染色体1 ~ 4、6、7和9 ~ 11)基本保持完整,另外3条染色体(第1、8和12条)发生了分裂和融合,在苎麻、桑树和榕树的基因组中形成了5条染色体。随后,这14条祖先物种的染色体完整地保存在桑树和苎麻的基因组中,而在榕树的基因组中,原始物种的两条染色体进一步合并,仅得到13条染色体(图1 d)。全基因组复制(WGD)事件是驱动基因组进化和扩张的主要因素之一。在苎麻中,只检测到一次古老的六倍化事件,没有发现最近的WGD事件。

图1:苎麻基因组的基本特征和进化。a,两个基因组的特征。i表示染色体长度,ii-iv分别表示每条染色体中DNA转座子、LTRs和基因的密度。v和vi分别表示基因表达水平和LTR组装指数。每层的外层和内层分别表示野生种和栽培种组装本数据。b,野生种与栽培种基因组之间的共线性分析。c,由苎麻和其他九种双子叶植物构建的系统发育树。d,苎麻、桑树、榕树和枣树核型的进化比较。

 

3. 基因扩张

苎麻、棉花、亚麻、大麻、黄麻和红麻几乎提供了所有纺织的天然纤维。这六种纤维作物分别来自锦葵科(棉花、黄麻和红麻)、亚麻科(亚麻)和蔷薇目(苎麻和大麻)三个不同的系统发育分支(图2a)。为了深入了解这些作物纤维形成相关基因家族的进化,我们研究了14个物种的基因组扩张事件,包括所有感兴趣的纤维作物6种和其近源物种7种以及1个外类群物种葡萄(V. vinifera)。14个物种中共鉴定到18,624个基因家族,对基因家族进化的计算分析结果显示,苎麻基因组中只有473个基因家族发生了扩张,而棉花、洋麻、黄麻、亚麻、大麻中分别有1664个、6957个、1287个、8985个和1562个基因家族发生了扩张(图2)。


在拟南芥中报道了至少120个纤维形成相关基因,涉及85个同源基因家族。有趣的是,通过与不产生纤维的近源种基因组进行比较发现,这85个同源家族的基因数量在亚麻(362个基因)、棉花(396个基因)和红麻(545个基因)基因组中显著增加。然而,大麻(250个)、苎麻(179个)和黄麻(178个)基因组中与纤维形成相关的同源基因总数无明显差异(图2 b)。我们进一步研究了这85个家族在6种纤维作物上的扩张情况,发现红麻、亚麻、大麻和棉花中分别为56、57、18和10个家族发生了基因组扩张,而在苎麻和黄麻基因组中,分别只有4个和3个纤维形成相关家族被证明是发生了扩张的(图2c)。值得注意的是,在与纤维形成相关的85个同源家族中,除了OG0000720在研究的6个基因组中的5个中发生了普遍扩张外,所有的同源家族都仅在不超过3个基因组中扩张(图2c)。因此,我们的研究结果表明,6种主要纤维作物的纤维形成相关基因家族的扩张进化存在明显差异。

图2:六种主要纤维作物的纤维形成相关同源序列的比较。a, 6种纤维作物和7个近源种同源基因扩张与收缩分析,以葡萄(V vinifera)作为系统发育树的外类群。b, 13种植物中涉及转录调控(TR)、纤维素生物合成(CB)、木质素生物合成(LB)、半纤维素生物合成(HB)和次生壁图形沉积(PDSW)的纤维形成同源基因数量统计和比较。c,六种纤维作物中的同源基因家族扩张。

 

4. 野生种与栽培种基因组比较 

我们比较了野生种和栽培种苎麻的基因组来确定这两个基因组之间的共同和特有基因。共鉴定出13,090个共有基因家族,野生种基因组特有基因家族1276个,栽培种基因组特有基因组家族1068个。由于物种特有基因与物种形成和性状多样化有关,我们通过pathway富集分析对特有基因的功能进行了概述。结果表明,野生苎麻特有基因“RNA聚合酶”(ko03020)显著富集,而栽培苎麻特有基因显著富集在包括“植物激素信号转导”(ko04075)和“光合作用”(ko00195)在内的 4个通路中)。通过比较野生苎麻和栽培苎麻基因组序列之间的差异,,我们鉴定出2,103,335个SNPs和626,958个InDels (图3a)。在这些变异中,编码区有89,610(4.26%)个SNPs和13,007(2.07%)个indel被注释到对编码蛋白有影响。


结构变异(SVs)在作物改良和驯化过程中农艺性状的遗传决定中发挥着关键作用。我们检测了两个基因组之间的SV,发现5,687个PAVs、3,700个CNVs、1880个倒位和1162个易位事件。最大的SV出现在第4染色体上(野生种基因组约1.86 Mb),由两个倒位组成(图3b)。该SV共包含38个基因,其中3个基因(Bnt04G005505、Bnt04G005508、Bnt04G005520)在纤维发育的树皮中表现出表达差异。纤维素合成酶(CesA)是纤维中纤维素生物合成的重要酶。有趣的是,我们发现在栽培种基因组中,1号染色体相邻区域的倒位易位导致了一个154.7 kb的重复,从而导致了CesA基因在该区域的重复(图3c)。对PAV变异基因的富集分析表明,这些基因在“玉米素生物合成”途径(ko00908)和“植物-病原体互作”途径(ko04626)显著富集。因此,这些SV对栽培苎麻的性状改良具有潜在影响。

图3:野生种和栽培种基因组之间的变异。a,两个基因组的特性分布。i-iii分别表示基因、SNPs和InDels的密度;iv-vi分别表示PAVs、重复和倒位/易位的分布;v中的橙色和蓝色线分别表示野生种和栽培种基因组中的重复序列;vi中的线分别表示倒位和易位。b,结构变异最大的4号染色体,在野生种基因组中长度为1.86 Mb,包含两个倒位。c,在栽培种基因组1号染色体上发现了一个携带CesA基因的1540.7 kb重复。

 

5. 基因组变异和群体结构

苎麻种质存在广泛的表型多样性(图4a),表明存在广泛的遗传变异。利用Illumina测序技术对60份苎麻材料(包括46个品种和14份野生材料)进行重测序,探讨苎麻遗传变异。共生成~316.1 Gb高质量的clean reads,平均覆盖深度为~18.3倍,苎麻基因组的覆盖率为95.7%。将这些reads定位到苎麻基因组后,鉴定出6,802,591个高质量SNPs和898,252个小indel,平均每kb有25.2个SNPs和3.3个indel。在这些变异中,944,126个SNPs和31,783个indel位于编码区, 4,439个SNPs和2,077个indel位于剪接位点受体或供体,提示它们对相应基因的功能有潜在的影响。这些数据为开展苎麻的生物学、遗传学和育种研究提供了新的资源。


然后根据系统发育、贝叶斯聚类和主成分分析(PCA)推断种群结构。结果表明,野生种和栽培种材料可以区分为两个不同的类群(图4b-d)。但2组间的平均固定指数(FST)仅为0.118,说明野生苎麻与栽培苎麻的基因组差异不大。结果表明,栽培类群的核苷酸多样性(π = 0.00693)高于野生类群(π = 0.00618)。此外,我们观察到栽培种连锁不平衡(LD)的衰减速度显著加快(0.9 kb, r2 = 0.144),进一步支持栽培苎麻的广泛多样性。 

图4:苎麻种质群体结构。a,野生苎麻(W)和栽培苎麻(C)的形态比较。b, 60份材料的PCA结果。c,系统发育树。鉴定出两个基本的演化支。进化支系I进一步分为野生苎麻组(wild)和栽培苎麻组1 (CR1)两个主要亚支系,而进化支系II由栽培苎麻组CR2组成。d,基于模型的聚类分析(k = 2-5)。

 

6. 为提高产量而驯化苎麻

在农业发展过程中,人们经常从野生植物中选择具有优良性状的作物,例如具有长而宽的茎和丰富韧皮纤维的苎麻个体(图4a)。为了识别苎麻驯化过程中可能的选择指标,我们利用50 kb滑窗比较野生苎麻基因组和栽培苎麻基因组,筛选核酸多态性急剧下降的基因组区域(图5a)。最终,我们发现了71个高置信的驯化清除区域,覆盖了组装基因组的1.61% (4.35 Mb),包含320个预测基因。最大的选择区域(250 kb)位于第13号染色体上。


与野生苎麻相比,栽培品种的纤维产量显著提高(图4a)。为了鉴定可能已被选择的潜在纤维生长相关基因,我们分别对茎顶(次生壁尚未形成)和茎中部(次生壁开始加厚)的树皮样品进行基因组表达谱表征和比较,鉴定出1,758个差异表达的基因,这些基因在纤维细胞次生壁生物合成相关的GO中显著富集,如细胞壁的生物发生(GO:0042546)、细胞壁(GO:0005618)和木聚糖生物合成过程(GO:0045492)。在这些差异表达的基因中,有29个位于驯化清除区域,其中包括NAC蛋白编码基因Bnt08G012573Bnt08G012573是拟南芥NST1/NST2的同源蛋白,NST1/NST2的主要功能是调节次生壁的生物合成。通过反式激活分析和亚细胞定位进一步证实Bnt08G012573是一个转录因子。过表达Bnt08G012573显著增加了拟南芥茎的韧皮纤维数量(图5b)。


此外,为了鉴定可能与纤维产量性状有关的驯化位点,我们将野生种“青叶苎麻”和栽培种“中饲苎1号”两个全新组装的种质资源进行杂交,构建了110个F2分离群体。从该群体中共鉴定出446,329个SNPs,将其与纤维产量性状进行关联分析,最终发现了涉及7个区域的54个关联SNPs,其中2个位点(qFY5qFY6)与驯化清除区域重叠(图5a)。在5号染色体上纤维产量关联的SNP位点qFY5附近检测到一个LOD峰(图5c),表明了qFY5位点的可信度。此外,我们在驯化清除区域发现了一个生长素响应基因(Bnt05G007931)与qFY5重叠(图5d),进一步分析F2分离群体的表型数据,发现Bnt05G007931野生等位基因的F2代纤维产量显著低于栽培等位基因和杂合等位基因的F2代(图5 e)。Bnt05G007931基因主要在茎和根中表达,但野生苎麻和栽培苎麻之间的表达差异不显著。此外,与未启动次生壁生长的茎皮组织相比,纤维发育的韧皮组织中该基因的表达显著上调(图5f)。综合来看,该结果表明Bnt05G007931是qFY5的合理候选对象。

 

纤维是最长的植物细胞之一,纤维的伸长对其性能有重要影响。此外,茎长是决定苎麻纤维产量的重要因素之一,栽培苎麻和野生苎麻之间存在明显差异(图4a)。赤霉素在促进纤维细胞和茎的伸长方面发挥着关键作用。在本研究中,我们在栽培苎麻中检测了4个编码赤霉素代谢酶的基因,它们的核苷酸多样性显著降低,包括两个连续重复的GA2ox基因,BntGA2ox1Bnt13G019022)和BntGA2ox2Bnt13G019023)。GA2ox是失活活性GA分子的主要酶,顶部茎的树皮纤维迅速伸长,我们发现BntGA2ox1和BntGA2ox2在顶部茎的树皮中表达均较低(图5g),说明这两个GA2ox基因参与了调控韧皮部纤维的伸长。对比栽培苎麻和野生苎麻的基因组,发现BntGA2ox1的基因区域存在广泛的差异,包括在栽培种基因组中存在一个11.7 kb的插入(图5h),该插入序列导致BntGA2ox1基因在栽培种基因组中只保留了6个外显子中的2个。栽培苎麻的BntGA2ox1多样性显著降低(图5i),该区域在栽培种和野生种基因组之间表现出显著差异。


综上所述,我们的研究结果显示了大量与纤维产量相关的基因组区域/基因都经历了重要的选择,这表明纤维产量是苎麻驯化过程中选择的重点。

图5:苎麻纤维产量的驯化。a, 14条染色体的选择指标。b,过表达bnt08g012573拟南芥(i)与野生型拟南芥(ii)的茎组织横切面显微观察。c,利用F2群体的关联分析在5号染色体上检测到qFY5。d,第5号染色体区域的核苷酸多样性(π)和Fst值在12.0 ~ 14.0 Mb之间的分布,生长素响应基因Bnt05G007931位于该区域。e,野生种(W)、杂合子(H)和栽培种(C)的F2子代的纤维产量值。f, Bnt05G007931在顶部茎组织(TPS)和中部茎组织(MPS)树皮中的表达量。g, TPS和MPS的树皮中BntGA2ox1和BntGA2ox2的表达。h,BntGA2ox1中插入的11.7 kb的序列导致了基因结构的改变。i, 10号染色体区域的核苷酸多样性(π)分布和Fst值在12.0 ~ 14.0 Mb之间,两个GA2ox基因(BntGA2ox1和BntGA2ox2)位于该清除区域。

 

研究结论

本研究重新组装了野生苎麻和栽培苎麻的黄金级和参考级基因组,根据BUSCO和LAI评估以及端粒搜索,本研究中组装的基因组序列是连续的、完整的,这为发现可靠变异提供了机会。基于这两个高质量的基因组,我们发现了许多变异,包括对重要基因功能具有潜在影响的SVs,其中一些在栽培苎麻中表现出显著的多样性下降,如GA2ox基因BntGA2ox1(具有11.7 kb-PAV)在栽培苎麻和野生苎麻中表现出明显的分化。由于GA2氧化酶主要功能是失活活性GA分子,本研究在基因表达、序列变异和分化数据三个方面的证据有力地支持了BntGA2ox1在纤维长度驯化过程中发挥重要作用的可能性。本研究结果为苎麻的驯化提供了全面的认识,两个高质量的基因组以及全基因组变异和大量的野生等位基因为苎麻未来的生物学和育种研究提供了有价值的资源。

 

编者按

欧易生物动植物基因组研究团队为客户提供基因组de novo、重测序(WGS)、全外显子捕获测序(WES)、BSA测序、群体进化、GWAS等高质量的测序与分析服务,多年经验沉淀积累,多元化项目技术服务,多组学技术平台联合支撑,极力打造一站式服务。

END

Tracy  撰文

本文系欧易生物原创

欢迎转发到朋友圈

转载请注明文本转自欧易生物


欧易生物 | oebiotech

www.oebiotech.com/cn

☏ 400-808-5350 / 021-34781616

!

扫码联系客服 · 了解更多

更多精彩内容“阅读原文

右边给我一朵小花花


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved