【基因组学】破解二代测序潜藏的玄机

2018-11-10 12:12:25, 安捷伦 DGG 团队 安捷伦科技(中国)有限公司


提到玄机一般都是暗藏,也就是很容易被人忽略的问题。二代测序中,通常会遇到以下两大玄机。

  1. 低廉价格的诱惑

  2. 漂亮参数的迷惑


测序前采用什么富集技术或建库方案、使用哪家的产品、捕获区域的大小、测序的深度等都直接关系到价格;而破解漂亮参数暗藏的玄机则需要大家对目标区域和自己的研究目的有更深入的了解方可不被表象所迷惑。

 

如果您建库与测序一并外包;

如果您困惑于不同厂家的同类捕获 panel;

如果您正在因为价格差异而犹豫不决;

如果您痴迷于捕获效率、覆盖度;

那么您一定要看过来。

 

下面我们从目标区域的靶向富集技术和基于捕获技术的基因 panel 两方面来挖掘二代测序的玄机和弯弯绕。




靶标的富集技术分为两大类,基于 PCR 扩增的富集与基于杂交探针捕获的富集。


基于 PCR 扩增的富集是利用针对目标序列的多对引物从总的基因组样本中扩增出目标序列,其特点是技术门槛低,靶标区域的引物定制方便、操作流程简便、成本低;缺点是由于引物设计与优化的局限性,基于 PCR 的方法能够富集的目标区域小,而如果引物区域存在未知变异则结果会完全错过该变异,同时无法排除由 PCR 过程造成的假阳性。


基于液相杂交探针捕获的靶标富集是利用与目标区域互补设计的几千到上百万条寡核苷酸捕获探针将目标区域抓取下来后再进行测序,其特点是探针设计灵活、通量高、捕获区域可大可小、可以检测融合基因;缺点是探针合成的成本相对较高、建库流程较长。目前市场上基于杂交探针捕获的靶标富集方法较为主流,特别是针对大的 panel,比如外显子组,只有杂交探针捕获技术可以实现对这些大区域的富集。所以接下来就详细聊聊杂交探针捕获技术。

 

杂交捕获技术根据探针种类分为两大类:

  • 安捷伦开创的 RNA 杂交捕获探针,探针是长度统一的 120 mer 的 RNA 探针。

  • 以 NimbleGen 为代表的 DNA 探针,NimbleGen 的探针长度为 50-105 mer 不等的 DNA 探针,illumina TrueSeq 为 95 mer 的 DNA 探针,IDT 是 120 mer 的 DNA 探针 。

 

DNA 探针的特点:

  1. DNA 与 DNA 的退火效率和特异性受温度影响大,为了确保一致的杂交效率有时需要对探针的长度进行优化

  2. DNA 探针的刚性强,探针对应区域如果有大片段的插入或缺失则较难捕获下来

  3. 短片段 DNA 探针的化学合成成本很低,但随着片段长度的增加,化学合成方法的成本会显著增加


RNA 探针的特点:

  1. 120 mer 的长 RNA 探针即使在过量的环境下也不会自我退火,从而可以实现同时的大规模的序列捕获;对长的探针可以采用更严格的清洗条件以最小化非靶标序列的污染 [1]

  2. 动力学上,RNA 驱动的溶液杂交无论是对短的分散的片段还是长的连续的区域都有等同的效果 [1]

  3. RNA 与 DNA 有更好的亲和力,过量的 RNA 探针可以促使反应向杂交的方向进行,并减少文库片段的用量;更少的 GC/AT 偏差,更佳的均一性 [1]

  4. RNA 特有的韧性加上 120 mer 的长度,在确保特异性的同时有更好的“容错性”,既可以捕获单碱基突变,又可以捕获插入/缺失突变(比如 25 bp 的缺失,如图 1),更少地丢失目标序列,实现了更高的灵敏度 [1,2]


图 1. RNA 探针有更好的韧性,当等位基因存在 2 - 25 bp 的缺失时也能捕获下来


讲完了杂交捕获探针再来看看基于杂交捕获的基因文库吧。大家通常会利用测序的结果来评估一款捕获产品的优劣,大家通常关注的参数有覆盖度、同样测序量下的测序深度、目标序列比率(或捕获效率)。咱们先看看这些名字解释,再以市场上几家公司的外显子组产品为例教你如何辨识这些参数。


  • 覆盖度(% coverage):一般是指目标区域中被测序覆盖 >1x 的区域的比例

  • 平均测序深度(Sequencing Depth):测序得到的碱基总量与目标序列碱基的比值,也可以理解为被测基因组上单个碱基被测序的平均次数

  • 测序深度 >20x 的覆盖度:目标区域中测序深度 >20x 的区域占总目标区域的比例

  • 目标序列比率或捕获效率(% on-target reads):目标区域序列数与测定的总序列的比值



我们都知道,外显子组有的区域 GC 含量低、AT 含量高,探针结合力弱,捕获效率低;有的区域因为存在重复序列、二级结构等不易设计探针,即使有探针覆盖,捕获效率也不高。而像覆盖度、捕获效率这些参数都与靶标的设计直接相关。也就是说,如果想让这些参数好看,很简单,跳过那些捕获效率低、难设计探针的区域,而靶标区域仅包括那些容易设计探针、捕获效率高而均一的区域。如果有人只关注上面的参数,仅根据这些参数来选择产品的话,最终的结果可能参数很漂亮,但却承担了丢失真正有意义的靶标的风险,并且这种风险是无论如何提高测序深度都没有办法弥补的,因为那些靶标根本不在这款外显子的设计里!


同样以全外显子组为例,评价它的优劣首先要以该产品的设计为出发点,客观的比较它对于各大数据库的覆盖,以及与其它同类产品相比所独有的有意义的靶点的数量。这里特别提醒一下,一些厂家在给出捕获产品的参数时,有时会经过“艺术处理”。比如,有的厂家给出的捕获区域的大小是期望捕获的区域而非探针实际覆盖的区域[2],这就造成了在比较数据库的覆盖度时,较为实诚的厂家就吃亏了。但当我们查看实际测序结果所反映的捕获数据时,那些经过“艺术处理”的厂家反而就没有后者的结果漂亮,所以大家要多长个心眼。当然,之所以会有艺术处理这一出,关键还是因为各大厂家都清楚,设计(design)是一款产品的根基,是产品的关键,如果根基不扎实、不完善,那么后期无论如何努力也是无法弥补它的先天不足的。


安捷伦临床研究外显子组 V2 是专门针对临床研究设计的一款全外显子组产品,它以安捷伦全外显子组 V6 的设计为基础,新增了美国埃默里大学和费城儿童医院精选的新增靶标,同时对疾病相关基因进行了加强覆盖,是目前市场上最全的一款医学研究外显子组。接下来,我们从它对各大数据库的覆盖来比较与其它同类产品在设计上的差别。


表 1. 所选注释源的覆盖率比较


再来看看独有的、有意义的靶点数量的差异吧。安捷伦的临床研究外显子组 V2 不仅包含更多的独有的疾病相关变异,同时含有更多独有的 ClinVar 致病/可能致病变异,而这些 ClinVar 致病/可能致病变异意味着更多种类的疾病被安捷伦的这款产品覆盖。


表 2. 独有的 ClinVar 变异比较


看完了上述比较,一款捕获产品的核心竞争力和对用户的价值一目了然。当然,没有一款产品是完美的,包含的位点越全,设计难度就越大。尽管如此,凭借在靶向捕获领域扎实的功底,安捷伦的这款业内最全面的医学研究外显子组——临床研究外显子组 V2 仍旧在覆盖度和捕获效率上表现非常出色(图 2)。


图 2 . 6.5Gb 测序数据量时靶标覆盖情况


除了选产品本身,别忘了考察一下定制能力。数据库更新的速度非常快,厂家推出稳定、可靠的商业化产品的速度无法及时跟上。所以,这里就要强调定制的重要性了。简单的讲,厂家推出新产品的速度赶不上数据库更新的速度,但咱们自己可以基于厂家已有的版本把数据库新增的基因加进去。安捷伦的 SurePrint 打印技术提供了非常强的定制能力,它的免费在线设计工具 SureDesign 就可以在已有目录 panel 的基础上按照用户的要求加入新的基因。这样一来,新的实验数据既与原先的实验数据保持了很好的一致性,又增加了新的内容。


通过以上简短的介绍后,多少能够帮助您窥见二代测序在上机测序前的靶标富集这一主要环节的玄机。愿您洞若观火,明察秋毫。

 

参考文献:

1.Solutionhybrid selection with ultra-long oligonucleotides for massively paralleltargeted sequencing, Nat Biotechnol. 2009, 27(2): 182–189

2.Newinsights into the performance of human whole-exome capture platforms, NucleicAcids Res. 2015, 43(11): e76


推荐阅读:


本文使用权归安捷伦科技(中国)有限公司所有,未经授权请勿转载至其他公众号,如需转载,请与工作人员联系,并注明出处。


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved