必看!99% 科研人会忽略的测序致命伤

2020-05-10 07:59:33 安捷伦科技(中国)有限公司



HiSeq X Ten 和 NovaSeq 大大提升了测序通量,但样本标签错配问题着实让人头疼。FFPE、液态活检样本的趋动变异频率实在太低,而建库环节、PCR 环节、测序本身的错误率就和变异频率差不多,如何将它们区分开?

优化的建库方案是解锁各项难题的一把钥匙,解题之前让我们先熟悉一下很多人傻傻分不清,但与上述问题直接相关的两种标签(index)——样本标签和分子标签。

滑动查看样本标签和分子标签的定义

样本标签即 sample index。高通量的测序仪由于每一条 lane 的测序能力都远大于一个样本所需的数据量,为了避免试剂浪费,会将不同样本混合在一起测序。样本标签是不同序列的寡核苷酸片段,通过对样本添加标签就可以区分不同样本,获得测序数据后通过样本标签将分属于不同样本的测序数据归拢到一起。所以样本标签是用于区分不同样品的,是样品的“身份”。


  • 样本标签分为单端标签和双端标签,分别指在样本一端用标签标记,和在样本两端用标签标记。双端标签可以实现更多种的组合,随着测序通量的提高,双端标签被更广泛的使用。


  • 双端标签又分为组合型双端标签(Combinational Dual Index–CDI)和序列特异双端标签(Unique Dual Index–UDI)。CDI 通过对样本两端的标签进行组合来标记样本,例如 i5 有 8 个唯一序列的标签,i7 有 12 个唯一序列的标签,组合起来就有 96 种组合方式,可以标记 96 个样本。而对 UDI 而言,所有的 i5 与 i7 标签都是序列特异的(图 2)。


分子标签:MBC-Molecular Barcode,有时也称 UID(Unique identifiers),UMI(Unique molecular identifiers)。是对原始样本基因组打断后的每一个片段都加上一段特有的标签序列,用于区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除由于 DNA 聚合酶扩增以及测序过程中所引入的错误。单端分子标签通常为大约 10 nt 左右的随机序列,双端分子标签通常为两端各 3 个碱基的随机序列。有别于样本标签,分子标签是针对同一个样本中的不同片段加上的标签序列。


  • 分子标签又分为单分子标签和双分子标签,前者只在原始 DNA 片段的一条链上结合一个标签;而后者则是在原始 DNA 片段的正义链和反义链的两端各结合两个序列不同的标签。

什么是样本标签错配?
它会对实验结果带来什么影响?
样本标签错配(index misassignment)最主要的原因是标签跳跃(index hopping),标签跳跃在最新型的测序平台上特别显著,一些样本标签在新型高通量测序仪 Flow Cell 里的某些特殊机制的作用下发生了跳跃,被分配到错误的样本上,导致了样本标签的错配。
图 1. 多样本混合测序与标签跳跃。通过在文库构建过程中对每个 DNA 片段添加该文库的独特序列标签,可以将多个文库混合在一起测序。测序数据根据不同的标签被分配到不同样本。标签跳跃会导致数据分配错误,并可能导致数据拼接错误或下游分析中结论的错误[1]
样本标签错配对测序结果的影响可能是致命的
美国斯坦福大学的研究团队通过 HiSeq 3000/4000/X Ten 对小鼠造血干细胞和胎心细胞 RNA 测序找到了 41 个可能的新的造血干细胞亚群,然而同样的文库在 NextSeq 500 上测序时却无法重现之前的发现。最终他们发现用 HiSeq 3000/4000/X Ten 测序时,有高达 5~10% 的序列读数(或信号)被错误地分配给了同一个混合样本池内的其它样本,从而导致了那些假阳性的发现[2]。之后相继又有多家研究机构都发现了在新型高通量测序仪上有样本标记错误的问题。
标签跳跃是导致样本标签错配最主要的机制[1]
Illumina 在 2017 年 4 月公布的白布书《Effects of Index Misassignment on Multiplexing and Downstream Analysis》中承认,在采用 Patterned Flow Cell Technology(PFCT)的高通量型号,如 HiSeq 4000,Hiseq X 系列,以及 NovaSeq 上容易出现样本标签错配(index misassignment)问题。
除了标签跳跃,其它实验过程也会引入标签错配
例如在核酸片段加完接头以后,如果文库纯化不充分,残余的接头与引物会引起文库污染,从而可能导致标签跳跃和错配[1]。所以做好文库的纯化与质控也非常必要。
建库方案的优化
首先需要解决标签错配的问题

目前最普遍采用的双样本标签,相当于给样本标记加上双保险。然而组合型的双端标签(Combinational Dual Index–CDI)仍然存在标签共用的问题,以 96 CDI 为例,每一列的 i5 标签都是相同的,每一行的 i7 标签也都是相同的。当标签发生跳跃,形成新 i5 与 i7 组合时,这一组合产生的错误数据将无法被剔除。除此以外,组合型的样本标签需要将不同的 i5 与 i7 标签组合使用,一旦发生标签污染,就会引入假阳性。序列特异双端标签(Unique Dual Index–UDI)不存在标签共用问题,一对样本标签同时两两跳跃到另一段 DNA 片段上的概率几乎为零,因而可以更好的解决标签跳跃问题。

图 2. 左图为组合型样本标签 CDI 示例。不同样本共享 i5 和 i7 标签,通过两两组合成 96 组或 384 组样本标签对。右图为序列特异的双端样本标签 UDI 示例。UDI 的 i5 与 i7 的标签序列均互不相同,样本无需共享标签。96 UDI 就含有 96 对序列完全不同的标签对,384 UDI 就含有 384 对序列完全不同的标签对。
同时还要「解决掉」文库构建
与测序环节引入的「错误」
在文库构建的 PCR 环节和上机前文库的扩增环节,DNA 聚合酶和扩增会引入一些原始样本基因组上原本不存在的错误以及扩增的偏好性[3]。而测序环节,以最常见的 illumina 测序仪为例,取决于不同的测序读长、base calling 算法,以及检测的突变类型,测序错误率为 1%~0.05%[4]。这些系统错误的存在,干扰了利用高深度测序检测低频突变,导致难以区分所检测到的变异到底是真实的样本突变还是由于这些系统错误所造成的假阳性。
分子标签解决 PCR 扩增与测序过程引入的错误
如图 3 所示,通过分子标签的标记,同一个样本的每一个初始 DNA 片段都结合了一组特异序列的标签,它们会随目标序列一起经过文库构建、PCR 扩增,然后被一同测序。最终测得的序列中,凡带有相同分子标签的序列,就说明它们是从同一条原始的 DNA 片段扩增而来的;而带有不同标签的序列,则说明它们来自不同的原始 DNA 片段分子。由于 PCR 和测序过程中的错误是随机发生的,因此根据这些分子标签,可以在去除冗余的过程中将 PCR 和测序等过程中带来的系统突变剔除掉。
双分子标签可以校正 PCR 早期引入的假阳性
然而单一分子标签是很难校正 PCR 早期引入的假阳性的,而在双分子标签(Dual MBC)系统下,可以通过比对正义链的序列与反义链的序列来较正那些 PCR 早期发生的突变,有效去除 PCR 早期引入的假阳性[5],相比单 MBC 在对抗低频变异样本的假阳性上表现更出色。
图 3. 双分子标签(Dual MB)分别对正义链与反义链进行标记,通过比对两条链的序列信息,可以校正 PCR 早期引入的突[5]
哪些实验要特别小心标签错配、
PCR 过程的错误,
以及测序过程本身的错误率?
极低频率变异的检测,比如液态活检、FFEP 样本,混合样本中的微量病原微生物检测,以及基因表达研究等。简而言之,在背景复杂、高背景噪音下检测微量靶标的应用都容易受到标签错配和 PCR 与测序过程带来的假阳性的影响。
怎样的优化建库方案
才能让我们步步为营,步步为赢呢?
 
安捷伦最新推出的 SureSelect XT HS2 有效解决上述问题。它提供了:
  • 384 对序列唯一双端标签(384 UDI)满足高通量测序混样需求,同时有效应对标签错配,预混好的 384 UDI,方便操作,避免手动混合潜在的交叉污染风险 
  • 双端分子标签(Dual MBC)校正 PCR 与测序过程的假阳性,包括 PCR 早期引入的假阳性
  • 优化的接头连接体系,大幅提高转化效率,生成高复杂度的文库,从微量的 FFEP 和液态活检样本中获得尽可能全面的信息
  • 样本片段化的兼容性,兼容机械打断与酶切打断(后者在低频变异应用中表现更为出色)
  • 样本的兼容性,FFPE、低质量的 FFPE, ctDNA 等样本均可采用同一操作流程
  • 灵活的工作流程,既可以在一天内完整杂交、捕获,又可以过夜杂交
  • 灵活的包装,包括自带磁珠的包装,方便订购
  • 另外,安捷伦 SureSelect 酶切片段化试剂盒具有很好的 Tris/EDTA 浓度兼容性,基本无需稀释,即可对不同样本采用同一酶切程序

扫描下方二维码或者点击“阅读原文”,
观看 SureSelect XT HS2 讲座。
参考文献:
1.Illumina. Effects of index misassignment on multiplexing and downstream Analysis.
2.Sinha et al. Index switching causes 「spreading-of-signal」 among multiplexed samples in Illumina HiSeq 4000 DNA sequencing. BioRxiv preprint. 2017 
3.Peng et al. Reducing amplification artifacts in high multiplex amplicon sequencing by using molecular barcodes. BMC Genomics. 2015, 16:589.
4.Kinde et al. Detection and quantification of rare mutations with massively parallel sequencing. Proc Natl Acad Sci U S A. 2011, 108(23):9530-5. 
5.Schmitta et al. Detection of ultra-rare mutations by next-generation sequencing. PNAS. 2012, 109:14508–14513.
本文使用权归安捷伦科技(中国)有限公司所有,未经授权请勿转载至其他公众号,如需转载,请与工作人员联系,并注明出处。
长按识别二维码, 关注安捷伦视界

  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved