队列分析?DRAGEN™舍我其谁

2024-04-15 11:07:40 Illumina因美纳(中国)科学器材有限公司


Illumina DRAGEN (Dynamic Read Analysis for GENomics) 是由 Illumina 因美纳开发的高性能生物信息分析平台,涵盖全基因组、全外显子组、转录组、甲基化、单细胞等分析模块,旨在帮助客户获得精准的多组学数据分析结果。DRAGEN尤其适用于大型人群队列研究项目,英国UK Biobank、美国All of US、新加坡PRECISE等研究项目都无一列外采用了DRAGEN分析平台。

近期在Nature发布的美国“All of Us”大型队列研究成果中,正是采用了NovaSeq 6000+DRAGEN数据分析的整体解决方案,方案流程图如下:

图表 1:All of US基因测序与分析方案流程图

大型人群队列项目

数据分析实战建议    

01

关于分析流程

在Genomics England中发起的10万名患者的基因组测序项目中采用了支持家系分析的DRAGEN Pedigree De Novo CNV Calling 数据分析流程以支持罕见病队列研究,详情参考:

Genomics England罕见病基因组分析指导手册

DRAGEN支持联合基因分型工具Iterative gVCF Genotyper Analysis,单机可以在24 小时内实现1000个样本的整合分析。

DRAGEN gVCF分析指南

02

关于测序深度

参考UK Biobank自然人群队列以及Genomics England Rare disease in the 100,000 Genomes Project研究项目,建议平均测序深度>=30x。而基于癌症相关的队列研究可参考Genomics England Cancer Genomic,建议肿瘤样本平均测序深度>=100x, 正常白细胞对照样本平均测序深度>=30x。

03

关于数据存储

由于大规模的基因组计划,数据存储和备份是一个很大的问题,参考UK Biobank与All of US都采用了保存CRAM格式的文件。在一项研究(Al Ali A, Kandavel P K, Al Mabrazi H, et al. CRAM compression: practical across-technologies considerations for large-scale sequencing projects[J]. bioRxiv, 2022: 2022.12. 21.521516)中,更是论证了采用CRAM这一无损压缩格式的可行性。同样在DRAGEN数据分析过程中,通过指定输出参数“--output-format CRAM {SAM/BAM}”就可以实现不同数据格式的输出,而无须借助第三方工具的额外转换。

UK Biobank全基因组分析常见问题指南

文件中说明了目前UK biobank提供两个版本WGS数据:

DRAGEN(Category 185.)

BWA-MEM/GATK CRAM(Category 270)

但鉴于遗传学界越来越多使用DRAGEN作为分析标准,BWA-MEM/GATK CRAM 版本可能会在未来版本中弃用,该决定会在 2024年传达给研究人员。

04

关于参考基因组版本

通过整理最新发布的一系列的基因组计划如:1000 Genomes Project (1kGP) 、UK Biobank、All of Us、Japanese Population、TOPMed、NyuWa、Westlake BioBank、China Kadoorie Biobank等都采用了GRCh38版本的参考基因组,All of Us还同时采用了CHM 13 telomere-to-telomere (T2T) human reference genome。

研究者可以根据不同的研究类型在因美纳官网下载DRAGEN支持的不同版本的参考基因组索引,如:GRCh37d5、hg19、hg38、GRCh38、chm13等。

DRAGEN™平台的

三大优势

DRAGEN平台提供最全面的变异检测,例如:SNV/Indel, SV, CNV, STR, PGx, targeted callers,并且可以一键化实现对基因组学数据的全景变异分析,极大地简化了分析步骤。

Graph参考基因组和机器学习推动实现更高的准确性。DRAGEN分析PrecisionFDA Truth Challenge V2基准数据,获得了99.84%的准确率得分。

PrecisionFDA Truth Challenge V2: Calling Variants from Short and Long Reads in Difficult-to-Map Regions. precision.fda.gov/challenges/10

DRAGEN on Illumina is the first single platform to achieve 99.84% accuracy based on PrecisionFDA v2 Truth Challenge Benchmark Data.

~25分钟内可处理30x的全基因组数据,检测内容包括:SNP/Indel、CNV、SV、STR等。相较于最常使用的开源工具BWA-GATK,提速16-20倍。

参考资料:

UK Biobank (https://www.ukbiobank.ac.uk)

论文引用:UK Biobank Whole-Genome Sequencing Consortium, Li S, Carss K J, et al. Whole-genome sequencing of half-a-million UK Biobank participants[J]. medRxiv, 2023: 2023.12. 06.23299426.

All of Us (https://allofus.nih.gov/)论文引用:The All of Us Research Program Genomics Investigators. Genomic data in the All of Us Research Program. Nature (2024).

Genomics England (https://www.genomicsengland.co.uk)

Illumina DRAGEN Resources for PopGen (https://developer.illumina.com/dragen/dragen-popgen)

仅供研究使用,不得用于诊断。

.


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved