Cell Systems | ChinaMAP 曹亚南团队联合华大智造成功实现全流程加密GWAS隐私计算

2022-09-14 07:49:26, 赋能科研的深圳华大智造科技有限公司

2022年8月29日，ChinaMAP曹亚南研究团队与华大智造合作在Cell系统生物学领域子刊Cell Systems上发表了题为“TrustGWAS: A full-process workflow for encrypted GWAS using multi-key homomorphic encryption and pseudorandom number perturbation”的研究成果。研究人员开发了一款支持多方联合进行GWAS全流程分析的隐私计算工具——TrustGWAS。该工具结合了多密钥同态加密和伪随机数扰动两种密码学技术方案，成功实现首个支持全流程GWAS分析的隐私计算工具。

中国代谢解析计划ChinaMAP（China Metabolic Analytics Project）是国家代谢性疾病临床医学研究中心（上海）基于上海交通大学医学院附属瑞金医院牵头开展多项覆盖全国的队列研究，该研究依托转化医学国家重大科技基础设施(上海)和医学基因组学国家重点实验室实施。

研究背景

GWAS即全基因组关联分析，常用于探索基因组中的变异（如单核苷酸多态性，SNP）与表型（如某种疾病的发生）之间的关系。GWAS的统计效力受到有效样本量的影响，从大型队列中增加样本量对于提高统计效力至关重要，特别是发现频率低或效应小的弱信号。然而，个人的基因组数据是私有的、敏感的，与个人遗传信息、疾病风险、独特的表型和家庭关系密切相关。据报道，250个单核苷酸多态性（SNP）位点可以独特地识别一个人[1]。由于人类基因数据固有的私密性，合作研究受到隐私限制和数据保护法的约束，这使得科学界不愿意直接分享数据。另一方面，依靠汇总统计进行荟萃分析时，当表型分布不平衡或各研究之间存在异质混杂因素时，相关统计效力下降[2]。因此，以安全和保护隐私的方式对个体水平的数据进行GWAS联合分析的能力对于促进科学发现至关重要。为了解决以上问题，有不少密码学工具相继运用到安全GWAS的模块开发中。

何为隐私计算？隐私计算常用的技术路线有哪些？据隐私计算联盟在《隐私计算应用研究报告（2022年）》中所述，隐私计算是指“在保证数据提供方不泄漏原始数据的前提下，对数据进行分析计算，有效提取数据要素价值的一类信息技术，保障了数据在产生、存储、计算、应用、销毁等各个环节中的可用不可见”。目前，隐私计算包括多种技术路线，如多方安全计算（Secure Multi-party Computation，SMPC）、同态加密（Homomorphic Encryption）、联邦学习（Federated Learning，FL）、可信执行执行环境（Trusted Execution Environment， TEE）等，辅以差分隐私、零知识证明等其他密码学技术。

多方安全计算

多方安全计算最初是由姚期智院士提出，源于解决一个百万富翁的问题，即两个互相不想透露自己有多少钱的富翁，如何比较出谁更有钱的问题。安全多方计算是指一组相互不信任的参与方各自拥有秘密数据，协同计算一个既定函数。参与方除了获得计算结果，无法获得之外的任何信息。

联邦学习及群体学习

联邦学习是指保证数据不出本地，多方共同构建机器学习模型进行训练的方法。而群体学习是基于区块链和机器学习有效协同下产生的类去中心化的联邦学习，各个机构平等地训练模型，无需第三方节点作为中间调度[3,4,5]。

同态加密

同态加密是通过加密算法协议，在密文基础上直接进行计算，计算结果与在明文上计算所得的结果一致。2009年，斯坦福大学的Craig Gentry在其论文[6]用一个形象的例子形容同态加密——珠宝商为了防止设计师偷取珠宝材料，就把贵重的珠宝材料锁进密闭手套箱里，设计师只能伸手进手套箱的手套，打磨设计里面的珠宝材料，但无法从手套箱子里把材料拿出来。其中，珠宝材料为原始数据，上锁的手套箱为加密，珠宝成品即是计算结果。

首个支持全流程GWAS分析的隐私计算工具TrustGWAS

目前，大规模人群队列的研究在遗传病、慢病、肿瘤等的预防及治疗中发挥着重要的引领推动作用。中国代谢解析计划（ChinaMAP）以覆盖中国各地区的研究队列为基础建立了高质量中国人群数据库，通过高深度全基因组数据和精细表型分析，为疾病机制研究、预防、遗传咨询和公共卫生管理提供依据[7,8]。

近期，为了进一步推动大人群数据分析，ChinaMAP曹亚南研究团队与华大智造合作，通过隐私计算工具实现全流程加密GWAS分析，成果论文“TrustGWAS: A full-process workflow for encrypted GWAS using multi-key homomorphic encryption and pseudorandom number perturbation”在Cell系统生物学领域子刊--Cell Systems发表[9]。研究人员开发了一款支持多方联合进行GWAS全流程分析的隐私计算工具——TrustGWAS（

TrustGWAS 文章网站截图

该工具结合了多密钥同态加密和伪随机数扰动两种密码学技术方案，成功实现首个支持全流程GWAS分析的隐私计算工具，包括质控、过滤、关联分析、支持纳入协变量的数量性状线性回归分析和质量性状的逻辑回归分析，以及主成分分析用于群体分层。所有模块的密文准确率和GWAS领域常用工具PLINK保持高度一致。与以往文献披露的算法对比，TrustGWAS表现出了出色的性能优势，并在ChinaMAP真实数据的验证中，以密文方式复现了与原明文研究中一致的与表型显著相关的信号。TrustGWAS的提出，为大人群队列跨机构联合进行个体水平的GWAS分析，却又不暴露各自私有的数据提供了思路。

TrustGWAS支持全流程加密GWAS隐私计算

虽然过去已有不同的密码学技术用于部署GWAS隐私计算，但其各自都只实现了部分的功能。如MIT团队在2018年采用基于秘密共享的安全多方计算方法对9,098个样本，各自100个SNP的数据集进行测试，需要1天的时间才能统计出质量性状的优势比（odds ratio）[10]；在美国NIH主办的基因数据隐私计算和数据隐私保护领域竞赛iDASH中，UCSD和Duality运用同态加密，实现了卡方检验和逻辑回归[11]。其中Duality进行方案优化后，用10万样本，每个样本含50万SNP的数据集测试卡方统计检验，计算时间为 5.6 小时，测试逻辑回归需要234 小时，且暂不支持包含协变量的关联回归分析[12]。此外，之前报道的GWAS隐私计算工具未见报道可支持大人群的主成分分析（PCA）。

TrustGWAS针对大人群的主成分分析提出隐私计算实现路线

此次，ChinaMAP团队联合华大智造开发的TrustGWAS，是基于多密钥同态加密和伪随机数扰动的GWAS全流程分析的隐私计算工具。经过测试，针对10万样本，单样本100万SNP位点的大数据集，TrustGWAS实现卡方检验和逻辑回归所需的计算时间均不超过100分钟。其中，PCA算法因全基因组级别数据矩阵规模过于庞大，密文分解计算复杂度过高，一直是GWAS隐私计算中的瓶颈，TrustGWAS采用了基于伪随机数扰动的技术路线得以工程实现。研究团队在千人基因组数据集上采用密文计算的方式，复现了明文计算工具（Eigensoft和PLINK）得到的人群分层，表明了此种密文计算方法的准确率。

基于密文计算的PCA技术框架

TrustGWAS在ChinaMAP人群队列数据中的研究结果

为了验证在真实数据中的表现，ChinaMAP研究人员通过部署在华大智造ZTRON工具上的TrustGWAS流程，对队列中9,822个样本进行了空腹血糖数值的加密GWAS分析。通过PCA分析分解出主成分并以其作为协变量进行下游回归分析。结果显示，基于密文计算发现的显著SNP位点与之前ChinaMAP非加密计算得到的信号高度一致，进一步证实了TrustGWAS在真实世界数据分析中的可靠性。

加密GWAS分析复现ChinaMAP中与空腹血糖一致的显著SNP信号

拓展与展望

如今，隐私计算已逐渐成为促进数据融合与价值挖掘的关键技术，但真正实现大规模生产级别部署运用，依然面临诸多挑战。除了计算效率需进一步提升之外，在促进建立多方可信协作时，如何公平公正地确认和保障各方的数据贡献度和算法权益，也是推动隐私计算大规模应用必须解决的问题之一，区块链+隐私计算或可提供一种思路。区块链技术提供的确权功能，辅以有效的激励机制，可促进调动数据联盟内各节点的参与度，从而促进跨机构跨组织的协作。

2019年，华大智造提供区块链技术工具支撑，联合中国食品药品检定研究院采用区块链技术搭建联盟链，以华大基因、吉因加、艾德生物、泛生子、达瑞生物、和瑞基因等多家厂商为机构节点，以中检院为监管节点，成功建立多方联合的BRCA基因变异解读标准数据库（http://exchange.cngb.org/），当前已有5,731例样本和50,723位点的元信息在链上确权。该数据联盟已邀请6位遗传咨询专家和15位临床咨询专家参与位点临床意义的解读评审，目前已成为国内BRCA变异解读评价的标准数据集，并基于该实践，由全国医用临床检验实验室和体外诊断系统标准化委员会于近期完成了《BRCA基因突变检测试剂盒及数据库通用技术要求（高通量测序法）》推荐性行业标准的立项，目前正在制定中。

BRCA基因变异解读数据库截图

测序成本的下降除了带来大量覆盖范围更广的基因组数据外，也给不同变异位点的解读提出了全新挑战。在过去，因位点有限、认知局限，研究人员需要通过大量临床验证去证明疾病与有限位点的相关性；高通量测序仪产出的基因数据包含大量未知临床意义的位点也为行业监管带来全新课题。基因检测产品在临床应用申请上市前，需要经过国家药监局的检测分析性能评估和临床有效性审查。美国FDA提出对高通量测序检测申报的分析性能和临床有效性评估分别颁发许可，组合应用于预期用途，后者可与针对具体临床应用的受FDA认证的行业标准数据库进行参比得以实现。因此，在中国，通过多相关方共建基因变异标准解读数据库，进一步成为临床有效性验证提供参比标准，成为结果判定有效依据。

2014 年美国发起建设PrecisonFDA平台，通过与美国国家标准技术研究院（NIST）领导的Genome in a Bottle（GIAB）标准联盟合作，建立高品质的公开参考样本、参考标准/真实值，评估工具/方法的有效性，为监管途径和决策提供信息。FDA贯穿遗传病，肿瘤，感染疾病等方面，先后认证ClinGen遗传病、OncoKB肿瘤用药伴随诊断数据库等作为用以支撑基因检测产品上市前提交临床有效性验证的可靠科学证据。如，2018年12月7日，FDA宣布正式认证一个包含基因、遗传变异与疾病关系的公开数据库ClinGen；2021年，FDA正式认证OncoKB肿瘤数据库(体系突变)；而早在2014年，FDA便与国防部、NIH等机构共建FDA-ARGOS传染病数据库，2021年FDA又宣布要加快推进该数据库的建设，用以作为参考级数据库支持监管决策（作为传统临床试验补充），为基因大数据时代的监管模式指引了全新思路。

隐私计算、区块链、联邦学习等工具，可有效支撑数据驱动的临床实践和科研并举的新模式开展。近两年，在跨医疗机构协作领域，于Nature、Nature Medicine[3,4,5]等顶级学术杂志上相继刊登以结合隐私计算和区块链的群体学习（Swarm Learning）技术用于跨机构分子标志物人工智能算法训练和推断的应用报道。在肿瘤早筛领域，各厂商选择技术路线不同，生物标志物类型和数量不同，针对癌种不同，且目前单家公司尚不具有收集上万例全局临床随访特征的能力。此外，相比传统体外诊断产品，肿瘤早筛产品的评价复杂度更高，分为针对标准品的分析性能评估和针对真实样本临床有效性评价，急需基于数据驱动的监管科学创新。尤其是后者，肿瘤早筛产品逐步采用机器学习及深度学习模型推断结果，从模型训练阶段所采用的样本量，数据质控和归一化，模型泛化能力，可解释性，算法评价标准，算法升级迭代等都面临诸多挑战。所以，肿瘤早筛正在演变为数据科学，分子生物标志物的人工智能产品评价监管相比现有医学影像的人工智能产品评价监管更加复杂。收集大量的样本数据，建立数据联盟，统一算法评价标准数据集将成为必由之路。上述实践也为联合多方共同进行肿瘤早筛产品评价提供了思路。

在近期的大人群基因组研究鼎峰论坛上，华大智造COO蒋慧表示，华大智造的核心工具已经应用于包括中国代谢解析计划、中国十万人基因组计划、十万例罕见病患者全基因组测序计划等中国乃至全球多个大型研究中，基于DNBSEQ测序平台累计产出基因组数据超过100PB。华大智造CIO单日强先生介绍了华大智造BIT产品线为大人群基因组研究打造从数据采集、产出、传输、存储、计算、流通到下游应用的全套产品。此次，TrustGWAS工具包的发表，将进一步丰富相关算法工具包，未来将进一步研发基于ZTRON的基因隐私计算加速方案，促进大人群协同研究。

上海交通大学医学院附属瑞金医院曹亚南研究员认为，基于隐私计算的GWAS分析工具将在大规模队列的基因组学研究中可发挥重要作用，该工具可以联合多个队列进行分析将有效促进数据利用和融合，进一步促进中国队列研究的新发现。

华大智造张楚文，上海交大王晓骥等为文章第一作者；

华大智造杨梦，瑞金医院曹亚南等为文章通信作者。

该研究由华大智造开发算法工具及流程，数据验证由瑞金医院独立完成。

项目严格遵照伦理规范和中国人类遗传资源信息使用备案。

参考文献

[1].Shringarpure, S.S., and Bustamante, C.D. (2015). Privacy Risks from Genomic Data-Sharing Beacons. Am J Hum Genet. 97, 631–646.

[2].Nasirigerdeh, R., et al. sPLINK: a hybrid federated tool as a robust alternative to meta-analysis in genome-wide association studies. Genome Biol. 23:32 (2022).

[3].Warnat-Herresthal, S., Schultze, H., Shastry, K.L., Manamohan, S., Mukherjee, S., Garg, V., Sarveswara, R., Händler, K., Pickkers, P., Aziz, N.A., et al. (2021). Swarm Learning for decentralized and confidential clinical machine learning. Nature 594, 265–270.

[4].Saldanha, O.L., Quirke, P., West, N.P., James, J.A., Loughrey, M.B., Grabsch, H.I., Salto-Tellez, M., Alwers, E., Cifci, D., Ghaffari Laleh, N., et al. (2022). Swarm learning for decentralized artificial intelligence in cancer histopathology. Nat Med 28, 1232–1239.

[5].Schultze, J.L., Büttner, M., and Becker, M. (2022). Swarm immunology: harnessing blockchain technology and artificial intelligence in human immunology. Nat Rev Immunol 22, 401–403.

[6].Gentry, C. Fully homomorphic encryption using ideal lattices. STOC ''09: Proceedings of the forty-first annual ACM symposium on Theory of computing 169–178 (2009).

[7].Cao, Y., et al. The ChinaMAP analytics of deep whole genome sequences in 10,588 individuals. Cell Res 30, 717– 731 (2020).

[8].Li, L., et al. The ChinaMAP reference panel for the accurate genotype imputation in Chinese populations. Cell Res 31, 1308–1310 (2021).

[9].Yang, M., et al. TrustGWAS: A full-process workflow for encrypted GWAS using multi-key homomorphic encryption and pseudorandom number perturbation. Cell Systems (2022) https://doi.org/10.1016/j.cels.2022.08.001

[10].Cho, H., Wu, D.J., and Berger, B. Secure genome-wide association analysis using multiparty computation. Nat Biotechnol 36, 547–551 (2018).

[11].Kuo, T.-T., Jiang, X., Tang, H., Wang, X., Bath, T., Bu, D., Wang, L., Harmanci, A., Zhang, S., Zhi, D., et al. (2020). iDASH secure genome analysis competition 2018: blockchain genomic data access logging, homomorphic encryption on GWAS, and DNA segment searching. BMC Med Genomics 13, 98, s12920-020-0715–0.

[12].Blatt, M., Gusev, A., Polyakov, Y., and Goldwasser, S. (2020). Secure large-scale genome-wide association studies using homomorphic encryption. Proc Natl Acad Sci USA 117, 11608–11613.

飞月时空，中秋团圆

欢迎在文末评论区留言

截至9月5日18:00

留言点赞数最高的前5名

将有机会获得华大智造中秋定制礼盒一份