Science特刊半壁江山，因美纳PrimateAI-3D算法引领基因组学迈入AI新纪元

2023-06-06 14:57:34 Illumina因美纳（中国）科学器材有限公司

历经三十年，全球科学家绘制出完整的人类基因组图谱，开启了基因世界的大门。然而，每个人的遗传密码中都存在数百万个变异，迄今为止只有0.07%的人类已被测序，并存在数据代表性不足。

如何加速解码生命密码？

如何解决基因组数据代表性不足？

如何推动基因组学应用于改善人类健康？

基因组学领域的“ChatGPT”——

PrimateAI-3D，正加速解码精准医疗和药物靶点发现!

6月1日，全球基因测序和芯片技术的领导者因美纳（纳斯达克股票代码：ILMN），宣布推出全新的人工智能（AI）算法——PrimateAI-3D，利用灵长类动物基因和先进的人工智能技术来改善遗传风险预测和药物靶点发现。

同期，《科学》（Science）杂志发表主题特刊（第6648期）该期特刊中8篇论文中的4篇来自因美纳和24个国家/地区的科学家们的合作，其中两篇由因美纳人工智能副总裁Kyle Farh担任通讯作者，详细介绍了PrimateAI-3D算法的训练方式及其在英国生物样本库（UK Biobank）队列中50万个基因组的应用情况。另外两篇有关灵长类动物进化研究的论文也同期发表，为PrimateAI-3D的开发提供了信息。

《科学》（Science）杂志封面（第6648期）

自人类基因组图谱绘成以来，全球科学家与临床医生不断致力于深入研究基因变异，解码基因与人类健康的奥秘。每个人都携带着数百万种基因变异，正是这些变异导致了健康和疾病风险的个体差异，但目前大多数变异的作用方式尚不明确。尽管全球有80亿人口，但全人类的遗传多样性仍然与10,000个共同祖先（起源种群）相似。要真正了解人类基因组，仅凭人类基因组测序中的数据远远不够。

DNA就是活历史

进化是世界上持续时间最长的实验。大自然在进化中不断通过随机突变来测试基因，那些危害动物健康的变异很快就会从基因库中剔除，而那些中性或有益的变异则会留存并传递下去。Farh表示：“这些大自然实验的结果记录在每个物种的基因组中，并一直留存下来，形成一份活档案。”

尽管在形态上千差万别，但现存灵长类动物（包括猿、猴、原猴亚目，例如狐猴和懒猴）与人类之间仍有90%以上的DNA是相同的。在黑猩猩或倭黑猩猩身上发生的突变同样会在人类身上发生，而因美纳科学家的研究表明，如果某种变异在另一种灵长类动物身上是接受自然选择的结果，则该变异有99%的概率不会在人类身上引发疾病*^[1]。

巴西马米拉瓦可持续发展保护区的洪堡松鼠猴(cassiquiarensis) |马塞洛·桑塔纳摄

因此，通过对现代灵长类动物进行测序，我们可以更好地了解哪些变异不会致病。本期《科学》（Science）杂志中题为《The landscape of tolerated genetic variation in humans and primates》的研究对来自233个非人灵长类的800余个动物进行了测序，物种涵盖全部16个科和86%以上的现存属。但测序只是第一步：掌握所有数据之后，还需要进行解读。为此，因美纳开发了PrimateAI-3D用作数据解读方法。

PrimateAI-3D将最新的人工智能技术与先进的基因测序能力结合在一起，这一产品的推出，振奋人心。因美纳将持续助力临床医生和研究人员同步研究大量基因组数据，并有可能成倍地加速正在进行的关键工作，以更好地为患者提供服务。

通过自然选择训练的AI算法

由因美纳研发的PrimateAI-3D可高度准确地发现致病变异，解决疾病面临的关键挑战，从而成功实现个体化基因组精准医学。

为了获得先进的性能，PrimateAI-3D采用了与ChatGPT和AlphaFold类似的深度神经网络架构，不同之处在于PrimateAI-3D是根据基因组序列而不是人类语言来进行训练。另外，在ChatGPT等生成性语言模型中，现有的文本就可以为训练提供信息，而人类基因组中导致疾病的基因变异在很大程度上却是未知的。

为解决这个问题，PrimateAI-3D有效地利用自然选择来训练深度神经网络的参数。这种训练基于此前对233种不同灵长类动物进行测序时发现的数百万种良性基因变异来开展，这也是迄今为止开展的最大规模的非人类灵长类物种测序工作。神经网络会学习基因中代表良性变异的位置，并通过自然淘汰过程判断哪些区域如果发生突变可能致病。PrimateAI-3D通过这种方式学习如何准确预测人类的致病变异，准确度高于任何人类预测。

PrimateAI-3D

解码精准医疗和基于基因的药物靶点发现

《科学》（Science）杂志上发表的《Rare penetrant mutations confer severe risk of common diseases》研究使用以下4种专病队列比较了PrimateAI-3D与其他15种机器学习方法：神经发育障碍队列、自闭类障碍队列、先天性心脏病队列和英国生物样本库（UK Biobank）。前三个队列是迄今为止最大规模的测序研究之一，研究对象包括患病儿童及其未患病的父母；而英国生物样本库中的50万个基因组则大多来自普通人群中的健康成员。该研究还在国立卫生研究院的ClinVar数据库和其他数据集中评估了该算法。在6种不同的临床基准方面，PrimateAI-3D的表现均远胜过所有其他现有方法。这些发现有助于研究人员优先考虑一小部分最有可能影响人类健康的变异。