2023-05-30 18:55:13, 西湖欧米wOmics 西湖欧米(杭州)生物科技有限公司
图源:istockphoto.com
文本数据作为药物发现和开发过程的重要信息来源,将AI驱动的LMs转移到药物研发过程中,有助于科研人员更好地理解数据特征,提供了加速药物发现的可能性。
2021年,FDA/NCTR生物信息学和生物统计学部门主任 Weida Tong 和AI研究团队技术负责人 Zhichao Liu 作为共同通讯作者,联合团队中其他成员,在ELSEVIER旗下 Drug Discovery Today 杂志发表了综述性文章AI-based language models powering drug discovery and development。
在文章中,作者介绍了AI驱动的LMs的研究进展和在药物发现和开发中的潜力(图1),强调了AI驱动下的LMs在靶点识别、临床试验监管决策和药物监测方面的机会。作者还介绍了AI动力下的LMs在治疗新冠感染中的潜在应用。
图1 药物发现和开发中的人工智能驱动语言模型
01
AI语言翻译官
基于Transformer的LMs,其核心是通过自注意力机制(Self-attention)和位置编码(Positional encoding)进行序列到序列学习(Seq2Seq)。该语言模型的出现,改变了处理文本数据的方式,显示出了在信息检索、文本分类、文本总结和情感分析中的巨大潜力[1]。
基于Transformer的LMs能够模拟人类的一些特征,如持续获取、微调和转移知识与技能(图2)。该模型可以提供一个迁移学习框架,将获取到的知识储存在一个预训练模型中,以供进一步模型训练;针对特定领域的知识或任务,可以对预训练的LMs加入一个微调层进行微调,创建最合适最先进的NLP模型;与人类相似的是 ,基于Transformer的LMs能够总结不同文档中所嵌入的知识,已经有证据表明该模型可以生成流畅连贯的句子段落,可以通过多文档摘要的方式创造整篇维基百科文章 [2,3]。(注:2021年时,无论是GPT还是BERT都尚未像今天这样受人关注。)
02
AI的挑选秘籍:寻找合适的AI语言模型
基于Transformer的LMs的多样性,极大地增强了处理各种实际应用中非结构化文本的能力。然而,在生物医学应用背景下选择和重新定位基于Transformer的LMs非常具有挑战性,关键步骤是 “定义目的” “管理数据的可用性” 和 “衡量可扩展性”。
AI驱动的LMs在药物发现和开发的各个阶段都具有潜力,但公司和研发者在不同的阶段和不同的角度下,需求不尽相同。所以在寻求合适的AI解决方案之前,定义目的至关重要。
训练基于AI的LMs需要大量的文本。除公开的预训练的LMs使用一般的知识训练外,一些特定领域的LMs,如生物医学领域的BioBERT [14]和ClinicalBERT [4],通过使用公开可用的生物医学文献或去标识的电子健康记录(Electronic Health Records,EHRs)来增强临床应用。
然而,在模型训练过程中,仍然需要大量的有标注的数据;而且,在药物发现和开发过程中产生的数据对公司来说可能是敏感的,所以在选择合适的LM之前,明确了解数据可用性和策划标注数据所需的工作量非常重要。
基于Transformer的LMs性能提升源于数据和模型规模的增加、计算能力或训练过程的提高。当AI驱动的LMs用于患者监测时,为了满足实时数据收集和分析的需求,得到更快的推理速度是模型训练过程中最重要的目标;如果AI驱动的LMs旨在从临床记录中识别潜在的不良事件,那么更强的计算能力是模型训练中的首要目的;针对复杂的药物发现和开发任务(如患者招募),将多个模型应用于任务中,采用共识的方法更有可能改善病人的匹配情况。
03
AI探药:语言模型在药物发现中的应用
AI在药物发现和开发中具有巨大潜力。在文章中,作者还介绍了AI驱动的LMs在靶点发现、临床试验、监管决策和上市后监测这4个阶段的潜在机会。
靶点发现是药物发现过程中关键的步骤之一,使用AI驱动的LMs可以推进药物发现进程,加速靶点的识别。
最后,AI驱动的LMs具有评估未满足的医疗需求并为高通量筛选(High-throughput screening,HTS)提供优先级靶点的潜力。
在新药研发过程中,临床试验成本高、耗时长、失败率高,一部分原因在于患者群选择不理想、无效的患者招募策略和不成熟的患者监测系统[6,7]。各种基于文本的数据集,包括电子健康记录 (EHR) 、临床试验数据库、试验公告、资格数据库、社交媒体和医学文献,为AI驱动的LM提供了一个独特而直接的入口,以改善临床试验结果 [8]。
AI驱动的LMs,可以通过学习医学术语及其同义词、与其他新兴技术结合,将招募标准综合成标准化的上下文查询,改善临床试验匹配过程,实现患者招募过程的自动化,减轻人工工作量。数字健康技术,如可穿戴设备、语音技术和计算机视觉,使远程患者监测成为可能[9]。AI和机器学习(特别是深度学习模型)可以用于实时患者监测,检测和记录相关信息[10,11]。
按规定,制药公司需给卫生监管机构发送合规证据档案。相关的医务人员不仅要审查提交的文件,还要考虑到历史数据和相关文件,以产生证据并支持决策,这是一个复杂而耗时的过程。AI驱动的LMs可以促进监管文件的编码,以便更有效地审查、传递和调用信息。除此之外,将AI应用于语义搜索引擎,还可以提高信息检索的有效性,为审查员提取最相关的资料[12]。
上市后监测是药物警戒科学的重要组成部分,其监测数据主要来自自愿报告的病例或科学文献、观察性研究及主动监测。AI 动力下的语言模型已被证明对改进药品 - 不良事件关联性检测和解析不良事件(Adverse event,AE)与临床参数之间的因果关系非常有用[13,14]。
04
AI驱动模型与新冠研究
值得一提的是,域AI在新冠研究领也有 “用武之地”。
新冠大流行期间,研究人员发表了大量相关文献,但同时也带来了检索、阅读困难的新问题,学者难以靠人力去阅读所有文献。AI驱动的搜索引擎的出现,可帮助研究人员浏览文献以解决对应的问题[15]。
截至目前,研究人员已开发和使用了有50多个搜索和发现工具,用于各种类型分析,如药物再利用、与其他疾病的相互作用感染、不同人口群体的死亡率和管理政策等[16]。
将基于AI的LMs用于新冠感染的治疗药物中,不仅可以提取候选药物与不良反应事件之间的关系,还可以提取候选药物与其他预防药物之间的潜在的相互作用(DDls)[17]。
图3 加速新型冠状病毒治疗开发的人工智能(AI)驱动语言模型。
总之,人工智能语言模型已被广泛应用于生物医学科学的许多领域。该论文总结了AI驱动的LMs面临的机遇和挑战,以激发业界的努力,进行进一步的评估,并在药物发现和开发中更好地定位和促进AI驱动的LMs。
原文链接:
AI制药的「三大派系」之争:互联网巨头、药企、AI新贵掀起的「江湖风云」
06-05 SHINE
内含福利|世界环境日,你我都是行动者06-05
邀请函 | 颇尔中国诚邀您参加第十五届上海国际水展06-05
全能大将——Profile II,高效绝对精度深层熔喷滤芯06-05 颇尔工业
ASMS 2023|烧烤之乡,“原位”合辑06-05 华质君
遇见 ASMS 2023|开启创新质谱应用之旅06-04 华质君
中国计量科学研究院杨平副院长一行莅临盛瀚调研考察06-03 SHINE
肠道微生物专题 | OTU&ASV谁主沉浮?06-02 小迈
【邀请函】HORIBA光谱技术应用研讨会 —— 贵阳 | 8月15-18日06-02 HORIBA
HORIBA中国招聘正式上线,全新升级“职”为等你!06-02 HORIBA
南大开创力学拉曼,微小机械振动也难逃法眼!06-02 HORIBA
日立诊断,“职”“位”等你06-02
DS3000上GlobalFiler™ Express PCR Amplification Kit的性能06-02
CIF参加2023重庆样品前处理技术创新大会06-02 CIFLAB
国家杰青,任地方高校校长!06-02
全国首家!双一流大学成立新学院,今年9月迎来第一批本科生!06-02
新设博士后科研流动站,开始申报!06-02
“70后”公安局局长,出任高校党委书记06-02
南方科技大学,最新Nature06-02
大学教授,当选院士!06-02