大咖研讨会 | Genentech谱图数据库的相关故事

2024-01-03 17:55:09, ACD/Labs Advanced Chemistry Development, Inc. (ACD/Labs)




ACD/Labs

Virtual Symposium

Genentech谱图数据库的相关故事

Driving Efficiency with Spectrus®

INTRO

前言

本文是系列讲座的第6篇,是关于Genentech公司构建小分子分析谱图数据库的相关故事。


Genentech在药物早期发现阶段的相关分析研究中积累了大量的LCMS和NMR数据。科学家期望:第一,最大限度地利用已有的数据将药物分子尽快推向后期开发阶段,减少化合物的使用;第二,早期研究阶段研究了大量化合物积累了大量的数据,让这些数据中发现一些有用的信息为将来的研发提供一些灵感。Genentech与ACD在小分子谱图数据库方面进行了合作,本文就是此方面的专家Sarah J. Robinson讲解Genentech实现此目标的内容编译。

在药物研发早期发现阶段的工作中,科学家合成系列化合物,用于项目团队内的研究。这些分子先经过纯化,再进行质控测试,然后注册到小分子化合物管理系统。质控测试使用多种谱学技术(如LCMS/MS, 1D-NMR, 2D-NMR等),以保证化合物纯度和结构正确。通常情况下这个质控工作流程需要快速完成。

如果一个化合物只需要做基本的生物活性测试以及药代动力学的研究,基础 LC/MS,NMR实验就足够了,将结果放到注册系统中,工作的周期基本就是一天,样品量的需求通常是2mg。在Genentech每年此类的化合物的数量在2500-8000个左右。如果化合物需要进行动物实验,样品量就需要50mg,工作周期基本就是2个星期,这样的化合物Genentech每年研究的数量在60个左右。

早期发现阶段会积累大量的数据,如何准确获得管理这些数据,并从中获得知识就非常重要。

为将分析数据知识化,Genentech与ACD展开了合作。ACD方案的数据流工作流程如下:

①ACD自动化服务器(Automation Server)会自动扫描分析仪数据(包括NMR和LC-UV-CAD-MS/MS),将其导入ACD数据库。

②ACD自动化服务器同时获取Genentech内部小分子数据系统SMDI中的化合物结构等信息,并将其与ACD数据库中的分析数据整合。因此,ACD谱图数据库中包含有结构、化学家姓名、项目名称等信息,方便进行搜索。

备注:SMDI是Genentech的注册系统,用于进行小分子注册和追踪库存。

③科学家在ACD数据中进行结构验证,结构验证时将化合物最初提供的结构以及该数据相关的其它可能的结构一并存入数据库;并将LCMS数据化合物纯度以及报告导入ACD数据库。

④Sarah的QC分析团队的科学家经常检查这些报告,以确保准确记录了样品中有关物质的杂质信息及含量,供下游分析科学家参考,这样可以让研究药物API稳定性的科学家解析稳定性杂质时以及DMPK部门科学家研究药物API代谢产物时的工作更加容易更具效率。

⑤合成化学家拥有这个工艺流程的所有知识产权,他们可能会在书写专利或出版物中需要公布所有的NMR和高分辨率质谱数据,因此,对他们来说能够按项目以所需的格式获取所有这些信息就非常重要。

在构建谱图数据库时,因为有三个不同团队需要与数据库进行互动。因此需要充分考虑不同的团队提出的不同意见:

对于合成化学家,他们考虑在书写报告时有时候不太需要一些过于细节的信息,如NMR分析的多重峰分析结果。

对于负责此项工作的分析化学家,自动数据处理是非常重要的。这意味着系统能够自动处理输入的数据,进行校正、峰识别和峰面积计算等操作,从而提供准确的分析结果。这样的功能可以节省时间和提高分析的效率。

对于下游分析化学家,后期开发阶段的小分子分析化学的工作中拥有与分子的特定部分非常相关的Markush结构是非常重要。例如,在代谢物研究工作中研究氧化代谢产物时他们可能希望表示结构式可以将额外的氧原子连接到分子的特定的片段区域。需要软件能够支持的Markush分析结构标记。

ACD数据库的用户界面提供了多种不同的数据查看方式和定制功能:

  1. Record Navigation Panel:分子为中心的记录导航面板。

  2. Acquisition & Processing Metadata:包含数据处理和元数据,如SMDI编号、项目信息、化学家等。

  3. Custom Views based on workflow:根据工作流定义的定制视图,以满足科学家的数据查看需求。

  4. Custom Scripts:定制脚本,用于结构解析后将分析结果更新到ACD NMR Predictor的预测数据库。

ACD谱图数据库里基于Genentech的业务流程定制的脚本和搜索功能对于Genentech科学家来说非常重要,因为他们需要及时访问内部小分子谱图数据库中的数据。

上图左侧显示了化学家可以使用自己的姓名和特定的时间段来搜索在此期间注册的所有分子和分析数据。上图右侧中的对话框允许录入G编号和SMID编号,方便地进行搜索和获取数据。

右下图展示了结构解析化学家可以将特定数据推送到NMR预测数据库中,以提高将来NMR谱图预测的准确度。

ACD数据集成的数据处理软件Processor用户界面具有以下功能:

  1. View/toggle channel information:通过勾选左侧导航图的多个选项,在右侧显示或切换不同类型的谱图。

  2. Search DB by spectral similarity:利用谱图相似度来搜索数据库。

  3. Review tabular peak/component data:以表格方式查看不同化合物的谱图,包括UV、MASS、MS/MS等。

  4. Extract new λs or XICS:提取新的波长或XICS(XICs)。

在ACD数据库集成的画图软件ChemSketch界面中,可以指定数据库进行化合物结构检索或子结构检索。这样可以获取与该分子相关的数据库中的所有信息,查看原始分析数据。因此,在排重或与他人共享项目信息时,能够根据结构或化合物类别进行检索获得相关信息,这对所有下游研发同事都非常有用。

此外,Genentech对于不同纯度的化合物有不同的标准,决定了这些不同纯度的化合物是否可以进行注册、进行生物活性测试或动物实验,因此,能够查阅化合物纯度表和相关报告就非常重要。此外,还可以查看以PDF格式存储的不同分析技术数据的报告,并且可以对其原始数据进行进一步处理。

举个例子,这个样品在UV下显示的纯度为100%,然而在CAD下发现了几个杂质,另外在不同紫外波长下UV(254nm)和UV(220nm)也显示了不同纯度值,这样更容易确定该化合物的纯度风险。

对于核磁工作来说,通常情况下化学家合成的目标化合物结构都是正确的。但是还是可能存在目标结构不正确的情况,在使用ACD定制的结构验证脚本时可以根据化学家提出确定的化合物片段生成一些同分异构体,这样充分考虑化合物的结构可能性,对所有生成的结构基于谱学实验结果进行评分。这样可以判断是否存在更符合实验数据的潜在结构。这个例子中目标结构的打分是最高的,右侧可以看到该化合物的验证报告。有时候在结构验证时也会存在不确定(打分接近)的情况,通常就需要补充额外的实验,如补充HMBC实验,这样可以让结构验证结果更明确。

这是一个LC-MS/MS报告,包含组分纯度表和所有色谱图,以及在六种不同的碰撞能量下获取的MS/MS数据,在高碰撞能量下可以获得更多的关于结构的信息。这些都作为相关知识保存到数据库中。

下游科学家可以使用MS/MS数据检索该数据库,并以镜像方式显示检索结果。上方是需要检索的谱图,下方是数据库中命中谱图。通过比较这些谱图的差异,可以确定化合物结构中的发生中性丢失的位置。

在这个案例中,通过谱图比较科学家可以做出如下判断:该化合物的一个环上多了一个甲基基团,多出的甲基基团应该发生在图上标示出的五元环上。因此在ACD数据库中可以使用Markush结构来进行谱图结构归属,对于 DMPK部门来说使用Markush结构来表述结构是完全没有问题的,而不是过度地归属成某个特定的结构,如上图中使用Markush结构将甲基基团定位到N五元环上。

Genentech化学家最喜欢ACD数据库的功能是它能够根据需要的格式和内容生成上述报告,以满足申请专利和发表的要求。

Genentech非常重视ACD在预测化合物的化学位移方面的价值。ACD有很好的预测效果,尽管仍存在一定的误差。根据以往的经验,一旦将一类化合物中的一个化合物添加到预测数据库中,数据库在预测该类别的其他化合物时表现更出色。以上述结构(甲基化)为例,ACD的原先预测数据与实验数据存在一定差异,但是一旦将它的同类化合物G''0068添加到预测数据库中,ACD对左侧甲基基团的化合物的预测结果几乎完全准确。根据Genentech的经验,即使只在预测数据库中添加一个结构,就可以显著提升这一类型化合物预测的准确度。

解析注释后的数据是预测数据库的宝贵资源,对Genentech所有部门都有价值。所有合成的化合物均采集6个碰撞能量下的LC-MS/MS数据,NMR谱图采样均使用NUS采样采集化合物的1H、COSY和HSQC谱图,每个化合物谱图采集时间大约为15分钟。谱图的采集以及自数据自动处理分析均在夜间进行,包括自动化进行谱图验证,以确保找到与实验数据最匹配的化合物结构。有两种情况需要科学家人工审核,一种是当自动验证结构时软件发现有更好的结构符合谱图,另外一种情形是当需要机器训练(ML)内部谱图预测数据库时。

众所周知,ACD在NMR谱图自动处理自动结构验证以及数据库方面有长足的经验。一旦发现某化合物的化学位移有偏差或不符合预期,科学家可以立即检索数据库将谱图中的相应区域与数据库中的谱图进行比对。在MS-MS数据方面ACD也提供了类似的功能。如果对MS-MS谱图中某个特定区域的特定离子峰感兴趣,这个离子峰非常特殊而且可能之前曾经见到过,这时候可以进行特定区域的某个离子峰检索,找到曾经出现过该离子峰的化合物,这样可以方便地得到该离子峰的片段信息。

市面上有很多自动解析MS-MS谱图的程序算法,但是一些算法解析出来的分子离子峰和碎片离子峰的结果其实并不是太可靠。所以目前Genentech和ACD正在合作,收集经过NMR谱图确认化合物的六个不同碰撞能量下的MS-MS谱图,将这些谱图交给机器学习算法学习,以备将来更准确地解析新化合物的MS-MS谱图。

愿景:在Genentech内部以及与Roche公司外部的合作中(Genentech和Roche间存在小分子研发后期合作项目),Genentech一直思考如何获得数据,并从数据中学习,让后期研发团队尽快获得已知数据达到提高效率的目的,Genentech希望项目数据不是简单地存在那里,而是无论研究项目的新老成员都可以通过简单易用的界面方便地获得这些数据满足他们的研发需要解决他们的问题,大大缩短结构解析的时间。

另外一个愿景是,当项目从早期发现阶段转移进入后期开发阶段时,如果能够将项目中所有杂质信息和特性信息与项目本身一并转移,这样就可以更好地了解各个杂质的相对保留时间以及在不同碰撞能量下的碎片离子的结构信息。这将使任何接触项目的人都能从早期研发阶段继承相应的知识,获得项目中所有杂质的信息。

以上为Sarah J Robinson的讲解内容,如您对整体内容视频感兴趣,请查看下方视频,或点击文末“阅读原文”到ACD官网观看视频。


注释:

ACD/Labs 能够构建谱图数据库的数据库端产品叫做Spectrus Enterprise DB。数据库的只读客户端为Spectrus processor, 而读写客户端为各种Workbook。当前的数据库正在完成最终的Web化,形成全新的基于Web的Spectrus JS 技术平台。

ACD/Labs 的旧有的自动化平台为Automation Server, 新一代的低编码量的自动化平台为Spectrus Conduit,目前已经上市。


ACD/Labs CN

微信号|ACDLabsCN

长按识别二维码关注我们

联系我们:

阎作伟 13816084932  zuowei.yan@acdlabs.com

陈诚 17705179237  martin.chen@acdlabs.com



  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved