还在用EXCEL整合和管理药物开发阶段的数据?

2021-11-23 17:40:20, ACD/Labs 阎作伟 Advanced Chemistry Development, Inc. (ACD/Labs)



摘要


Luminata

药物工艺研发阶段相当重要的工作内容是跟踪和优化每个步骤的反应,计算跨阶段的杂质残留和清除情况,对未知杂质进行结构检索去重或进行结构解析,将以上的信息进行汇总,形成对工艺过程的深刻了解,从而形成企业的知识。长久以来Microsoft Excel在药物开发阶段扮演着知识总结和交换的核心的角色。在工艺研究知识管理方面,它担当终极的知识构建工具,汇集不同的数据来源的信息。这些数据来源包括且不限于色谱数据系统CDS,电子实验记录本ELN,实验室信息管理系统LIMS,企业内部注册数据库以及外部数据。然而Excel并非一个系统性的软件,存在先天性的一些缺陷。本文介绍了使用Luminata这样一个成熟的商业软件来取代ExcelCMC知识管理职能。Luminata是一个专业的CMC知识管理软件,其设计目标之一是帮助工艺研究团队的知识管理达到更高水平,目前它能做的工作已经超出了工艺知识管理本身,已经达到了整个CMC的全面覆盖的水平。此文章介绍如何用Luminata满足工艺开发的整个生命周期中的不同需求,整合API合成路线,将其与分析数据结果动态关联,克服使用Excel时的转录错误风险,保持审计追踪和数据以及知识的完整性。



介绍


Luminata

工艺研究是一个复杂的,动态化的昂贵的过程。图1总结了药厂的药物研发的三大阶段以及其研究内容。

1.制药公司的研发生产三阶段的内容图例。在绿色的工艺研究阶段内,杂质被识别和追踪。图1一些缩写:HTexperiments,高通量实验;SIMD,稳定性指示的分析方法开发;E&L,提取物和可浸出物;ADME,吸收分布代谢排泄;MetID,代谢物识别。

在进行工艺知识管理时,化学家需绘制合成的API的多步合成路线,跟踪每组起始物料,中间体、发现生成的杂质,记录每个合成相关的分析数据结果和元数据。这些信息的收集,整理和总结为团队知识都需要工艺和分析团队的各个专业领域人员协作完成。化学家通常希望使用简单的标准化的软件处理基础化学信息,绘制并导入化学反应路线,查看分析结果,跟踪和反映详细的反应过程,建立和搜索谱图知识库以辅助表征未知化合物,最终建立工艺研究过程的完整的CMC表格。



整合多种数据源的数据以建立工艺知识库


Luminata

在优化工艺条件时,任何给定阶段都可能存在多重反应条件/试剂/溶剂的变化,对于特定API,也存在多种合成路线。换句话说,每个合成变化是旨在探索各种路线的过程的一部分。因为工艺优化的目标是提高产品收率,减少工艺杂质。

当工艺优化进入到后期阶段,需要将所有的物质结构和分析数据放到一个表格里进行总结。表1就显示了这样的包含有结构,注册号,化学名称,峰面积,归类以及分子式的这样一个表格。这种总结性的表格总结了工艺研究的结果和认知,可以放入申报文档归纳总结。此时分析数据的获取极为重要,也极为复杂。据我们所知,有关数据往往存储于不同的系统,例如CDSELN或者LIMS。在大型制药公司里,会有多个研发团队,他们很可能同时使用多个CDS供应商提供的色谱系统,从CRO来的数据从不同供应商提供的ELNLIMS导出。这些繁杂的数据格式给知识的建立带来了挑战。

1. Luminata里化学结构和注册号以及化合物名称关联。蓝色,绿色和黄色的色块里分别放的是原材料,中间体和产物的积分面积。

当前,我们发现很多制药公司依赖Microsoft Excel文件来追踪工艺过程,用多个Excel分页来归纳总结信息。从ELNLIMSCDS,单机仪器电脑里,企业内部数据库,甚至从不同CRO来的分析数据结果信息都汇入Excel文件,进行数据保存以及相互关联映射。

Excel是一个非常著名的、常用的而且易用的数据分析且具备良好报告功能的软件。化学家可以从不同的来源复制数据到Excel内,文本内容和格式化的表格方面兼容性很好。但这种数据的转录入本身依然存在风险。比如,一个不正确的化学名称,没有被正确绘制的结构都会带来问题。而错误的色谱峰面积更难被立即识别出来,因为手边可能不会有分析数据直接可供参考和确认。Excel无法将分析数据和结构信息直接连接,这会增加数据准确性复合的难度和复杂度。最佳的应用体验是将分析报告和原始数据联动起来,让“live data”为用户提供信息和知识。“live data”允许数据的再处理和重新解析,任何此种操作都会直接在结果报告里体现。当科学家们多人修改一个Excel文件时,往往带来更大的数据完整性问题,例如文件版本失控,审计追踪不足,这些都直接影响到最终决策的可靠性和可行性。

举个例子来说,在名为file_process1a.xls, file_process1b.xls, file_process2a.xls这样的Excel管理的工艺过程文件中,当一个杂质的名称要发生改变时,CDS里的数据内容峰表需要改变,Excel里的化合物名称要发生改变,这可增加了不少的工作量。

在表2里举了一个例子,这是一个全球型制药企业使用的管理工艺研发数据的复杂的Excel模板。

2. 这个Excel模板里有详尽的工艺过程信息,包括结构,分子量,注册号,化合物的名称,保留时间,峰面积,ELN内部编号,carryover状态以及量的多少等等。反应物以及溶剂被放置在了列表的头部,杂质被标以红色。从上一步到下一步的杂质carryover以红色箭头表示。

构建表2这样的表格是全手动过程,诸如LC以及NMR数据可以来自于ELN, LIMS, CDS等等来源。元数据(metadata)诸如注册号,名称等来自于企业内部数据库。科学家在Excel里设计不同的颜色来区分杂质的行为特性。

让我们比较一下表1和表2,表1是从Luminata里直接导出的表格,在Luminata里通过直接导入化学反应和分析数据而获得。此时结构不仅仅是一个图片,它和分析数据直接形成关联。经过自动提取分析数据里的内容自然构成了表1中的Control Chart的重要内容。这样就克服了人工转录的失误带来的风险,能够给负责项目的化学家省不少时间。任何对其中的化学结构,化学名称,色谱图的重新标峰都能动态更新,且在Control Chart里直接体现出来。



工艺研究过程举例


Luminata

Agomelatine API的工艺研发过程为例。Agomelatine是一个抗抑郁药物的有效成分。合成Agomelatine的步骤需要6步,其在Luminata里的科学细节关系在图2内显示,反应的整体的Schema在图3里显示。

2. Luminata里构建的Agomelatine API的六步合成路径。蓝色的结构是起始物料,绿色的结构是中间体和API,黄色的结构是杂质。如果结构是未知,则用白色的方块代替。将第二步到第六步反应对应的LC-MS数据和合成schema互相联系,反应条件放在黑色反应箭头上下。直接的carryover也用箭头关联,物质的注册号,分子式以及保留时间在结构之下展示。


3. Luminata 里导入Agomelatine的六步合成反应路径。第一行的尾部和第二行的头部的化合物是同一个物质。Stage1 为两个起始原料,Stage6 为终产品。化合物的企业内部注册号显示在结构的下方,用于内部命名。

通常,合成化学家设计反应路线并进行合成,将信息录入ELN内。在每步反应上,合成化学家将样品进行分析,分析化学家根据需要在不同类型的仪器上进行分析。以LC-MS数据为例,将获取到的谱图信息进行标峰处理,提取MS信息和UV信息,将结构和谱峰进行归属,以及对色谱峰进行命名。在本例中未知结构被化学家冠以一个保留时间(e.g unknown RT 7.2 min)作为名字,这个未知物的定性将转交结构解析小组(Structure Elucidation Group,SEG)来处理。结构解析小组将做更多的制备和分析实验将结构进行解析。当未知结构解析出来后,对应的表格中的结构可直接加以更新。

如表2那样化学家使用Excel来进行每步反应的跟踪时,需要从不同的科学家那里获得支持性的数据,并加以汇总和比较。由于数据之间没有动态互联,这个工作就产生大量的重复劳动。如果基于一个可能有错误的Excel去做决策,这个风险就变得有些大了。

举个例子,一个工艺研究项目可能因为存在多种后处理方式而存在多个工艺过程。对不同的工艺过程进行追踪以及比较,显然其杂质谱会有所不同。在表格3里,stage2 有三种处理工艺,分别叫做“Process1a no wash”,“process1b base wash”,“process 2a acid wash”

3. 在杂质控制总表里比较这三条工艺(no washbase wash and acid wash)的杂质谱。绿色表示中间体的量,黄色表示杂质的量。

Luminata里的杂质控制总表里显示三条工艺的杂质的变化情况。经过谱峰归属操作的谱图引入到Luminata后,其峰表内的信息会自动填入表3。谱峰归属后的色谱谱图可以直接来自经过处理后的CDS里的数据。在这个表格里观察比较,显然process 1b base wash的结果有最高的收率82%,数量最少的3个杂质。

如果要进行不同stage的色谱图查看,则可以直接在Luminata里调用谱图,以叠合图的形式进行比较和查看,如图4。比较和查看的目的是确认色谱峰是否指认正确,如有错误,则当场修改并返回Luminata

4. Stage 2,3,4色谱图分别显示为红,蓝,绿。当前选中的为stage2.而有关对应的结构,保留时间,峰面积都在图片2的反应图以及表格1的控制列表里显示。



结构解析团队的任务


Luminata

在药物开发阶段,未知物结构解析工作是很重要的,通常会设一个专业的团队,由这个结构解析团队完成这个难度较高的工作。在开发阶段不可能轻易获得纯品,因此解析未知结构往往先依赖于质谱数据分析。在这里重点举一个排重的例子,也就是说研究员对未知物的质谱进行数据库的比较,不论是GC-MS或者是LC-MS都照此执行。用Spectrus Processor软件处理GC-MS或者LC-MS数据,然后对内部数据库进行检索。通过对所有的标品数据进行比对,基于谱图的相似那个生成数据库的命中列表。如果存在正确的命中,这个未知物色谱峰将被命名为已知物质。在图5里,举例当检索Stage 6里的未知物RT=1.81的质谱数据,最相似的命中是R-IV-9999.0,相似度指数为82.94%。同时图5还显示了用核磁氢谱进行核磁数据检索比对,得到了相似度为87.24%的类似氢谱。此种检索是在有了中等以上杂质制备能力后的进一步,获取较纯的物质,采集氢谱再进行数据库的检索。

5. 谱图检索:上图蓝色的未知结构的分子质谱指纹谱图被拿来检索Luminata内建好了的质谱指纹数据库并找到了命中。命中的结果以镜像的形式在检索谱图的下方显示,以方便比较差异。HQI为相似度指数,表征两个谱图的相似的程度。差异来自于两个谱图的指纹碎片丰度以及碎片指纹的分布。由于两者之间有很好的匹配度,这就令化学家能够顺利做未知结构的确认和归属。这在结构解析部门是很常见的工作内容。下图则是核磁氢谱的检索:绿色为提问结构,红色为最佳命中,同样用HQI来表示氢谱与被搜索的标准数据库的谱图的相似程度。



杂质的Carryover计算


Luminata

法规部门审核申报资料时看重杂质从出现到消失的全过程,关心杂质的命运以及carryover情况,以确保研究过程能保证对产品质量的管控能力。从上游传来的杂质,再经过反应,变化或者不变化,进入或者不进入到下一个阶段。其不变化者,被称之为Carryover

可以用两步反应之间的同物质的比值百分比来计算单步反应的Carryover比率。如公式1

Stage(x-1)Stage(x)的前一步。

Luminata里多步反应的carryover的计算公式如公式2

Carryover stage x -> y 表示stage xy的杂质残留率。如果输入值低于限度,则以ND(未发现)代替。

6. Luminata里某杂质的carryover总结,在Stage2保留时间为4.40min,在Stage3保留时间为4.24.Stage1里此物质为起始物料,并非杂质,此物质在Stage2中有残留,而且会携带到Stage3中。表格中DL,QL表示检测限度和定量限度。MeasuredOutput Amount基于峰面积计算,Carryover%)基于公式1计算。CumulativeCarryover 以公式2计算。



比较Luminata,Excel,ELN,CDS和LIMS


Luminata

这个市场里大约有超过40ELNLIMS供应商,至少有9CDS供应商。在这里,我们站在一个较高的角度上来比较Luminata, Excel,  ELN, LIMSCDS这些工艺研究常用软件的对工艺研究支持的情况,总结如表格4

先介绍各种系统的一般功能定义:

LIMS强制令其使用者进行符合ISO17025以及21CFR Part11要求的质量控制工作和规范的分析测试。LIMS可以帮助进行库存管理,批记录管理,仪器校正和规范管理,分析人员合格性检查以及培训,检查测试项目是否在公司规定的限度要求之内等。

ELN主要应用于获取和存储动态的,非结构化的实验数据。它可以用于进行化学反应的记录,记录反应过程和现象,记录收率等。

CDS作为分析数据收集工具,它自动归集所有的检测器下的色谱数据。制药公司自己都会有多种CDS,再加上以及其CRO,这样会带来企业内部和企业间的数据格式的不兼容。

以下我们在工艺研发流程的10个细节上比较这些软件的应用情况:

1. 化学结构相关:允许化学家编辑,修改,搜索化学结构和名称,其变更将自动在系统内自动完全实现。这种功能能减少重复录入,保持信息的一致性并且能节约时间。例如,当化学家要修改错误录入的结构,或将化合物名称进行变更,系统内会迅速完成所有必要的变更。这种功能在LuminataELN内可以实现。

2. 仪器数据相关:化学家需要从各种不同仪器获得有效分析数据,仪器类型包括且不限于MS, LC, GC, UV, NMR, IR, TGA, DMA以及XRPD。单纯是图片或者PDF的话是不足的。举例来说,当进行数据回顾时,发现有色谱图处理的不到位,需要色谱峰标峰的调整,如果要回到仪器上在CDS里去找到这条数据可不是一个轻而易举的工作。如果这个谱图是另外一个人做的,这个沟通成本就又增加了。Luminata能兼容以上所有数据类型,很多ELN不能支持TGA,DMA以及XRPD,很多LIMS不能支持NMR,IR,TGA,DMA以及XRPD数据。ExcelLIMS依赖PDF或者是图片,其内容如要进行修改,整个过程都是手动依次修改。

3. 谱图的叠合和比较:LuminataCDS能够完成这一点,一些经过定制的ELN也能够完成。叠合谱图数据的目的是进行谱峰的比对。Excel在这方面缺陷较多,从ELN, LIMS以及CDSExcel复制的谱峰数据容易出错,且复制后需要与其他数据手动互联。

4. Luminata在引入分析数据后,谱峰面积直接从色谱图中自动抽取,存储在动态的表格内以进行不同工艺过程间的相互比较,以确定高收率低杂质的工艺过程。这种功能在某些定制化的ELN内也存在。Excel要实现的话需要手动完成。

5. Luminata里能实现工艺过程研究的基础信息的快速克隆复制以加快工艺研发过程的信息记录的效率。这个功能在大多数的ELN里都有。

6. 当研发项目需要有多人录入信息,彼此进行协作,分享和编辑分析数据结果和元数据(metadata)就很重要。LuminataELN, CDS以及LIMS能实现这一点,但Excel在这个功能上缺陷明显。

7. 能检索元数据(metadata)以进行项目间的比较,这个功能在以上五类软件内都能实现。

8. 在项目里经常要计算Carryover,这个功能以上五类软件内都能实现。

9. 项目内容的改变的审计追踪,这个功能在Luminata, ELN, CDSLIMS内可以实现。

10. 除了Live Data, nonlive Data也需要被归集在项目中与不同的stage关联,例如图像和PDF文件,这个功能以上五类软件都能实现。

4. 符号√表示具备此项能力,符号**表示需要定制或者数据为手动录入至表格。



结论


Luminata

在工艺研究阶段,制药公司以及其CRO公司使用了多种多样的系统,包括CDSELNLIMS, 内部数据库,外部数据源。在最终的数据汇总和知识生成和管理的时候面临着手工从众多不同的数据源提取重要数据向Excel录入信息的挑战。Excel对于化学反应,结构信息以及与分析数据进行相互连通方面天然处于劣势。而法规部门又要求工艺过程的研究内容文档的严谨性,科学性和数据完整。工艺研究需要一个如Luminata这种化学信息敏感,按需展示和分析数据,支持审计追踪的软件工具来支持工艺上的决策。

Luminata能够从不同的CDS里提取工艺的相关分析数据,直接和工艺步骤相连,不需要进行人工录入,这节省了时间,减少了重复。当Live Data进入到Luminata之后,保留时间,峰面积和结构,名称进行关联,互联互动,令杂质的追踪,查重,谱图搜索,谱图可视化比较成为可能。通过比对LuminataExcelELN, LIMSCDS的诸多功能,我们确认了这些都是Luminata独有的知识建立和管理的优势。

Luminata 除了和ELN,LIMS以及CDS互联,还需要和一些内部数据库互联,比如企业的毒理信息数据库,这样就能了解物质的潜在的致癌性风险数据,以进行合理的控制。



实验部分


Luminata

Agomelatine 6步的反应路径是用ACD/ChemSketch 2020.1来完成构建的并存储在Luminata的反应数据集中。化合物结构以及其标品的分析数据放置在化合物数据集中。一个数据集是由多个单独的记录组成。

Stage 25GC-MS数据采集自安捷伦GC-MS 7890A/5975C(气质)仪器,方法所用的色谱柱为HP-5MS色谱柱(30m*0.25 mm*0.25mm ),以EI模式70eV采集。用Spectrus Processor 2020.1GC-MS数据的标峰和解析处理。

Stage 6 使用了LC/UV-MS进行分析,硬件系统为安捷伦1200系列和安捷伦VWD-G1314BUV检测器检测,采集波长为210nm,质谱采用安捷伦6110API-ES质谱检测器,采集范围45-1000。液相方法为3565甲酸铵缓冲液溶液(pH4.5/乙腈等度,流速1.2ml/min,运行时长50min,色谱柱安捷伦Zorbax Eclipse XDB C18 (5um4.6mm*150mm)

AgomelatineAPI纯化后在Brucker核磁仪采集HNMR。谱图以ACD/Spectrus Processor 2020.1 软件进行处理。

质谱和核磁数据都存储于Luminata的化合物数据集内。



原文文献


Luminata

Consolidating and Managing Data for Drug Development within a PharmaceuticalLaboratory: Comparing the Mapping and Reporting Tools from Software Applications. Arvin Moser , Alexander E. Waked, and Joseph DiMartino . Org.Process Res. Dev. 2021,25,10,2177–2187


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved