计算机辅助结构解析(CASE):现状和未来展望

2021-07-16 14:32:21, ACD/Labs葛师成译 Advanced Chemistry Development, Inc. (ACD/Labs)



   
译文序言

ACD/Labs的两位科学家Mikhail Elyashberg,和Dimitris Argyropoulos最近在Magnetic Resonance Chemistry杂志上发表一篇讨论计算机辅助结构解析软件(CASE)系统的综述,名为Computer-assisted structure elucidation (CASE): Current and future perspectives。应Magnetic Resonance Chemistry杂的邀请,ACD/Labs专门还为当月的期刊设计了封面。


两位科学家在文章中讨论了CASE系统的历史,现状和未来发展的方向。文章介绍了现代CASE系统的工作原理,以及结构解析相关的知识。现代CASE系统已经具备利用NMR谱图和MS数据解析复杂天然产物和其它来源化合物的结构的能力。NMR 实验和CASE系统之间一直是相互促进相互发展,文章中讨论了各种NMR新实验,如LR-HSQMBC,ADEQUATE,INADEQUATE,PURE SHIFT,RDC,以及RCSA实验对CASE系统的影响,反过来,CASE系统充分反映这些新实验的能力,促进了新实验的发展。NMR化学位移和耦合常数是结构重要信息。CASE系统生成结构列表后,应用内部经验算法预测化学位移快速从生成的结构列表中筛选出小部分结构 ,然后使用DFT算法预测化学位移和耦合常数( nJHH, nJCH和nJCC从中选出最优结构,是一种行之有效的结构解析策略,这样解析出的结构可信度高,而且可以确定最终结构的构型。在确定相对构型时,作者讨论了当前比较流行的DP4算法对CASE的影响,认为DP4算法的加入可以有效提高CASE系统的稳健性。

CASE系统相对开放,可以兼容其它化学光谱领域波谱技术信息,如原子力显微镜AFM, 冷冻电镜CryoEM以及晶体海绵X-射线衍射Sponge X-ray等技术,可以从这些技术的谱图中获得结构的额外信息。而且这些技术正在逐步融合到CASE系统中。机器深度学习——强大的AI算法,融入到CASE系统中,将会大大加强CASE的能力。CASE必将在学术和工业界得到更广泛的应用,CASE的“黄金时代”必将到来。

本篇译文大约20000字,涵盖的内容非常广泛,希望光谱专家尤其是工作在天然产物结构解析的专家能认真阅读,了解NMR和CASE最前沿的技术。另外在翻译的过程中可能会存在一些专业术语翻译不准确的地方,欢迎大家指正。

翻译人:葛师成

ACD/Labs TSS支持专家


文章作者简介:

Mikhail Elyashberg,2001年加入ACD/Labs, 现任ACD/Labs首席研究员,一直致力于小分子光谱和CASE研究,创造了ACD/SES软件,ACD/SES之父。


Dimitris Argyropoulos,2015年加入ACD/Labs, 现任ACD/Labs NMR产品经理。




     
摘要

50多年前,计算机辅助结构解析技术首次面世。经过50多年的发展,基于一维(1D)和二维核磁(2D)共振(NMR)数据的计算机辅助结构解析系统(下文简称CASE)现已相当成熟。已使用此类软件对大量复杂天然产物的结构进行了解析和/或修正。在本文中,我们讨论了 CASE 发展的方向。我们所讨论的CASE技术、NMR实验和计算化学都在不断革新中,它们之间也存在着相互协同相互促进的作用。NMR实验(远程相关实验、纯移位实验、耦合常数测量和预测、残余偶极耦合[RDCs])和残余化学移位各向异性(RCSAs)、密度泛函算法 (DFT) 和机器学习算法的新发展对 CASE 系统产生了深远的影响,反之亦然。化学分析新技术(原子力显微镜[AFM]、"晶体海绵"X射线分析和微电子衍射[micro-ED])也是如此,这些新技术将与结构解析专家系统相结合。我们预计 CASE 在将来将会得到更广泛的应用,并将成为 NMR 波谱学家,学术和工业界实验室分析科学家的常规工具。我们相信,将来会是CASE的"黄金时代"。


     
简介

计算机辅助结构解析(CASE)是目前化学界的一种众所周知技术。这一新技术起源于20世纪60年代末,在那时就出现了一些开创性工作。到如今,已有一些专家系统(ESs)[5-11] 可用于计算溶液中小分子的结构。在对新的有机化合物结构解析过程中,人们对能够对波谱谱图数据进行复杂逻辑推理的自动化工具的需求很大,这令CASE的发展有很大的驱动力,同时CASE 的发展道路仍然很长且存在许多困难障碍。

CASE的发展历史可分为两个主要阶段:1960年代末到1990年代初,1990年代到现在。第一个时期不同国家的许多团体非常热情地参与到开发计算机辅助结构解析软件的工作当中。从一维 (1D)核磁共振(NMR)、 红外(IR)和质谱(MS)波谱谱图信号分析结构中的特征片段组合,初步形成了结构官能团分析方法学 (SGA)[412-17] ,并开发了严格的算法,在给定分子式(可由MS给定)的情况下组装这些结构片段(组装结构)[12-17] 。在数学逻辑的基础上确定了结构片段组合策略,加入图形理论确保生成的结构符合实验波谱谱图数据和结构规则。在此过程中认识到了结构规则的重要性,并引入了 Goodlist(必须存在于所有生成结构中的片段列表)和 Badlist(禁止在所有生成结构中存在的碎片列表)的概念[18]。提出了针对存在或不存在片段的结构分析算法[19],使用结构片段库过滤生成的结构,结构片段库包含从 1H 和13C NMR 和 IR 波谱中获得的具有其特征波谱特征的片段[20]。过滤机制是必要的,不合理结构中的结构片段波谱特征与实际实验谱图矛盾,可以使用此过滤机制来排除一些不合理的结构。

下一个问题是如何在一组生成的可能的结构中找到正确的结构。可以采用预测红外波谱和13C NMR谱图实际实验谱图比较排序的方式进行。初步研究表明,使用光学理论[21]预测的红外波谱可以用来对生成的结构进行排序,[22]但研究人员很快意识到,这种方法的能力有限,并不能满足实际需求。因此13C NMR化学位移预测比较被认为是最合适的方法,Clerc和Sommeraurer开发了第一个使用取代规则算法预测13C化学位移的程序。[23]至此,人们认识到结构片段分析、结构生成、结构过滤和13C谱预测是计算机辅助结构解析工作流程的主要步骤(CASE ES)。因此研究人员按此方法学开发了一些不同程度的专家系统ESs(见书籍[24-26]和评论[27-30])。值得注意的是,尽管现代的专家系统ESs与第一代的专家系统ESs有很大的不同,但它们的总体构架基本上是相同的。

尽管在第一阶段取得了可喜的结果,但还是没能让研究人员完全满意。1D NMR波谱谱图中缺乏结构信息,且旧计算机速度慢,使得研究人员只能解析骨架原子较少的结构(即使在芳香环存在的情况下,骨架原子个数最大值为15-20)。这不能满足有机化学家的需求,特别是那些天然产物领域研究人员的要求。

二维(2D)NMR 实验的出现使CASE 专家系统软件开发进入到第二个阶段。2D NMR 谱图分析方法彻底改变了使用 NMR 波谱学解析化合物化学结构式的方法。2D NMR 已成为现代化学中结构解析的基石和CASE系统结构信息的基本来源。在20世纪最后十年和21世纪第一个十年中,开发了一系列的基于1D和2D NMR波谱谱图组合进行结构解析专家系统,并建立了使用长程1H–1H, 1H–13C, 和 1H–15N 相关谱解析结构的方法学。这些结构解析系统有SESAMI–H、[10] LSD、[31] CISOC-SES、[32] COCON、[33] LUCY[34] 和 ACD/Structure Elucidator (ACD/SE)。[35] 每个系统都有自己的算法和用户界面,不同程度的服务和用户友好性成为各个软件系统的特色。所有这些软件都可以读取 1H, 13C, 、相关谱 (COSY)、 1H–13C 异核单量子相关谱 (HSQC)、 1H–13C异核多键相关谱 (HMBC) 和1H–15N HMBC 数据,当然也可以兼容其他类型的2D NMR实验产生的相关谱谱图数据。这些软件系统基于“确定性算法”:即,结构是软件结合软件内部系统知识和实验波谱数据逻辑组合分析生成的。后来,还开发出了一个使用“随机算法”(遗传算法[36]),SENECA,[11]的软件系统。

也有一些文献对现代专家系统软件和结构解析计算方法的能力进行了一些比较。[37-43] 值得指出的是,许多介绍新型2D NMR实验文章的作者也指出了新的实验方法对CASE系统的影响。此外,在天然产物结构解析和药物研发领域,人们对 CASE 系统的兴趣与日俱增。[37, 38]Burns等人最近在一次调查[40]中讨论了CASE系统在天然产物结构解析研究中的具体作用,讨论了三个市售的软件产品(ACD/SE,[5]Burker CMC-se,[7] Mestrelab MNova[6])以及一个开源软件方案(LSD[8])。作者指出,"很多文章都很好地介绍过ACD/SE软件,该软件也经过了非常广泛的测试,可以从公开文献中了解它的相关有信息。"由于对于其他商业软件的信息了解有限,本文中我们将以ACD/SE为例[26、44、45] 介绍现代 CASE 系统的主要特征。


     
CASE的策略

ACD/SE 系统的数据库包括公理原则和事实知识,而且该软件还能结合研究人员身知识、经验和直觉。公理原则是NMR波谱谱图中通常观察到的官能团的特征信息,以及Goodlist和Badlist。这些片段库形成了软件的波谱结构过滤系统。

事实知识信息包括包含数十万个结构数据库,包含1H,13C,15N,19F和31P NMR 波谱谱图中化学移位归属信息,还包含一个300多万个片段的1H13C波谱谱图数据子库,不同数据库采用不同软件界面。该软件作为逻辑推论的引擎,给用户提供所有的可能结构,这些结构生成都基于实验数据和系统知识。

该软件从 1D 和 2D NMR 实验中获得的实验数据。典型数据包括由高分辨率MS (HRMS) 谱确定的分子式,以及以下波谱谱图:13C1H、HSQC(异核多量子相关 [HMQC])、COSY 和 HMBC。程序通过分析标峰积分后(通过人工干预进行半自动执行)的电子数据表格,构建分子连接图 (MCD),MCD体现的是分子式中所有原子及其之间的连接关系。图1 为示例MCD图。

           

图1

右侧结构的分子连接图 (MCD)。[46] MCD图中可以看到异核多键相关谱 (HMBC) 和H H相关谱 (COSY) 波谱谱图数据信息。碳原子杂化状态以不同颜色标识如下:sp3,蓝色:sp2,紫色; 非sp(sp3或sp2),浅蓝色。HMBC 相关信号以绿色箭头表示,蓝色箭头表示 COSY 相关信号。碳原子附近的标签"fb"表示禁止与异核原子相连,而标签"ob"意味着给定原子与至少一个异核原子相连。


MCD图中可以显示原子和XHn官能团以及其化学移位和特性(价态、杂化状态等)。MCD 图清晰地展示了生成结构过程中应当遵守的原则。一般情况下,COSY 信号对应的应该是一个C– C 键 (3JHH) 的连接,HMBC 的信号应该对应的是一个或两个 C– C 键 (2–3JCH) 的连接。我们称这些连接方式为标准连接方式。[47]

在下一步中,软件将对 MCD 进行逻辑分析检查其是否与实验数据一致,但也有可能存在非标准 nJHH、XH (n > 3) 连接方式(NSC)。NSC 的存在可能会让MCD图与 2D NMR 数据相互矛盾。软件检查MCD图后如果未发现矛盾的地方,则严格按MCD图生成结构,同时对所有生成的结构进行波谱结构过滤。如果程序检测到 NSC 的存在,则使用模糊结构生成 (FSG) 模式。此模式允许在不清楚NSC个数和化学键长度连接情况下生成结构。

如果由于样品浓度低或分子缺氢,从 2D NMR 数据中获得的信息不足以在合理的时间内解析出结构,则可以给定一些片段结构信息到 MCD 中。这些结构片段信息可以通过 13C 信息检索系统片段数据库(> 300 万个片段)的方式获得或者通过用户自身的知识对谱图的认知获得。此外,还可以自动创建针对特定类化合物的片段的用户数据库。

从生成的结构列表中选择最有可能的结构可以基于三种经验算法预测其 13C(如有必要也可预测1H)化学位移:迭代算法、神经网络和HOSE CODE算法。[2630] 迭代算法预测碳化学移位,预测计算速度高达每秒 30,000 次,平均误差为 1.6–1.8 ppm,因此迭代算法是选择最可能结构的良好基础算法。然后,软件按预测谱图和实验谱图之间的化学移位平均偏差的正序排列结构列表。

目前,结构解析工作完成是指确定好了结构的相对构型和建立分子3D模型,为此,这需要使用Noe谱图 (NOESY) /Rosy谱图(ROESY) 数据来确定相对构型。通常情况下原子间距离5 Å内的  1H 会有NOESY或ROESY相关信号。此标准通常足以定义刚性或不超过两到三个手性中心分子的相对构型。一旦结构为柔性分子或有分子内有更多的手性中心,那么研究人员需要仔细评估NOE或ROE信号强度,因为原子间的距离远近决定了信号的强度。NOESY/ROESY相关信号强度与两个原子核之间距离的6次幂的倒数成正比。而NMR实验测得的相关信号强度取决于实验的混合时间,以及T1弛豫时间和分子运动。

ACD/SE 可以使用NOESY 和/或 ROESY 波谱谱图信号确定最可能结构的相对构型。[48] 软件对所有可能的立体异构体进行构象分析,检查比较NOE相关信号(氢原子之间的距离)。通过此方法选择最合适的立体异构体,并建立其相应的空间3D 模型。

值得注意的是,软件开发过程中使用了以下假设:

  • 软件使用CH2基团中两个相邻的质子来校准谱图中相关信号的强度。它们的空间距离已知约为 1.8(±0.05)Å 并且不受化学键旋转、弯曲等因素影响。如果无法使用此类基团,也可以使用任何其他一对质子,但前提是它们之间的距离已知。

  • 甲基基团含有三个质子,而NMR波谱谱图中只有一个峰,这会导致软件对甲基的NOESY/ROESY信号的处理更加复杂。因为甲基的三个质子都会对其它核产生相关信号,而且它们跟其它核空间距离上并不一样,但实际观察到的情况并非如此。因此最好的处理方法是通过空间距离计算每个质子的NOE响应(距离6次幂倒数方程),再平均化它们NOE响应,并将此与实验测量的NOE信号进行比较,也就是说单独计算出单个质子的信号响应,再将甲基视为一个整体平均化。待确定好正确的3D结构后,软件再在结构上添加所需的甲基质子。


同样的问题也会出现在CH2等价质子上。它的信号是各个质子的信号的总和。与甲基基团的区别在CH2上的质子不能有自由旋转,也不能互换,因此它们的NOE信号不能平均。为此,有必要对这类质子进行特殊处理。

因此,只有有限种类的质子可以结合NOESY和ROESY波谱谱图相关信号,准确计算空间距离,这些质子是:甲基基团,非等价的CH2和脂肪族的CHs。一般不采用芳香族和等效的CH2基团,除非充分考虑了它们的复杂性。

一个特定的立体异构体可能会对应一组可能的构象异构体。原子之间的空间距离在所有构象中都可能不一样,因此,NOESY/ROESY信号响应会有所不同。由于不同构象异构体的能量不同,各个构象异构体的含量也不一样。因此,软件程序会考虑计算所有可能的低能量的构象并预测的相对含量。计算时使用了开源程序 RDKit[49] ;在软件的后期版本中,可以通过第三方分子动力学软件计算构象异构体的结果导入 ACD/SE中。

被选中作为构象分析的相关信号应当具有足够的强度,不应与其他信号重叠。强度低或重叠的信号其积分值(信号量)具有很高的不确定性。在选定了信号峰及确定了其积分值后,下一目标是计算它们对应质子间的空间距离,并检查与每个可能的立体异构体与计算结果的吻合情况。正确的立体异构体应符合大多数或所有选定的信号峰的计算结果。

软件通常会计算每个立体异构体质子空间距离的理论和实验距离均方根误差(RMSD)和相对偏差 (RD) 百分比。最佳的立体异构的 RMSD应当小于 0.10 Å和相对偏差大约小于4%(RDE)。那么次佳的立体异构体应该有显著更大的 RMSD 和相对偏差。如果不满足上述条件,就需要重新选择NOE的相关信号进行重新计算。

计算化学实验表明,不应期望在任何情况下都可以得到一个无可争议的答案,因为我们是确定一个符合实验数据的结构,而不是一个完全准确的结构。可能会存在这样的情况,换一个参数采集的数据通过计算会得到一个更佳的结果,也可能各向同性参数 NMR 谱图实验无法获得良好结果,那么可能就需要各向异性参数实验结果(见第 4.2.2 节)。

如果研究对象分子不包含甲基或可用于强度校准的一对原子,则上述方法就会有问题。最近,出现了另外一种从NOESY/ROESY数据确定空间构型方法。[50] 它有非常有吸引力和优势,我们期望可以将它和现有的算法一起放入到ES中。

有趣的是,在一些出版文献中,[51]研究人员首先人工解析出了新化合物的结构,然后再使用CASE系统进行确认。经验表明如果从一开始就使用CASE,解决问题将会更快结果会更加合理。

ACD/SE软件已经解决了天然产物结构鉴定中的很多问题。其中不乏一些案例是一些经验丰富的波谱学专家不能解析的新结构。[52, 53]软件系统的算法一直不断改进中。


     
CASE与新NMR实验相互协同促进

现代CASE系统允许使用各种实验获得的不同类型的 NMR 谱图和结构信息。这样,随着新的NMR实验和旨在获得更多结构信息的相关新理论技术的不断发展,这些可以而且应该用于增强ES的能力。一般来说,研究人员也希望ES 和新的实验方法之间有协同作用。新的实验方法可以为 CASE 提供新的结构信息,从而减少结果的模糊性和结构生成的时间。同时,在 CASE 中使用此新实验方法谱图信息可以使新实验方法更具影响力,结果更容易被采纳。由于 CASE 能够从给定的公理原则(波谱—结构假设)中得出所有逻辑推论(结构),CASE系统可以从不同2D NMR实验组合中获得结构信息。[5455] 在这里,我们将讨论CASE进一步发展和改进的方向。


4.1 缺氢分子的挑战和远程2D NMR实验的作用

CASE系统软件使用 HMBC 和 COSY 波谱谱图,标准实验参数谱图记录的是1H–1H和 1H–13C 两到三个键长度的相关信号。由于结构的空间特性以及特定的实验参数设置(对较小的耦合常数进行实验优化),还可观察到更长的相关信号(4、5 和 6 键长度),这些就是NSC。这些相关信号在结构解析过程中起着双重作用。由于没有可靠的实验方法可以区分不同键长的相关信号,因此,无论是由人类专家 [40] 还是由 CASE 系统,2D NMR 波谱中 NSC 的存在会显著阻碍结构解析过程。从某种意义上说,NSC是人类专家和CASE系统的敌人。如上文所述,ACD/SE 生成结构时使用“模糊”(FSG)[47,56]算法来解决这个问题。然而,在缺氢分子的情况下,结构通常包含大片"沉默"的结构片段,通常由季C原子组成,在常见的2D NMR实验中没有相关信号。观察标准相关信号的谱图不足以解析结构。为了解决这个问题,研究人员开发了远程异核单量子多键相关性(LR-HSQMBC)实验[54,57],能够观测长度达7个键的非常长的非标准相关信号NSC。当与常规 HMBC 相关谱图一起使用时,这些 NSC 可以"穿透"到沉默结构片段中有助于解析结构。在这种情况下,长程 NSC 是人类专家和 CASE 系统的朋友。有很多发表过的论文使用了 LR-HSQMBC 实验 [58-62] 以及常见的 2D NMR 数据(包括 1,1- ADEQUATE),解析了 C/H 比率在 1.5 到 2 之间的相当复杂的结构。结果表明,即使仅在数据中增加了 LR-HSQMBC实验,没有1,1-ADEQUATE谱图的情况下,也可以解析具有挑战性的结构。在LR-HSQMBC的基础上添加 HSQMBC–总相关谱 (TOCSY)[61] ,可以进一步研究长程耦合,但对于质子缺乏分子来说,额外长程耦合信息就很少,没有太多的用处。[63] 图 2 是具有挑战性的缺氢分子 LR-HSQMBC 相关信号。

图2. 缺氢结构远程异核单量子多键相关示例。

(a) 鹿色霉素A2在 2 Hz 优化条件下 LR-HSQMBC 的相关信号[57] 

(b) Eudistadine C. 2 Hz 优化条件下四键(绿色箭头)和五键(红色箭头)氢碳相关信号。[64] 

(c)Caulamidine A. LR-HSQMBC中除去1H-13C异核多键相关谱(HMBC)信号的后的相关信号(橙色箭头)和HSCMBC-总相关谱(TOCSY)除去LR-HSQMBC和HMBC(绿色箭头)信号后相关信号[65]


当结构已经解析出来或者已经获得了一组可能的结构时,这些长程相关信号和其它标准相关信号一起可以被用来评估结构的可信度。然而,将全套标准谱图和非标准谱图的1H–13C 相关放到一起对于人类专家手动查看谱图解析结构来说是一项艰巨的任务。Blinov等人[54]表明,将所有谱图(包括LR-HSQMBC)输入到ACD/SE,可以使用CASE方法解析那些具有挑战性的缺氢结构。然而,CASE仍有一些问题需要解决:由于CASE对数据处理应用了“公理原则”准则,[26],相关信号的谱图种类来源没有区分,每个相关信号的长度都假定为2–3或4–6键长。因此理想的状况是CASE系统可以做到将 HMBC谱图基础上额外观察到的相关信号归为 LR-HSQMBC 谱图相关信号,其长度自动假设为4-6或4–7键长。

然而不幸的是,这是不可能的,因为在 HMBC 中观察到的一些信号也能在 LR-HSQMBC 中观察到,并且一些 NSC 可能同时存在于这两个谱图中。例如,在螺旋结构[62]31 个信号中的 16 个(50%)LR-HSQMBC相关信号也能在HMBC中观察到(见结构1与LR-HSQMBC连接)。同时,众所周知芳香和烯烃质子的2键HMBC相关信号也可能会很弱,以至于可能在HMBC波谱中无法观察到(2JCH通常相当小)。但是,在针对弱 JCH耦合优化的 LR-HSQMBC 谱图中,可以观察到这些相关信号,这些 2D NMR 数据中相关信号将对软件造成误导。在一些成功的案例中,如果有 COSY 数据以及 H2BC 或 1,1- ADEQUATE谱图,可以通过MCD图查看分析确定此类相关信号的真实长度。请注意,如果即使只有一个相关信号的键长分析过程中假定的键长不正确(例如,应该是2-3个键长,被假定为了4-6个键长,反之亦然),最终很可能解析出的结构就是不正确的.

我们希望,尤其是在样品量不足以采集(如 1,1-ADEQUATE 和 INADEQUATE)的情况下,LR-HSQMBC 和 HSQMBC–TOCSY 能广泛用于缺氢分子的结构解析。因此,有必要优化CASE 专家系统应用 LR-HSQMBC 和 HSQMBC–TOCSY谱图策略。

当使用片段数据库检索缺氢分子的片段结构信息效果不佳时(没有找到合适的片段),就应当引入用额外的 2D NMR 实验数据。我们可以预期,今后随着更先进的NMR实验的发展,或随着现有实验的灵敏度的提高,片段库的的重要性将有所降低,取而代之的将是使用LR-HSQMBC 和 HSQMBC–TOCSY 和 1,1-ADEQUATE 和 INADEQUATE(如果可能)的实验数据组合。


4.2  1,1-ADEQUATE谱图中非正常相关信号对CASE的影响

直到现在,1,1- ADEQUATE实验一直被认为观察化学结构中CH–C键的可靠方法。它假定谱图上的所有相关信号都与结构中的2JCH耦合一一对应,因此该实验实质上就像一个严格意义上的2键HMBC实验。然而,Sauré等人[66],在1,1- HD-ADEQUATE谱图中看到了跨碳基 2JCC 弱相关信号。因此,如果错误解析了伴随 1JCC相关信号一起出现弱的2JCC 相关信号,就会大大增加结构归属错误的可能性。当质子碳可能为羰基碳时,研究人员应当加倍小心因为谱图中可能会观察2JCC 相关信号。密度泛算法(DFT)计算的C–C耦合结果可以说明这一现象。在后续研究中,[67]作者注意到,在三取代吡嗪结构的1,1- ADEQUATE谱图中,也可以观察到异常长的3JCC 相关信号。这一点非常重要,因为当CASE系统使用1,1-ADEQUATE实验与标准的2D NMR实验谱图一起解析结构时,并不知道目标分子的内在结构特征。当然对于这样的情况,我们相信 CASE ES 有能力避免生成错误的结构。因为对于1,1-ADEQUATE谱图中可疑的相关信号,软件可以假设出所有的可能性生成对应的不同MCD图,最后再结合谱图再加以验证,结构生成引擎自动检查所有的可能性。如果在第一次生成结构时采用的是“严格条件”策略, 还可以进一步使用“FSG”结构生成策略解决问题。事实上,根据最近的发现,当1,1- ADEQUATE实验用于结构解析时,强烈建议采用后面一种结构生成策略。


4.3 纯位移 NMR 实验对CASE的影响

MCD图反映的是谱图数据提供的信号,符合“公理原则”,可用于生成所有可能的结构。分析HSQC 谱图可以获得骨架原子的13C 和 1H 化学移位信息。但如果在1H谱图中H信号重叠严重或者有出现高级耦那么归属相应的C、H信号将变得非常具有挑战。HSQC谱图归属不正确,就会导致HMBC谱图中相关信号归属不正确,从而导致 MCD 图中的 HMBC信号连接方式错误或模棱两可,生成错误的结构。即使 MCD 不包含错误的连接方式,但存在大量模棱两可的连接方式,输出文件的大小和结构生成的时间也会增加。

可以预料的是当在CASE中使用纯移位实验数据(也称为宽频 1H 同核去耦 [68])时,情况会明显好转。纯移位实验技术的主要目标是消除JHH的影响,将所有多重峰转化成单峰,简化谱图,谱图解释更轻松、更快捷。[69] 近年来,研究人员一直努力克服这种方法的不足之处,即灵敏度低的问题。因此,Foroozandeh和他的同事开发了一种新的、通用的纯移位实验,即" PSYCHE "(CHirp激发纯位移实验)。[70] 相比于其它"纯位移"实验,PSYCHE实验灵敏度提高了 10 倍。图3是雌二醇在DMSO-d6 中的常规谱图和PSYCHE纯位移谱图。

图3.雌二醇样品DMSO-d6[70] 中(a)的常规和(b)纯移位 1H NMR 谱图


迄今为止,研究人员已经开发出了用于 1H、COSY、TOCSY、HSQC、NOE和NOESY纯移位谱图实验脉冲序列。[71, 72] 应该指出的是,一些所谓的纯位移 HSQC 的脉冲序列实际上并不是真正的纯移位实验方法。它们在信号采集阶段使用的是BIRD-去耦脉冲序列[73],这会部分去耦谱图:所以仍然会观察到偕偶 H–H 耦合。但是,相比于标准 HSQC 脉冲序列的这种实验的灵敏度更高, F2[74] 分辨率的更好,这样的"纯移位"HSQC 谱图非常适合 CASE 系统。这与一般的去耦的技术谱图不同,通常一般技术去耦谱图中会产生大量的假信号,降低有效信号的 S/N,或更确切地说是有效信号/假信号比率。因此,PSYCHE 2D 谱图相比于之前的实验方法的谱图具有更好的灵敏度,但它仍然明显低于传统实验方法采集的谱图,因此它们唯一的真正优势是增强分辨率。使用纯移位实验将更有利于化学位移信号归属,获得用于构建 MCD 的谱图数据列表。这将增强CASE的"解决问题的能力",减少解决问题的时间。


     
CASE系统中的化学位移和耦合常数预测

5.1 NMR 化学移位预测:经验方法和 DFT 方法相互协同促进

CASE 系统通常不会只生成一个结构式,而是生成一组结构式,所有这些结构都符合实验谱图数据和 ES 规则。输出文件的大小可能差别很大,生成结构的数目从少数几个到数十万个不等,这取决于软件获得的结构限制条件的多少。为了选择最可能的结构,ES采用经验法预测13C, 1H, 15N, 19F和 31P 化学位移。通过计算的13C化学移位值和实际实验值的平均偏差对结构进行排序。直到2010年代初,化学位移经验方法的预测的准确性都略高于DFT的量子力学(QM)方法预测的准确性。但到了2010年代,量子力学DFT方法预测的化学移位准确性得到了大大提高[76-78] Semenov等人[79]使用DFT方法计算了10种类士迭宁结构骨架的马钱属生物碱结构的1H13C化学移位,发现计算的1H13C NMR化学移位与实际实验结果非常吻合,质子化学位移平均绝对偏差为0.08ppm(化学位移范围7ppm内),碳化学位移平均绝对误差为1.67ppm(化学位移范围150ppm内)。两种核的化学位移平均绝对百分比都小于 1%。

研究人员还致力于研究基于量子力学 DFT 的化学移位预测的实用性并努力实现计算自动化。例如,Yesiltepe等人[80]开发了化学信息计算(ISiCLE)模块,以准确和自动计算小有机分子的NMR化学移位。ISICLE 使用开源高性能计算化学软件程序 NWChem, 预测 NMR 化学位移。[81]

Smith等人[82]和Ermanis等人[83]建议采用一种称为DP4的统计学方法, 在13C归属完成的情况下计算各个立体异构的可能性。该程序在分子力学水平上进行构象异构体的研究,可以生成一系列的构象异构体。使用DFT方法选定较低的能量范围计算构象异构体的NMR化学位移。所有构象异构体的NMR化学位移数据使用 Boltzmann 加权进行统计学分析,找到最有可能的立体异构体。这种方法及其改进方法已广泛用于结构解析,解析结果更加健壮。

最近,他们又开发出一个可以自动处理和归属13C1H NMR 数据的系统, DP4-AI。[84] 该系统可以嵌入有机分子结构解析工作流程中。在输入候选结构和原始13C1H谱图后,程序使用量子力学 DFT 算法计算13C1H NMR 化学位移,在实验谱图上自动积分归属谱峰。程序给出最有可能的立体异构体,并带有化学位移归属信息。和DP4一样,DP4-AI利用的是专业化学家编译的NMR描述信息,同样可以保持很高的结构解析正确率,但该系统可以可靠地处理和归属 NMR 谱图,而且处理的效率提高了 60 倍。

Howarth等人[84]认为,DP4-AI系统成为将来开发更复杂NMR谱图自动解析方案的基础,并可与CASE软件一起用于结构解析。为这个目标,DP4-AI将来需要开发新的功能包括J 值分析和 2D NMR 信号归属。

我们认同作者的结论,并期望将基于 DP4 概念的上述方法应用于 CASE 系统,这将显著增强CASE的稳健性,并加快结构解析过程。

然而,尽管基于量子力学DFT 的化学移位预测具有各种优点,但在可预见的未来,在CASE 输出的大文件中选择最可能的结构,经验方法预测仍然是不可替代的,这主要是因为经验法预测速度非常快且精度足够(13C 的平均偏差 1.6–1.8 ppm)。这些方法也可用于不同的化学研究领域,快速评估结构猜想。然而,经验方法存在一个缺点,即特定分子的化学移位预测的准确性取决于用于算法训练的数据库中是否包含类似结构特征片段的化合物。然而,可以预期的是当使用大量多样性的数据对神经网络算法进行深度训练后[85],将进一步提高化学移位预测的准确性。现在已经朝这个方向开始工作了,第一个尝试的结果看起来非常有希望。[86, 87]

尽管基于量子力学 DFT 的方法不会遇到上述问题,但它们最大的缺点是化学结构几何优化和化学位移计算所需的时间很长(几小时到几十小时不等)。最近,在一系列文献例子中,研究人员设计采取了一项妥协方案。[88, 89] 在极少数情况下,当CASE系统输出文件中排名靠前结构的化学移位偏差不足以用来区分最优结构时,可以使用量子力学 DFT 方法计算排名靠前的两到六个结构的 13C 化学移位来解决结构筛选问题。这样,经验法和 QM 方法有机结合到了 CASE 系统中。

应当指出,有些文献是根据人工 NMR 数据分析结果给出一组可能的结构,然后再使用 QM 方法预测13C化学位移最终选定最佳结构。[90-93] 例如,Lodewyk等人修正aquatolide结构时[94]使用 DFT算法计算了60个人工提供的备选结构13C化学移位,找到了最可能的结构。但这种方法相比于CASE方案提供可能结构非常低效,这一点也得到了有效证明[95]——在这个案例中,ACD/SE生成了三个可能的结构(见第4.2.2节中的结构2-4),再利用DFT计算最终确认了结构2的有效性。

作者表明, ACD/SE 软件中内建的经验方法预测13C化学位移,在生成结构的过程中可以有效地去除不合理的结构。因此我们认为,只有在必要时才需要引入 QM 计算,如上述案例中当CASE 生成的结构数目不多的情况下。[88, 89]

我们分析了最近发表在有机化学主要期刊上的文章,新的天然产物结构通常使用量子力学DFT的算法预测13C化学移位来确认结构,而其绝对构型确定则采用计算比较对映异构体的圆二色谱(ECD)谱图的方式来进行。这种方法非常流行,因为ECD谱图的采集比较简单,我们也期望它能作为CASE工作流程的一部分。我们还可以预见CASE系统除了采用经验方法计算化学移位外,将来还会引入量子力学 DFT方法预测 NMR 谱图和其他光学谱图。

CASE 系统的性能始终随着计算机性能的提高而提高。然而,实验室普通桌面计算机想大幅提高结构生成和量子力学DFT 计算速度有一定的难度。这是因为普通计算机的计算速度受到电子产品产生的热量和冷却系统能力的限制。根据摩尔定律[96],已经无法再挖掘微处理器的计算潜力,非常耗算力的计算任务应转移到超级计算机[97]上,这些计算机的算力以petafops(一个petafop相当于每秒1015个浮点计算操作)来衡量计算速度。在超级计算机条件下可显著提高 CASE 系统的性能,大部分情况下,即使是缺氢分子结构生成速度都会很快。但是,这将需要修改结构生成的算法,利用多处理器的并行计算能力。研究已经表明[98],如果计算程序是支持多线程,即使使用普通多核台式计算机,结构生成速度也可以明显加快。对于运用超级计算机运行量子力学QM计算前景,最近公布的研究结果[99]还是很乐观的。Nakata[99] 从 PubChem[100] 中挑选了 153 万个小分子,并对所有这些分子进行了 ab initio 几何优化,然后使用6-31-+G* 基础集按时间依赖的DFT(TDDFT)算法计算了10个低激发态。RIKEN 的 RICC 和Quest超级计算机与东京大学的Oakleaf— FX 一起用于此计算任务。每天可以计算 1,000 到 10,000 个分子。在随后的工作中,Nakata等人[101]再次使用超级计算机优化PubChem9120万分子中的92.9%的分子几何形状,并运用半经验PM6算法计算电子特性。


5.2 耦合常数预测助力CASE

5.2.1 CASE 方法中运用各向异性耦合常数的潜力

耦合常数nJHHnJCH nJNH 以及化学移位信息被广泛用于结构解析、构象分析和相对构型的确定。传统CASE系统仅利用了 NMR化学位移信息。然而,对于NSC信号,可以使用CASE系统FSG模式解析出结构,再运用DFT算法预测其 nJHH nJCH 耦合常数对这些结构加以验证,最近的研究[102]表明这种方式是可行的。此外,事实证明,远程耦合常数计算可以作为从FSG模式下生成的备选结构中选择最可能的结构的有效手段。

受上述研究的启发,我们期望将耦合常数用于 CASE 系统结构排序,尤其是在仅使用化学移位排序出现问题时,可以实验测定一些耦合常数 nJHHnJCH nJCC,同时使用 DFT 方法进行理论计算,再比较实验结果和计算结果,这样可以就有望到正确的结构。

这种设想是基于在2010年代开发了大量测量耦合常数的实验,以及很多文献阐述了量子力学DFT计算耦合常数的成功实例的基础上。

Krivdin[103] 论述了碳-碳自旋-自旋耦合常数理论计算在鉴定有机和生物有机分子中的实际应用,特别是芳香和杂环芳香化合物及其衍生物、天然产物和碳氢化合物。Harper 和Pope论述了1JCC耦合常数在结构鉴定方面的最新发展,他们认为理论计算备选结构的1JCC耦合常数对结构解析研究起很大的促进作用。Williamson及其同事[105]计算和实测了士迭宁结构的一键和邻碳—碳耦合常数,对两者进行了比较,结果表明所有27个不同1JCC3JCC耦合常数的标准偏差只有1.09 Hz ,符合实验预期的误差范围。Bifulco及其同事[106]计算了士迭宁的所有可能立体异构体1JCC耦合常数, 最佳立体异构体的计算实测耦合常数平均偏差仅为0.7Hz,而其它立体异构体的平均偏差在1-3Hz范围内。Martin及其同事[107]计算了抗生素分子coniothyrione原先错误结构和修正后结构式的碳-碳耦合常数,这有了充分的证据证明修正后的结构式的正确性。其它文献还表明[108],许多有机结构的准确和完整的结构表征工作可以通过量子力学DFT级别的1JCC耦合常数的计算和与实测数据比较来进行。上述文献中的例子表明,测量和计算的1JCC耦合常数是解析复杂天然化合物结构的有力手段,并且可以而且应该将其应用到 CASE 系统中。

异核单键氢-碳耦合常数 (1JCH) 可以作为溶液中小的合成分子和天然产物的结构、立体和构象信息的来源。1JCH耦合范围值的间距为120至250Hz,不同类别有机化合物的有不同的特性值:脂肪族化合物为120–140Hz、烯烃或芳香化合物为140–170Hz,杂核芳香化合物为170–200Hz,以及末端烯烃化合物为250Hz 左右。[109] 1JCH的大小取决于CH 键中s成分多少以和中心碳原子周围取代情况和取代基团的性质。1JCH耦合是确定六元糖甘露糖的异头a/b 构型的基础,还可用于归属sp杂化三键质子、识别杂核芳香化合物、确认电负性原子(氧、氯或溴等)或刚性环(如环丙烷、环氧化合物、环丁烷或双环并环系统(降冰片烷、松节烷等)等方面。[109] 许多文献已证明可以利用耦合常数成功识别这些结构特征和功能基团。

已有很多文献讨论了量子力学DFT计算1JCH耦合常数的不同方法。例如,Venkata 及其同事 [110]  用量子力学DFT 算法计算了200 多个分子的1JCH 耦合常数并与实测数值进行了比较,包括降冰片烷和环丙烷等刚性环,以及杂环化合物如四氮唑核和吡啶。文献使用开源量子化学软件,NWChem,计算时选择 B3LYP 和 TZVP 方法的组合减少计算时间并确保普适性,[81]确保文献报道的方法可免费提供给所有研究人员。结果证实,DFT在预测大多数类型的CH基团的1JCH耦合常数方面具有很好的准确性,因此,DFT算法预测1JCH耦合常数在结构解析方面具有很好的前途。

结果表明,DFT预测1JCH耦合常数,在考虑互变异构体和构象异构的情况下,通过线性回归校正,大多数分子的标准偏差可以做到小于4Hz。Venkata等人[110]的结论是,这些结果足以表明DFT算法耦合常数的计算足够准确,可用于结构解析,甚至可以用于解析杂环和桥接环化合物,这些结构的鉴定工作通常都很困难。

就在最近,Buevich 及其同事 [112] 证明,如果仔细选择用于几何优化和J耦合计算的 DFT 方法(例如 B3LYP/6-31G(d,p混合模式)//mPW1PW/cc-pVTZ),可以获得高度准确的1JCH耦合常数预测值。上述建议的方法已运用65个化合物(结构多样)的 122个1JCH耦合常数进行了交叉验证。耦合常数的预测误差范围符合预期,RMSD 为 2.7 Hz (1.6%)。对于士迭宁这类相对刚性的结构,RMSD 为 1.77 Hz,在应用溶剂的极性连续模型 (PCM)情况下 ,RMSD 降至 1.61 Hz (1.1%),这些结果都是在没有使用额修正的情况下获得的。如此高精度1JCH耦合常数计算足以区分士迭宁的13种可能的位置异构体和三种构象异构体。

DFT 对1JCH耦合常数值的预测为结构鉴定提供了有价值的信息,但对于分子量 相对较小的分子(约500)来说,计算时间通常需要数小时到数天。为了解决这个问题,Gerrard及其同事[111]建议使用机器学习系统,IMPRESSION(Intelligent Machine PREdiction of Shift and Scalar Information Of Nuclei原子核智能机器移位标量信息系统),预测1H 13C化学位移和1JCH耦合常数。为此,从剑桥结构数据库中选取了882个三维结构:其 NMR 参数(包括 1JCH)是使用 DFT 计算的,其计算结果作为机器学习的训练集,以预测1JCH值。结果表明,这种方法的预测准确性接近Buevich及其同事计算方法的准确性[112],而计算时间很短(几分之一秒)。我们预计,像" IMPRESSION "这样的程序将来可以应用到CASE系统中。

测量1JCH原本是非常繁琐的工作,多年以来,研究人员已经开发出许多用于测量1JCH的新方法[113-117],大大促进了这项工作的发展。Marco 及其同事 [109] 开发了一个用户友好的 NMR 界面,用于查看和准确地测定实验1JCH值。由于1JCH值和δ值 (1H) 是相关的,1JCH的测量也有助于快速识别和归属关键结构或官能团的1H信号。示例见图 4。

图4.CDCl3中 (+)-isopinocampheol 1JCH NMR 谱图。1JCH /2(单位Hz)数值大小可以从每个相关峰的 F1数值直接读取[109]


由于耦合常数包含有价值的结构信息,CASE 系统应当与DFT 算法的预测计算相结合,用于确定化合物最可能的结构和最稳定的构象以及相对构型。另一方面,大量已发表的耦合常数测量实验使非 NMR 专家难以选择最合适的测量技术。例如,1H–耦合 HSQC 谱图中测量的1JCH耦合常数,在强1H1H耦合(118)的情况下测定的数据可能会有一些错误,研究人员在规划实验时应当考虑到这一点。

我们可以预期的是,在未来,CASE程序将提供一个专门的用户交互界面("专家子系统"),能够帮助用户根据谱图特性(信号重叠程度等)以及与所研究对象的结构其他相关信息选择适当的实验种类来测定耦合常数。


5.2.2 各向异性耦合用于结构 3D 模型确定、构型和结构判定

直到现在,CASE系统也只用于解析新有机化合物的2D平面结构。然而,目前几乎所有新分离或合成物质的研究中不仅确定了它们的平面结构,而且也确定了相对构型,NOESY 和 ROESY谱用于此项工作。常见的方法是从构象研究或X-ray分析构建分子的3D模型,并且使用ECD或单晶衍射谱图的方法确认其绝对构型。

构型信息对于了解新化合物的化学、物理化学和生化特性非常重要。为此,应增加ESs软件构建 3D 分子模型工具来增强其能力。如前所述,ACD/SE 可以生成结构的所有立体异构体,利用NOE/ROE 信号进行构象分析,并选择最佳的立体异构体。[48]

最近研究人员提出了一种新方法用来确定分子3D模型[119,120]。这是基于分子的各向异性NMR参数,即残余偶极耦合(RDCs)[121,122]和残余化学位移各向异性谱(RCSA)。[123] 这些谱图提供3D信息各自来源于分子中不同化学键的相对取向和化学屏蔽张量。在化合物分子部分排列整齐时,才能观察到RDC和RCS现象,通常使用聚合物凝胶或液态晶体物质帮助分子排列。RDC值是从测量异核1JCH耦合常数两次实验的差异中获得。一次是在各向同性介质溶液中测定1JCH,另一种是在各向异性介质中测定总耦合常数 1JCH + 1DCH。从各向异性介质中测量的耦合常数数据中获得 1DCH 项就是 RDC。

13C–1H RDC数据,包含分子中不同C–H键的相对方向的信息,这构成了不同结构差异的基础。正确和不正确的结构的键与键的取向的相对关系是不同的。因此, 基于DFT 算法计算的正确结构的理论 RDC 值必须与实验测量值一致。可以通过理论与实验相关图进行评估,也可以用质量(Q)因子来衡量。[119] 低 Q 因子表示理论和实际吻合度好。

RCSA,一种各向异性NMR的参数,有着可以提供不与氢相连的碳的信息的优点。由于 RCSA 和 RDC 提供的结构信息互补,因此建议对两者都进行测量。与RDCs不同,RCSAs取决于分子结构中不同化学屏蔽张量的相对方向。在结构解析应用方面,RCSA 与RDC 有着相似的作用。使用 RDC 和 RCSA 数据一起可以更可靠地确定分子排列和屏蔽张量,获得不同结构的差异性更准确更充分。

这种新方法的能力在若干具有挑战性的案例中已得到了很好的证明[119]。例如,ACD/SE 提出了倍半萜Aquatolide的以下三个候选结构[88]

按实验和预测的13C化学位移平均偏差对这些结构进行排序,这三个结构的顺序相同:也就是说使用经验预测算法无法区分它们。但基于 DFT算法 的 13C 化学位移计算清楚地显示结构 2 是正确的,其RMSD(2)=1.82 ppm,RMSD(3)=11.38,RMSD(4)= 7.65。[88] 同时应用新方法计算这些结构,[119] 给出的结果证实了 DFT 算法化学移位预测的结构排名顺序:结构2、3 和4的Q因子(RDC + RCSA) 值分别是0.12、0.23和0.59。有趣的是,之前认为的Aquatolide正确结构的Q因子等于0.72。上述结果表明,各向异性参数 RDC 和 RCSA 的可成功用于结构修正。

RDCs 和 RCSAs 的组合提供了一种强大而正交的手段,不仅可以确认特定手性中心的相对构型,还可以确认被研究分子的整体结构和原子连接方式。对 RDC 和 RCSA 数据结果进行综合分析,是一种确认或否定待定结构,或从 CASE 程序生成的同分异构体中进行选择正确结构的独立方法。

这篇文献提出了基于RDC确定天然产物相对构型的工作流程图 [124],并在 CASE ES 中解析了一系列的结构说明了其应用。文献介绍了基于各向同性和各向异性组合的计算机辅助3D结构解析方法。[120] 对于每个非对映异构体而言,基于分子力学原理生成一系列的构象异构体,再结合1DCH RDC、NOE信号—距离定量关系、耦合常数以及各向同性化学移位来选择最佳3D结构。构象异构体数目使用Akaike信息量准则(AIC)过滤筛选。[125] 当 AIC 不再随着构象数量的增加而减少时,停止生成构象异构体。所有的构型都使用上述方法进行研究,结果表明 AIC 分数最低的构象异构体集合的构型为最佳结构,这是解决结构问题的最佳解决方案。事实证明,AIC的使用允许根据概率比对不同的试验模型进行评分。AIC评分差异给出的两种不同模型的相对好坏。通过对几种天然产物相对构型的确定,证明了该方法的有效性。成功使用各向异性参数的前提是选择合适的分子排列介质(凝胶/液晶)。这些文献中讨论了最合适的介质。[126-128]

我们预计,测量各向异性参数的实验技术将得到进一步发展,未来可以将这一技术和NOESY/ROESY方法一起用于ES中,用于结构解析和相对构型确定。


     
CASE作为结构修正、排重和验证的工具

Nicolaou和Snyders[129]在2005年发表的一篇高引用的文章中提出了一个令人担忧的事实,在一系列的文献中出现大量新的有机化合物和天然产物结构的解析归属错误,这引起了化学学界的注意。这些综述文章对结构鉴定中错误解析波谱谱图数据的原因进行了分析。[130-134]研究表明,如果研究人员使用CASE系统进行结构解析,那么就会获得正确的结构,或者至少程序会指出潜在的问题,所以作者建议研究人员仔细检查实验数据。文章的结论是,CASE是一种非常有效和健壮的工具,可以防止解析出错误的结构。最近,Robien[135]介绍了一个CASE程序,它就像一个受过结构修正训练的机器人。这是一个结构修正非常有用的工具; 然而,我们面临的挑战是如何首先为化学家提供能够防止结构解析错误的工具,从而减少错误出版物的数量。当ES和用户一起所采用的‘公理原则’确定未知对象的结构时,[46]出现了另一个重要问题——需要教育化学家在获取、处理和解释用于结构解析核磁共振数据时,如何更有效、更可靠地使用CASE工具。Burns和Reynolds的一篇公开的文章[136]致力于降低从核磁共振数据解析错误天然产物结构的风险,这篇文章强烈推荐给同时使用CASE和人工解析结构的化学家。

对文献的分析结果表明,仅有一小部分关于天然产物分离和新结构解析的文章列出了实验数据1D和2D NMR表格以及在附加信息中给出图片形式的2D NMR谱图。一般情况下,发表的文献并没有2D NMR数据表格,只有关键的COSY、HMBC和NOESY/ROESY相关信号以箭头形式在建议结构上表示出来,用来验证结构的正确性。根据我们的经验,如果仅有这些文献提供的关键相关信号,使用CASE程序可以生成的数十或数百个符合这些关键相关信号的结构。这意味着在建议结构上标识关键NMR相关信号的方式并不是一个令人信服的结构确证方式, 虽然这些关联信号与结构并不矛盾,但也不一定能证实它就是最正确的结构。此外,辅助附加信息中的2D NMR图片不能用来进行人工结构解析或计算机验证,因为通常它们的分辨率很低,而且不可能从图片上识别出化学位移。化学界最近认识到对于确认和修正已发表的结构而言,1D和2D NMR原始数据的重要性[137]

讨论的结果是需要引入了一种新的文件格式[138],可以从有机化合物的1D和2D波谱谱图中提取用于证明提议结构的NMR相关信号。这就是NMReDATA (NMR提取数据)文件格式,其信息包括化学位移值、信号积分、强度、峰类型、耦合常数、2D相关信号列表、弛豫时间和扩散速率。NMReDATA文件与生成它的原始谱图数据一起构成了一个完整NMR数据。人类和计算机阅读这种格式更容易,传播结构化学研究结果更简单有效。预计在未来,关于结构解析的文章将需要一并提交NMR谱图,以NMReDATA或其他类似的CASE程序可以读取的格式。这将允许审稿人和期刊编辑使用任一CASE系统自动验证文章作者给出的结构,这将大大减少发表错误结构的概率。任何提交原创文章发表的人都将无法避免这种审查机制,这将迫使化学家将CASE系统应用到他们的日常工作中,反过来,这也将刺激ES程序的进一步发展和改进。

就在最近,《Journal of Organic Chemistry》和《Organic Letters 》鼓励作者提交NMR原始数据,包括自由感应衰减(FID)文件、采集的数据和处理参数一起压缩文件上传,作为“发表文章支持附加信息”。[139]这是非常重要的一步,它有利于验证文章作者给出的结构显著提高出版文章的质量,并给读者、编辑和审稿人提供新的机会来评估它们的真实性。值得注意的是,除了原始谱外,作者还需要提交含有13C 和 1H 化学位移以及2D NMR相关信号归属信息的NMR数据列表,前者原始数据提供了一个反向追溯正确结构的方案 [43]; 后者列表是一组公理证据,用于推导验证已发表的结构式。这个列表是必要的,可以评估所发表的结构与作者所假定的公理证据的对应关系。

这项革新的预期结果将是大大减少发表错误结构的数量,并节省结构修正所需的时间和工作量。还应注意到获取原始NMR数据另一个好处是: 如果论文中描述了新的2D NMR实验的并附加了使用这些新序列采集原始NMR谱图,那么NMR专家将有可能重现实验,并使用CASE程序评估其优缺点用于结构解析,成功的新技术将得到迅速的重视和使用。此外,如果将新实验原始波谱谱图输入到CASE程序,可以更好地描述这些新实验的能力,让更多的人了解新技术。

就在最近,NP-MRD项目(天然产物磁共振数据库项目)启动了。它将成为一个开放访问、支持Web页面、符合FAIR原则的数据库,数据库包含所有已知天然产物的NMR波谱和结构数据。该数据库接受天然产物的原始数据(时域数据、处理过的波谱、化学位移归属、J-耦合、RDCs等)和元数据(结构、来源、方法、分类、地理空间数据等)。数据库的目的是提供一个存储归属信息(化学位移和耦合常数)的平台,为结构解析和验证软件提供信息。我们希望这个数据库能够为CASE系统提供波谱结构信息(适当的片段、化学位移、耦合常数等)。它将用于13C谱检索未知物结构片段,还将用于创建特定天然产物常见片段用户数据库。

排重是与结构解析相关的一个步骤,通常在结构解析之前(有时在之后)进行。排重在文献中被定义为基于先前报道的分析和波谱信息的已知化合物的结构鉴定。根据任何可用的信息,检查化合物是否是新结构还是以前报告过的结构,以避免重复劳动。在一系列文章和评论中讨论了一些当前用于结构排重的方法。[141-143]数据库包括像PubChem开放数据库,[100]包含约9900万种化合物,ChemSpider(8100万种化合物),[144]等等,都可以用于检索。Hubert及其同事也描述了使用LSD ES[8]进行排重和结构解析的例子。

与结构排重和结构解析密切相关的一个步骤是结构验证。这通常被认为是一种独立的方法[146],但最近开始将它合并到CASE程序中。无偏差验证(UBV)方法,该方法是常规结构验证的下一步。常规的结构验证工作流程是尝试对所观察到的NMR信号归属到所建议结构上并评估归属质量。而UBV将使用1D和2D NMR谱作为CASE系统的数据来源,如果生成的最佳结构与建议的结构相同,则验证了后者。成熟的CASE系统也存在类似的思路,比如可以在MCD中定义已验证确认结构的片段,以加速生成结构。

我们期望将来所有的CASE ES程序都遵循这个逻辑结构,并且三个过程—结构解析、排重和验证—都将被合并到同一个程序中,形成一个用于结构分析的灵活而通用的工具系统。


     
与CASE相结合的非波谱结构鉴定方法

2010年代出现了三种新的小分子结构鉴定的非波谱实验方法。

第一种是扫描原子力显微镜(AFM),早先被用于生成生物大分子和生物聚合物的图像。Gross及其同事[147]已经证明这种方法可以应用于小分子。在核磁共振、质谱和x射线衍射谱图分析结果不能明确确定未知化合物结构的情况下,作者建议使用扫描原子力显微镜,它可以获得吸附在晶体表面的小分子的平面图像。作者使用了天然产物cephalandole(5)为例,这个化合物的结构先前解析归属错误后来才被纠正,显示AFM与CASE潜在的相互促进作用。

值得注意的是人工解析似乎不能从1D和2D NMR数据解析这个结构,而ACD/SE可以正确地解析出这个化合物的正确结构.[53] 因此,NMR谱图所包含的信息量取决于波谱谱图数据本身以及从中获取结构信息所使用的辅助手段(无论是人工或使用CASE)。

Gross及其同事已经证明了利用原子显微镜对有机分子进行直接成像有助于精确确定其化学结构。Hanssen及其同事首次将该技术的应用了实际工作中,[148]他们从Thuiaria breitfussi中分离出一种新的天然产物,breitfussin(6)。由于分离到的化合物量有限,不能用于结晶,确定结构的工作使用了AFM、CASE (ACD/SE)和DFT计算的工具组合。AFM将分子可视化,并与ACD/SE给出的结构进行对比,可以确定环体系和取代基的所有连接点(见图5)。

图5.左图为分子图像,右图为与CASE提示的结构叠加图。白色圈出区域是图像假信号[148]


当所有常见的方法都被证明是有问题时不能采用时,我们有理由期待[148]将这种新开发的结构解析思路应用在这种困难的情况下。应当注意的是,此方法仅适用于平面或近平面分子,这限制了其应用范围。

第二种方法涉及已有技术的另外一种使用方式。由波谱数据解析结构是一个反相逻辑过程,通常会发现存在一组符合2D NMR相关信号的结构。最终的正确结构的确认可以通过x射线衍射分析来完成。x射线衍射是基于重原子的异常散射效应来确定绝对构型。[149]然而,即使物质可以结晶,但是在培养高质量的单晶的过程中也经常会出现问题。为了规避这一问题,Inokuma及其同事[149]提出了一种新的x射线分析方案,即晶体海绵法,这种方法无需制备单晶。少量微克-纳克范围的稀释样品被网状多孔金属复合物吸收,形成“晶体海绵”。将海绵放入衍射仪中,进行x射线分析。该方法的有效性已经在一系列的文献中得到了证实。[150-153]例如,晶体海绵法成功地发现了一个6-5-5-5并环系统的结构(7),这种结构的NMR信号很宽,仅使用NMR数据很难解析结构。[151]Wada及其同事[152]在一种天然产物粗提物中获得了六种倍半萜的分子并成功解析出它们的立体结构。

晶体海绵法是一种非常有吸引力的方法,因为它可以使用x射线实验从少量的样品中获得分子结构、3D模型以及相对和绝对构型。该方法似乎具有很高的潜力,我们期待它在未来得到越来越多的应用。

与此同时,传统的x射线衍射分析也得到了广泛的应用,越来越多地用于结构和构型的确定。x射线衍射设备的巨大进步使采集x衍射数据成为常规实验,常规实验要求单晶直径约10μm。但并不是所有的物质都能结晶,尝试结晶都需要时间。如果一个物质不能结晶,那么CASE将是一个有吸引力的结构解析替代方案。为了节省时间,在开始尝试结晶的同时使用CASE工具是明智的。如果有希望进行x射线衍射分析,那么它的结果将被用来验证和补充CASE方案。在任何情况下,研究人员都可以由CASE知道部分结构信息,这也是足够的有意义的,研究人员不应当在不知道结构信息的情况下单纯等待x射线的结果,因为这个等待可能是长达数月之久。

在一篇评论中,[129]Nicolaou和Snyder评论道:“尽管x射线晶体学传统上意义上被认为是一种可靠的技术,但它偶尔也会导致归属错误,因为它不能揭示氢原子的位置(在任何晶体结构中显示的氢原子总是后来在结构中添加上的)。”因此,有时很难区分O原子和NH基团。x射线晶体学也可以混淆某些没有氢原子官能团中原子身份。”因此,x射线分析和CASE分析可以相互补充: 在某些情况下,ES可以用来补充确认单晶衍射方法获得的结构中的某些原子。

第三种新的非波谱方法是冷冻电子显微镜(cryo-EM)[155], J. Dubochet, J. Frank和R. Henderson因此获得了2017年的诺贝尔化学奖。它是最近才开始用于小分子结构解析。冷冻电子显微镜中的电子晶体学是在20世纪70年代中期发展起来的,用于解决蛋白质的结构。2013年,一种新的冷冻电镜方法被开发出来,称之为微晶电子衍射 (micro- crystal Electron Diffraction,简称micro-ED),本质上是微观晶体的3D电子晶体学[155]。这种方法使用3D晶体,比通常用于x射线衍射晶体学的晶体要小10亿倍。

   使用微晶电子衍射方法作为一个有机小分子常规和明确的结构确认方案已被报道。155,156从简单的粉末,少量样品中,作者可以收集到高质量的Micro-ED纳米晶体(~100nm,~10−15g)在30分钟内得到原子分辨率(<1Å)的晶体结构。测量仪器使用的商业上的冷冻电子显微镜,该显微镜已经在世界各地的大学广泛使用。Micro-ED数据的处理使用的是广泛使用的x射线晶体学软件,而不需要专门的软件进行结构分析和细化。例如,图6显示了孕激素黄体酮的结构及其在1-Å分辨率下确定的原子结构。


图6.黄体酮的结构及在1-Å分辨率下确定的原子结构[155]


Jones及其同事[155]预计Micro-ED将受到学术界和工业界许多小分子化学家的热情欢迎。实际上,Micro-ED仅需要较小的样品制备量,普通的结晶过程就可以提供快速、高分辨率的复杂小分子原子结构,具有显著影响合成化学、天然产物化学、药物研发和许多其他领域的潜力。Jones等人[155]认为,该方法将作为化学家常规分析的技术手段。尽管到目前为止,证明其用于鉴定小分子结构的例子数量并不多,但我们相信这种方法将与CASE算法相结合,作为选择正确结构的补充技术。

尽管上述非波谱方法在结构鉴定方面有诸多优点,但我们预计,在可预见的未来,NMR波谱谱图和“传统”CASE系统仍将是结构解析研究的基本工具。原因之一是这些非波谱方法不能提供关于分子的电子结构及结构特征。但显然,到最后所有方法都会得到发展,相互补充相互促进。


     
机器学习和人工智能

机器学习被广泛用于解决化学和化学信息学中的各种问题。当所谓的深度学习算法出现后,情况发生了显著变化。2015年,LeCun和他的同事在一篇畅销书的文章中讨论了这种深度学习算法的主要特点(约6000次引用,约50000次阅读)。深度学习允许多层次处理计算机模型同时学习多个抽象层的数据。这种算法极大地提高了语音识别、视觉物体识别、药物研发和基因组学的地位。深度学习使用误差反向传播算法发现大数据集中复杂关系,指示机器如何从前一层的计算结果优化改变其内部算法参数,用于每一层的计算。深度学习算法AlphaZero象棋程序令人印象深刻。这个程序像之前的国际象棋程序一样一开始只知道国际象棋的基本规则,并没有录入人类行为策略。但在短短几个小时内,它与自己对弈的次数比人类国际象棋历史上记录的还要多。它自学了最好的下棋策略,现在是世界上最强的象棋程序。预计[85] 将深度学习与复杂推理相结合,人工智能将会有更大的进展。

这个强大的方法肯定会被用来增强CASE系统,而且它可能会成为CASE策略中新的典范。Klukowski及其同事最近发表了第一份将深度学习应用于NMR波谱的研究报告[158]。他们提出了一种新方法,NMRNet,应用于蛋白质NMR谱峰的标峰,结果显示新方法具有高精度的能力。

NMRNet模型使用14种蛋白质的多种类型波谱进行训练和测试,这些蛋白质波谱谱图涵盖了真实信号峰和杂信号峰的几种形状。研究人员一共选择了71个2D NMR谱,包括通过化学键相关和通过空间相关实验谱图,采用卷积神经网络算法对所有多维NMR谱图进行可视化分析。作者总结说,深度学习算法提供了一个机会,可以比人工以更快的速度解决标峰和积分问题,并与人工处理的结果准确率相当,因此成为NMR信号自动识别的理想工具。由于标峰的准确性和精度显著影响用于生成MCD图的数据质量,我们希望使用这些深度学习算法实现这一过程的自动化,提高CASE系统的稳健性。

1985年,Serov及其同事[159]试图创建一种专业的自然的程序语言用于CASE系统,提供软件用户友好的人机对话能力。我们相信,自然语言将用于在未来的CASE系统中来提供简单友好人机沟通能力,这将使CASE系统的应用体验更加舒适。我们相信CASE系统未来将有一个引导程序, 软件系统能评估问题的复杂性, 提出最有效的解决策略, 针对结构解析的每一步骤给出建议和措施, 评估结构解析方案的有效性和最佳结构可能性,另外能在CASE程序解析失败的情况下建议增加额外实验和计算, 等等。考虑到深度学习在语音识别方面到目前为止所取得的进展,我们可以想象有朝一日波谱学家将通过语音与CASE系统进行交流。


     
CASE作为化学教学的一种手段

在CASE出现之前,从波谱数据中解析结构是一个纯粹的直觉过程,就像黑魔法一样。它在很大程度上依赖于人类专家的知识、技能和经验。如今CASE已成为一种既定方法,它的基本原理也已经确立。[26, 46]我们正处于这样一个阶段,CASE系统可以作为一种极好的手段,向本科生和研究生,学术和工业界化学家教授现代结构解析策略,现已有CASE系统的使用说明[26,46]和教程[160-162]。我们相信CASE将被纳入大学课程,以便新一代的化学家尽早接触并使用计算机结构解析方法。


     
结论

50多年的时间,CASE已经从第一个简单的ES原型发展到现在先进强大的程序,能够解析复杂的有机分子的结构。化合物分子式(从HR-MS中获得)和1D和2D NMR谱图(通常是COSY、HSQC和HMBC)一起作为CASE系统的初始数据,软件易于调整以接受现有或未来的各种其他的NMR实验。因此,CASE可以被认为是NMR波谱学的一个组成部分。

CASE系统在不断发展中,乐于接纳各种技术信息,这些信息不仅仅是来源于NMR波谱,还可以来自于其他化学和波谱学领域。打个比方来说,ES就像一块海绵,扎进了知识的海洋。

CASE、新的NMR实验和不断改进的计算化学算法之间存在着协同作用。随着更先进的实验和理论技术的出现,它们将被纳入CASE ESs和工作流程中。

我们预计,经过验证的、功能强大的新型相关实验(如LR-HSQMBC和HSQMBC-TOCSY)将与分辨率增强技术(如纯移位实验)一起应用在CASE系统中。同时,CASE系统将非常有助于确定新的2D NMR实验的信息传递能力,将已有实验和新实验的有效组合用于结构解析。

化学位移的DFT预测和DP4概率计算主要用于从CASE程序生成的候选结构的小集中进行结构验证。当仅使用化学位移信息不足以确定最可能的结构时,将使用耦合常数信息来辅助确定结构。将实验化学位移、nJHHnJCH,  nJCC 实测值与基于DFT算法预测值进行比较,可以更可靠地识别正确的结构。不必惊讶可以看到各种技术的组合,CASE系统与DFT和DP4算法组合,甚至与ECD和振动圆二色谱(VCD)预测工具组合,以及各种经验方法组合。因此,CASE系统将来不仅能够确定未知的结构,而且能够确定其相对和绝对构型。

我们还可以看到新的技术与传统的CASE系统一起应用到结构解析领域。RDC和RCSA分析以及AFM、冷冻电镜和海绵晶体x射线衍射分析可能会成为结构解析的常规的工作流程。同时,我们期望现阶段相对独立的三个工作流程(验证、排重和解析)逐渐融合。

建立提交期刊论文新标准,提交真实NMR数据(CASE系统可读),将增加化学家对CASE的信心,减少发表错误结构的可能,降低他们的修改或撤销论文概率。

深度学习作为一种基于神经网络的计算科学新方法,必将被用于增强CASE系统,并可能为CASE策略新的典范。

我们相信CASE将被纳入大学课程,以便新一代的化学家尽早接触并使用计算机结构解析方法。

CASE系统现在已经相对成熟。我们预计它将被广泛使用,成为学术和工业实验室的NMR波谱学家和分析人员的常规工具。CASE的“黄金时代”仍在未来。





END



参考文献及需要查看原文,请点击下方"阅读原文"







  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved