展望分析数据标准化——第四范式

2023-04-06 14:24:24, ACD/Labs Advanced Chemistry Development, Inc. (ACD/Labs)






Looking Beyond Analytical Data Standardization

—the Fourth Paradigm

展望分析数据标准化

——第四范式 

作者:Andrew A. Anderson, Graham A. McGibbon, Andrey Paramonov, and Sanjivanjit K. Bhal



内容提要


无论哪个行业,化学研发活动每天都会持续产生大量的仪器分析数据。每日的监管提交和关键的研发、生产决策都基于分析数据。如果数据是孤立的并且没有标准的可访问格式时,那么为支持决策或解决问题而访问和重新利用数据就很难,甚至是不可能。一个组织必须有办法对分析数据进行标准化、同质化和数字化,以改进数据访问,同时保持数据完整性,并促进科学业务创新。然而,在推动标准化的过程中,我们推定(postulate[YZ1] )将此过程与化学背景联系起来的重要性,因为分析实验的目的多种多样,并支持许多化学工作流程。


同质化的、集合的、数字化的分析数据可以被纳入外部组织之间有意义的数据交换和组织内部的数据共享流中。这种组织和数据转换对于有效构建“数据-信息-知识”的脉络是必要的,此脉络使管理人员能够做出战略和战术决策、最大化其利益,并限制风险。本文对分析数据标准化的工作进行了评论,并对这种工作应包括的更广泛的考虑和要求进行了展望。




简介:数据到信息到知识


公元1600年前后,约翰尼斯·开普勒(Johannes Kepler)发表了对经验科学数据的新解释,提出了对宇宙运作方式的新见解。在2009年的开创性文章《第四范式——数据密集型科学发现》(灵感来自2007年Jim Gray关于eScience的论文)的前言中,来自微软研究院的Gordon Bell传达了以下内容:

“是第谷·布拉赫(Tycho Brahe)的助手约翰尼斯·开普勒利用布拉赫的系统天文观测,发现了行星运动的规律。这建立了对捕获和存档的实验数据的挖掘和分析与理论的创造之间的分工。”



在Jim Gray颇具影响力的论文“eScience: A Transformed Scientific Method”中,他将数据探索描述为第四范式:


“一千年前,科学是经验主义的,描述自然现象(第一范式);

最近几百年,理论分支使用了模型和归纳(第二范式);

在过去的几十年里,计算分支提供了复杂现象的模拟(第三范式);

今天,数据探索(或eScience)旨在统一理论、实验和模拟(第四范式):

  •  数据由仪器捕获或由模拟生成;

  • 数据由软件处理;

  • 信息或知识存储在计算机中;

  • 科学家使用数据管理和统计来分析数据库或文件”


因此,在这第四个范式中,数据是信息的脉络,而信息提供的知识使管理人员能够做出基于数据的战略性和战术性决策,以采取行动实现利益最大化并限制风险。组织之间的数据交换和组织内部的数据共享对于有效传达这种“数据-信息-知识”的脉络是必要的。然而,这种方式需要处理具有压倒性的数量、速度、多样性和可变性的数据洪流。这一点在讨论①各种仪器生成的②来自不同的技术的③回答任何数量的不同问题并解决整个化学研发过程中的各种情况的分析数据时更是如此。



数据来源:

异质性和分析化学数据


在数据工作流中,无论是大数据,还是分析生成各种不太大的数据,有两个因素极大地促进了数据洪流。第一个是特定仪器上特定高通量分析的自动化和/或并行化。第二个是所谓的“物联网(IoT)”的实施具有挑战性,因为基于计算机的数据源种类繁多,其组成部分、性能属性和分析数据格式的输出也多种多样。所有这些都进一步突出了仪器分析数据的自动、即时数字化以及将此数据类型与化学数据表示相集成所带来的好处。它不仅为决策制定、组织内外共享或监管提交创建了一个可靠的、没有人为错误的、全面的知识体系;而且还使实验室“面向未来”,并根据需要将这些知识贡献给组织的整体(或大或小的)分析。


在过去逐渐减少的纸笔记录与期望的由星际迷航启发的未来三录仪之间,隐藏着大量的专有数据结构。这对于数据源或仪器硬件创新以及Byte级到PB级分析数据的高效采集和存储是必要的。因此,仪器分析化学格式的持续异质性是技术进步的自然标志。当然,拥有许多不同的数据格式会产生对标准化的渴望。然而,构建所谓的理想标准背后有不同的动机(免费或收费;编码与可读;开源或闭源)。


有两种处理异质性的方法。第一种,受到许多数据科学家的青睐是强制采用一种单一的、无所不包的格式。第二种,则是能够在格式之间交换数据和信息。两者兼顾也是一种可能。至于“开放vs封闭”、“免费vs专有”的各自优点,则超出了本文的范围,但额外的对话肯定是需要的。有效的标准化并不简单地等同于拥有人类可解析的数据——纯粹开放的通用格式,如ASCII文本或XML就是例证。为单一的同类数据类型建立标准相当简单。例如,人类可听的音频数据格式在2000年代初期得到整合和标准化,但是视频流则被以不同的方式进行标准化。鉴于分析数据类型、大小和内容的多样性,创建单一标准一直是一项持续的挑战。


应该指出的是,虽然人类仍然需要以某种形式访问数据,但拥有对数字操作有效的格式变得越来越重要。数字化的长期好处包括:

  • 在从实验计划、数据采集和分析到结果交付的多步骤过程中,尽量减少人工干预;

  • 能够将分析数据集合成支持化学决策的项目,如分析、发现、确认、验证、识别和控制;

  • 通过有效的数据访问为未来的项目提供支持;

  • 将分析化学纳入现代化学企业不断增长的数据流中,以便于访问、搜索和决策;同时也用于整个企业的商业分析。




范式先决条件:

分析数据标准化和数字化


对于立足于化学的组织的日常运营,数字化分析化学可以实现更广泛的访问、更全面的分析和集合。这将有利于实验室中的每个科学家(远程或本地)和组织中的其他决策者。分析数据通常用于定性(我的样品中有什么?)和定量(我的样品中,每种分析物有多少?)调查。根据样品组成和感兴趣的分析物的物理特性或性质,可以使用多种技术来收集分析数据。其中最常见的是分离、小分子色谱(LC、GC、SFC)和生物分子电泳(PAGE)、质谱和光谱(NMR、UV、IR、CD、Raman)。通常,每个供应商都会为数据采集和数据处理创建自己的专有格式。


图 1. 值得注意的分析数据标准化工作。这张图片不打算作为一个详尽的总结,其中一些工作会在本文件中进一步介绍。

* 1992年更新的色谱数据,1994年更新的质谱数据;** 处于Beta阶段;


最早的分析文件格式标准化工作之一是银河公司(Galactic Company)于1986年开始为各种光谱数据(SPC)制定了二进制格式。同样在1980年代,为了实验室分析数据交换协议和信息管理,ASTM E01.25小组委员会正在努力制定ANDI数据标准(NetCDF)。大约在1995年,原子和分子物理数据格式联合委员会(JCAMP-DX)是在国际纯粹与应用化学联合会(IUPAC)的参与下成立的。2003年,IUPAC正在寻找数据格式的标记语言。毫不意外地,同年ASTME小组委员会在一系列利益相关者的参与下率先发起一项倡议,为分析数据制定一个新的基于XML的标准(AnIML)。在它出现的过程中,质谱学界和其他人也在积极尝试创建其他可交换的分析数据格式(mzXML、mzData),最终发展成为事实上的标准mzML。最近,制药行业的一部分        组织成立了Allotrope基金会,旨在建立分析数据分类法(ADT),并创建自己的同素异形体数据格式(ADF),与第三方软件公司签约构建支持软件框架。像以前的其他人一样,正在考虑以前的经验,但使得ADT看上去像是这项工作中较新的、有趣的部分。


专有格式标准化方面,自1998年以来,ACD/Labs一直在他们自己的专有格式中积极积累分析仪器供应商格式的导入能力。当前的*.spectrus格式涵盖了实验室使用的大多数光谱和色谱格式;以及最流行的开放格式(ASCII、JCAMP);以及不断发展的标准,例如同素异形体数据框架(ADF)。主要仪器供应商(例如Agilent、Bruker、LECO、PerkinElmer、Sciex、Shimadzu、Thermo、Waters等)保持其数据格式封闭,但提供软件开发工具包(SDK)供第三方访问数据,并支持以上述某些标准格式导出。


一些取代旧数据标准(例如AIA/netCDF格式)的举措旨在从多种类型的数据集合中获取价值。有些可以归因于大数据科学的梦想,而另一些则归因于分析设备的复杂性和创新性,尤其是质谱。与其他检测器相比,质谱(MS)通常生成最复杂和最大的数据集。作为一个额外的复杂因素,实验通常同时包括那些额外的数据维度或类型,例如离子迁移率或成像MS。MS硬件技术发展迅速,实验和工作流程种类繁多。MS特定标准格式的一些示例包括:SPC/系统生物学研究所的.mzXML:用于“组学”研究的早期XML格式;HUPO-PSI .mzML:由ProteoWizard实施支持(可能是目前最先进的免费MS软件;它被认为是MS数据的单一统一XML格式,而不是其他几种格式,包括上面提到的 .mzXML);和.mz5—基于.HDF5的.mzML思想的更有效实现(但实际上并未广泛使用)。


由于通过质谱法鉴定化合物是最常见的定性分析之一,因此人们越来越认识到化学结构信息与MS数据相结合很重要,但确定的结构解析不可避免地也依赖于其他数据(NMR、IR、拉曼等)。对于其他工作流程,分析化学测量的不同组合是必要的,以支持分子表征的研究过程的最终目标。重要的是要注意,真正的好处来自于将不同分析数据放在同质环境中的能力,通常与给定项目的化学内容相配,以有效地交付结果。事实是,几十年来,同质环境一直是一张物理办公桌,或者最近得Microsoft Office产品(Microsoft Word或Excel)。这不仅是一个手动过程,而且限制了仪器分析测量中可用信息的深度和数量。然而,数字化工作正在进行中,商业产品可用于提供电子多技术、多供应商数据集合,而无需对数据还原或抽象。




第四范式——数字装配的必要性



数字化学结构表示

在讨论数字化分析数据的优势时,讨论化学结构的数字化表示也很重要。大多数分析实验的运行是为了帮助科学家识别和/或表征离散的化学实体、混合物和配方。将光谱/色谱峰与结构关联起来的能力是化学决策的本质。启用这种关联,让我们离知识保留更近了一步,而不是出于监管目的的简单数据存储。


可以在维基百科上找到化学结构数字化表示的起点,其中指出:


“在数字数据库中表示化学结构有两种主要技术:

a. 作为连接表/邻接矩阵/列表,带有关于键(边)和原子属性(节点)的附加信息,例如:MDL Molfile、PDB、CML;

b. 作为基于深度优先或广度优先遍历的线性字符串表示法,如:SMILES/SMARTS、SLN、WLN、InChI;

 

这些方法已经过改进,可以表示立体化学差异和电荷以及特殊类型的键,如在有机金属化合物中看到的键。”


Molfile现在是Dessault Systemes下Biovia的财产,有不同的版本,但Molfile通常被认为是数字化表示“小分子”的事实标准。SDfile只是一系列Molfile记录,广泛用于交换化学信息。但是,因为SDfile缺乏随机访问,故它不能用作高级应用程序的基础格式,即使是数据库搜索。


生物分子表示的主要挑战之一是某些类型之间的规范关系,即DNA、RNA以及蛋白质和肽的氨基酸序列。最流行的“大分子”(DNA、RNA、蛋白质和肽的氨基酸序列等)格式是:FASTA、PDB和大分子分层编辑语言(HELM)——这是一种大分子表示格式,属于化学结构/大分子领域,绝对不是一种全面(all-embracing)的数据格式。


广泛使用化学结构的公司和供应商通常也会使用自己的存储格式。例如,在仪器分析化学的背景下,ACD/Labs Spectrus平台在分析数据解读中整合并链接了化学表示。这些集合数据可能存储在Oracle或PostgreSQL数据库或专有的Spectrus *.cfd文件中。


具有各种利益相关者的不同团体推动了数字化化学表示的不同标准。这些常见格式中的大多数都相当成熟。InChI格式是最新的并且可能是最近发展起来的格式。




集合的分析和化学数据



来自多个来源的分析数据、化学结构及其解释的“集合”,如前所述,便是所谓的第四范式。对于大量的科学实验,有多种数据类型有助于对材料、处置和行为的理解。


某些分析信息的相互关联性尤为重要。对于许多材料/物质,通过色谱-质谱联用进行的成分分析可能由一个数据文件捕获。然而,更全面的表征通常需要:

  • 来自使用不同仪器的多种技术展开的实验的数据,这些技术以不同的格式生成数据。

  • 可能由科学家所在组织内部或外部的人员在不同时间、不同实验室收集和解释的数据。


二十多年来,ACD/Labs创建了支持数字分子表征的软件平台和组件。标准化、使用和交换专有格式(通常包括自动化)已成为有意义地“集合”化学数据的基石。Allotrope Foundation的成员是分析数据标准化领域的最新成员,他们认为此类软件(包括他们的同名框架)的好处包括,“……通过使数据更容易被查找、可视化和从中提取知识,从而在其全生命周期促进监管的合规性”。


为了支持相互关联性,第四范式中的系统不仅必须能够充分索引单个分析数据文件,而且还必须提供“分析集合”功能,为用户提供相关分析的综合“故事”。


以配方分析为例。如欲呈现对产品配方的全面评估,必须“集合”以下“相关数据”:

  • LC-UV/MS(和其他检测器类型);

  • GC-FID/MS(和其他检测器类型);

  • 化学、生物、配方示意图;

  • 工艺相关杂质/降解物的化学结构;

  • 分离的配方成分的一维和二维数据,并参考分离信息(例如,保留时间);

  • XRPD、DSC、TGA、粒度分布和各种其他材料表征数据集。


最后,在第四范式中也需要能够对科学家的解读进行明确的数字化表示——特别是超越字母、数字描述。在上面的产品配方示例中,解读的数字化表示将是:

  • 在数据架构内,化学结构直接被“分配”给光谱和色谱组分;

  • 实验元数据与集合化的分析数据架构的关联。




第四范式的实现



实现第四范式的软件平台可以随时对分析数据、化学结构信息和其它元数据进行数字存储和操作。最新的体现即为ACD/Labs的光谱平台。数据管理平台包括:

  • 能够读取130多种主要供应商专有格式(通过SDK和过去20年开发的传统合作伙伴关系)和开放格式的分析数据的组件,用于色谱、光谱和各种其他XY类型数据。

  • 将仪器分析数据与化学和实验室背景相结合以供决策和进一步重复使用的能力。

 

根据第四范式概念,分析化学标准格式的进一步发展将使理论科学、实验和模拟之间更加统一。这一进展将为立足于化学的组织带来深远的好处,以实现科学业务创新更有效的商业。我们早已超越了公元1600年,跨过了世纪之交的技术进步,进入了IBM Watson和认知学习/增强智能的时代。解决数据统一和有效集合的问题是技术进步的核心先决条件。


【END】



  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved