2023-06-06 16:13:15, ACD/Labs Advanced Chemistry Development, Inc. (ACD/Labs)
前言概述
Introduction
数据数字化和数据管理项目的目标是利用组织化的知识更快地进行创新和商业化。然而,科学数据的种类和数量使得它具有挑战性。每种数据类型都会产生自己的困难,分析数据也不例外。我们召集了三位专家在网络研讨会上讨论关键痛点和他们在创建全球分析性知识管理解决方案方面的经验。以下是他们谈话的要点。
Graham A. McGibbon
Director, Strategic Partnerships, ACD/Labs
Mark Kwasnik
Global Product Manager, Analytical Labs, Solvay
Nichola Davies
Director, Structural Chemistry, Oncology R&D, AstraZeneca
您是如何参与到分析数据管理中来的?
Nichola: 我代表阿斯利康极早期研究职能部门——药物化学小组,他们正在产生数以千计的样本来测试和选择候选药物。我们希望有一个集中的、基于云的解决方案,使组织内的所有职能部门都能访问分析数据,这就是我参与全球分析数据库项目的原因。
Mark: 我作为一名实验室经理开始了这一数字之旅,管理一个团队,处理色谱和质谱,其目的纯粹是自私的:使我自己的工作更容易,提高我的团队的效率。一旦开始这件事以后,我发现我们可以用数据做的事情还有很多。
Graham: 我已经参与了我们客户的许多分析数据管理项目。我们看到他们所面临的挑战和解决这些挑战的方法有很多共同点。ACD/Labs团队的经验意味着我们可以提供一个明智的观点来帮助组织领导者实现他们的数据管理目标。
分析数据——一个企业资产
Nichola: 我们需要有一个真正的过渡,从将数据看作是一个单一用途、一次消费后就废弃不再可用了的信息的想法转变出来。数据本身可以是一种无比宝贵的资源。现在,随着人工智能和机器学习有可能从这些数据中获得进一步的新洞见,用这种思维方式来思考真的很重要。思考一个数据管理策略可以帮助你实现这些好处。
Graham: 多年前,数据的使用是由人类来完成的,但现在对数据被机器使用以及人类和机器的互动的需求越来越大。过去十年的范式转变是,越来越多的组织将数据视为具有价值的资产。不仅仅是在解决眼前的科学问题,而且数据可以为组织带来经济效益。
在今天的研发机构中,人们彼此之间正试图围绕数据进行互动。这种变化正在发生,它取决于数据的生命周期,包括获取原始数据并将其转换为信息,然后能够以产生价值的方式使用这些信息。人们越来越意识到需要对数据管理技术进行投资,我认为这与对数据具有价值的认识是相辅相成的。尽管大流行病很严重,但我认为它有助于提高数据和数据管理对组织的成功和健康至关重要的认识。
数据可及性挑战
Graham: 目前的技术存在各种形式的数据可访问性的问题,但在整个研发过程中,数据始终以这样或那样的方式被孤立起来。它要么被冻结在一个地方,要么是一个文件格式,要么是一些图像格式。我确信有一些数据仍然没有被数字化。它存在于可能不是电子化的笔记本中,或没有完全数字化的仪器记录中。
“在一个实验室或一个站点内寻找数据比在整个组织内寻找数据要容易。当你找不到数据时,数据是不存在的。”—— Mark Kwasnik
Nichola: 我可以很容易地找到我自己的数据,但如果我想能够搜索数据池以寻找趋势,或获得洞察力,甚至访问来自公司其他职能部门或地域的数据,这真是一个挑战。我们使用了大量的CRO,访问他们产生的数据就更加困难了。
Mark: 我同意,在一个实验室或一个站点内寻找数据比在整个组织内寻找数据要容易。对科学家来说,重新准备和重新运行一个样品比在四十台电脑中搜索和寻找现有的数据更容易。索尔维是一个全球性的组织,在世界各地都有站点。即使你的特定站点的数据是结构化的,易于使用,但这并不意味着你可以跨越大陆的鸿沟,了解别人的数据或数据结构,即使他们正在运行同样的方法,分析同样的样品。而当你找不到数据时,它就不存在了。
为什么分析数据的异质性一直存在?
Graham: 我们最近进行的一项分析数据管理调查的结果之一是,数据的异质性是一个关键的挑战。科学家们正在使用一种以上的分析技术,也许使用两种或更多的仪器,然后再使用两种以上软件应用进行数据分析,然后试图把这些都结合起来。我们调查的90%的人都在处理不同类型的数据。
遗留文书的现实性
Mark: 在Solvay公司的全球研发中心,我们不仅有大量的技术能够为我们的客户提供服务,而且即使在这些技术中,你也会看到少数不同的仪器。如果你选择一个单一的技术,比如气相色谱,在一个新建的实验室里,你会发现同样的供应商和软件——这很好,而且是同质化。但不是每个实验室都是新的。
现有的实验室有来自不同供应商的遗留设备,甚至有来自同一供应商但不同的软件平台。这不仅使实验室本身的运行更加困难,因为团队必须学习如何维护、运行和操作所有这些不同的气相色谱仪和软件平台(从科学家的角度来看,这很有挑战性);戴上我的数据帽子,当你想来摄取和处理数据时,供应商往往做的事情略有不同。
对我这个科学家来说,色谱图就是色谱图,但对我这个数据员来说,来自七个不同供应商的色谱图就是七个不同的“技术”。说到这里,很难证明在没有新功能的情况下,仅仅为了标准化而对硬件或软件进行大量资本投资是合理的。
“对我这个科学家来说,色谱图就是色谱图,但对我这个数据员来说,来自七个不同供应商的色谱图就是七个不同的‘技术’。”—— Mark Kwasnik
Nichola: 我从两方面都看到了这一点——作为一个科学家和一个管理者。你在实验室环境中做出的选择有很多原因。有时是为了熟悉,有时是为了你所拥有的支持平台。维持大型分析设施的运行有很大的开销。
为工作选择最佳工具的科学自由
Nichola: 我们始终需要使用至少两种不同类型的数据来描述和确认我们的结构和纯度,以满足测试要求。我同意尝试合并到更少的供应商平台有一些好处,但随着我们在制药业寻找越来越多的具有挑战性的目标,分子复杂性越来越高,我们希望能够选择最好的仪器来解决我们的分析需求。有时你需要一点异质性。
“我们希望能够选择最好的仪器来解决我们的分析需求。”—— Nichola Davies
Mark: 同意,作为一个纯粹的数据人员,仪器和数据的协调是很好的,但作为一个科学家,我不希望IT部门来决定我可以使用什么设备和技术。我希望有自由和灵活性来选择市场上最好的工具。
合并和收购
Graham: 随着制药业的合并和收购,我们已经看到,当两个大公司合并时,他们各自都已在技术标准化方面做了大量的工作,在管理仪器数据方面需要相当多的额外努力。
Nichola: 是的,当然。我们看到,在大型组织的合并中,每家公司都倾向于有自己的首选解决方案。这对IT管理来说是一个相当大的开销。
有效的分析数据管理路径
Q
哪些数据应该被管理?所有的数据,策划的数据,还是仅仅解读完成的结果?
Nichola: 我更倾向于所有的数据。我们还不知道未来会发生什么,我们将能够如何使用数据。如果我们现在不捕捉它,组织它,用元数据适当地标记它,那么我们就会阻止未来的使用。
Mark: 同意,所有的数据,如果它被正确地标记。从IT的角度来看,所有的数据都是相当大的开销——数据存储和架构是昂贵的;但是产生珍贵的样品,使用危险的材料和准备它们的时间,使用昂贵的高分辨率质谱仪或核磁共振来产生数据,以及分析人员处理它的时间也是如此。这些也有一个与之相关的固定成本。
Graham: 经过整理的数据对于正确的数据科学绝对是必不可少的,参考数据也需要经过适当的整理才能在一个组织中可靠。给数据打上标签,以便能够理解它并访问策划的数据包是必须的。
数据需要上下文以使之可复用
Mark: 即使我有精美的数字化数据,并且可以访问处理过的和原始的数据文件,但如果没有上下文,它对组织中的其他人毫无意义。你需要与之相关的仪器元数据,以及分析测试数据。色谱图很好,但如果我不知道GC,比如说,使用的是5米还是60米的色谱柱,或者在什么温度下,它基本上是没有用的。它只是占用了数字硬盘的空间。
“数据是数字化的,并不意味着你可以再次使用它......没有背景,它对组织中的其他任何人都没有意义。”—— Mark Kwasnik
Graham: 这必须是战略的一部分——确定什么上下文是必要的。例如,有一个围绕元数据的词汇是很好的,但是你需要把正确的利益相关者聚集在一起,以确保该词汇能捕捉到关于样品制备、方法和设备的重要信息。的笔记本中,或没有完全数字化的仪器记录中。
Mark: 上下文要求可能非常不同,这取决于数据将在何处以及如何被使用。生成数据的人与提交样本的内部或外部客户想要的元数据非常不同。每个人的大梦想是人工智能和机器学习,而这些有非常不同的数据需求,以使巨大的数据集具有意义和用途。不同的用户需要与数据绑定的东西略有不同,以便能够利用它。仅仅因为数据是数字化的,并不意味着你可以再次使用它。在你开始建造你的房子之前,你必须先打好基础。
召集正确的利益相关者
Graham: 在与客户的项目开始时,我们会进行 "定义和设计"。我们与各种利益相关者和实例数据坐下来,讨论他们想从其中得到什么。我们发现这些在战略上对组织来说是非常有用的。
Nichola: 在制定分析性数据管理战略之初就让数据科学家参与进来是非常关键的,因为如果你在那个时候没有捕捉到他们的需求,那么以后就很难再建立这种需求了。
获得承诺
Nichola: 我可能低估了我需要为这个项目投入的时间。我还有很多其他的工作要做。如果你要开展这样一个大项目,确保你得到管理层的支持,拿出时间来支持这种类型的活动是至关重要的。全盘的承诺是必不可少的。你必须有来自管理层的自上而下的支持,一个战略,以及实施它的资金,但你需要来自中层管理人员和那些在实验室做腿部工作的人的支持,因为他们已经有很多事情要做,而你现在正给他们加上更多的事情。
Mark: 正是如此,你不能指望已经100%工作的人因为你想要数据标签而投入额外的时间。每个人都需要知道对他们和对组织的好处。
自动化,自动化,还是自动化
Mark: 如果我打算要求科学家填写5~10个元数据字段,以使他们正在采集的数据在未来更好地使用,我会尝试在这个过程中加入自动化,以节省他们在其他方面的时间。也许绕过手工数据输入或消除手工报告创建可以实现这一点。
分析数据——一个企业资产
Mark: 重要的是要记住,即使两个实验室在做同样的工作,它们也可能不是真的一样。两个不同国家的实验室可能有不同的语言,或不同的日期格式,或逗号与句号。在这些小事上进行协调会产生很大的不同。作为部署战略的总负责人,这可能不是你的工作,但你需要让不同实验室的科学家一起找出最适合他们的方法。
结束语
Nichola: 在药物发现和开发过程中,药物产品的最初合成发生在进入开发环境之前的几年。在从发现到开发的过渡过程中,我依旧看到了大量的重复工作。开发部收到化合物后,他们又重新生成所有的分析数据——他们重新开发方法,重新分配核磁共振光谱——这是很糟糕的重复劳动。在研发过程的后期寻找机制来轻松分享我们的学习成果,有助于简化和促进我们的最终目标——更快地为患者提供安全和有效的治疗。
Mark: 有效的分析数据管理使实验室的效率更高。在一个全球组织中,你有多个地点在做同一件事。能够交换信息意味着你不必重新开发方法或重新运行样品。实验室可以更快地产生数据,工厂可以更快地生产,研究和创新可以更快地完成他们的工作。即使一个实验是失败的,不符合今天这个应用的一系列规格,它可能正是你在6~9个月后的不同要求所需要的。不必从头开始,并能够以此为起点加速创新管线。
了解更多
For more details
点击文末“阅读原文”,阅读《分析科学家》发表的文章“解读分析数据管理”以了解更多细节,包括Nichola关于阿斯利康全球分析数据库的简短讨论。
07-04
7月11日~13日 | 慕尼黑上海分析生化展邀请函--诚邀您的到来!07-04
转载:【SEMI 在中国】中国大陆半导体生产线分布图(Sep.2022)07-03
7.11~7.13珂睿与您相约上海慕尼黑分析化学展07-03 珂睿科技
通告:北京公司办公乔迁新址07-03
展会有约|谱新生物邀请您参加第六届先进治疗产品创新峰会07-03
“脱发克星”米诺地尔,你真的了解吗?07-03 技术应用部
杭州站火热报名 | 五年单细胞(空间)实战、160+客户文章经验全收罗,最系统的生信培训班(第5期)来了!07-03 欧易生物
会议回顾 | 儿研所成立65周年学术活动暨儿童健康高质量发展研讨会圆满落幕!07-03 欧易生物
上海美谱达与您相约慕尼黑上海分析生化展07-03 Mapada
乐研携手TRC,国内现货10000+,助力医药研发07-03 乐研
走心“乐研贴”,专供看得懂结构式的你07-03 乐研
上海和晟HS-XNR-400B熔体流动速率测试仪校准证书07-03
烟台新秀化学股份有限公司选购我司HS-TGA-101热重分析仪07-03
吉林师范大学选购我司HS-100C高低温试验箱07-03
绍兴弗迪电池有限公司选购我司差示扫描量热仪07-03
江苏东方九天新能源选购我司差示扫描量热仪07-03
应用案例|ScanARC 物质的爆炸性筛选新方法——辉瑞(Pfizer)07-03 H.E.L Don Lin
虹科新闻 | 释放工业无线的潜力——虹科携手Coretigo为您提供IO-Link无线解决方案07-03 智能自动化团队
虹科案例 | 虹科AR医疗解决方案助力意大利Vercelli医院完成世界首例的远程心脏手术!07-03 虹科AR