深扒质谱数据格式标准化,它的来历可不简单!

2021-03-27 01:16:18, 沃特世 沃特世科技(上海)有限公司



质谱渐入千家万户,在各个科学领域发挥重要作用。

以化合物鉴定为例,目标化合物通过碰撞碎裂“解离”成小的碎片,形成碎片峰,也就是通常说的二级图谱。在大数据时代的今天,我们依托庞大丰富的数据库,通过将实验谱图与已知的化合物图谱库进行比对,进而可以确定未知化合物的结构。

但是江湖中,质谱种类千千万,数据格式纷繁复杂,来自于质谱数据的难题困扰着每位欲要大展身手的“侠客”。亟需一种数据语言,统一规范各个设备的“话术”,让数据协作以及下游数据库共享分析得以更轻松,故此质谱数据标准化非常有意义。


01

变迁:笑傲江湖,以简驭繁

在2003-2005年,两种标准质谱数据格式初露头角。一种是由人类蛋白质组组织(Human Proteome Organization, HUPO)蛋白质组标准倡议(Proteomics Standards Initiative, PSI)开发的mzData格式,主要作为数据交换和归档格式。一种是由系统生物学研究所(Institute for Systems Biology, ISB)开发的mzXML格式,主要是为了简化数据处理软件。

这两种格式都被广泛使用,但是对于本质上相同的信息,使用两种格式会造成不必要的混淆,并增加软件开发复杂性。2006年春季,各个供应商在PSI会议上表达了他们对支持两种格式的不满,最终在PSI的倡议与支持下,2008年,第三种新的数据标准格式应运而生,它就是mzML 1.0.0

图1:mzML诞生史,引用文献 Eric W. Deutsch. Mass Spectrometer Output File Format mzML.


02

mzML:秀外慧中,知根知底

mzML文档包括质谱图以及相关元数据信息,如样品名称、处理软件名称、设备类型等,具体架构如图2所示。

图2.mzML架构,引用文献 Eric W. Deutsch. Mass Spectrometer Output File Format mzML.

其中Spectrum包含了TIC、BPI强度、MS1 (low energy)或MS2(high energy)、扫描时间、每个scan 点m/z以及强度信息。

图3. mzML文件run矩阵示例

可见,mzML作为通用质谱语言,受到了各方的青睐。UNIFI作为沃特世质谱平台化软件,同样也加入了数据标准化队伍中,在软件Analysis Review界面中,点击左上角的File,下拉选择Export,选择mzML格式,片刻即可导出。

图4.UNIFI软件导出mzML、mgf文件方式

当然现在也有很多数据库,需要mgf格式的数据,UNIFI也能一并导出。关于mgf文件架构如图5所示。

图5. UNIFI 导出mgf 文件架构


03

UNIFI:高级玩家,融为一体

沃特世UNIFI科学信息系统平台,具有先进的应用程序接口(API),可与第三方软件无缝对接,助力质谱数据共享协作平台的建立。您也可以使用标准的API接口,与ProteoWizard对接,批量自动导出mzML、mgf格式文件。

图5:UNIFI 与ProteoWizard无缝对接,(a) 选择UNIFI接口 (b) 输入url (c) 输入UNIFI登录名和密码 (d)选择多个UNIFI数据,批量转换


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved