流程发布 | 一站式生物标志物挖掘的在线机器学习工具——OML

2023-07-31 11:59:22, Untangled

背景介绍

BACKGROUND

随着质谱技术的成熟和普及，基于质谱的蛋白质组学、代谢组学等系统生物学分析在预测和诊断疾病、分析发病机理等生物医药研发中发挥重要作用，为个性化医疗提供了显著的支持，其中生物标志物的挖掘是组学研究的热点之一；但随之而来的是数据量的几何级增长，对数据解读提出了更高的要求。目前主流的方法是结合机器学习算法对组学数据进行标志物的筛选。由于机器学习算法种类繁多，原理复杂，对计算机硬件性能要求较高等条件的限制，并不是每个研究者都能合理使用算法对自己数据进行分析和评估。

为了让研究人员便捷地利用机器学习算法挖掘数据中潜在的生物标志物，氨探生物开发了在线的机器学习工具Omics Machine Learning（OML，https://omia.untangledbio.com/oml/）。只需要上传数据，设置少数几个相关的参数后，OML便可以自行进行机器学习分析并给出严谨且丰富美观的模型图表结果，这些图表结果能满足大多数期刊杂志的投稿要求，可在文章直接使用。

图注：OML网站首页展示

OML纳入的是机器学习算法中的有监督学习算法，包含8种常用的回归算法（如线性回归、岭回归、套索回归、弹性网络回归、贝叶斯岭回归、支持向量机、k 最近邻、随机森林）和10种常用分类算法（逻辑回归、支持向量机、高斯朴素贝叶斯、K-最近邻、随机森林、AdaBoost、GradientBoosting、Xgboost、LightGBM、CatBoost），可以满足临床医学中的大部分课题研究。

OML将算法挖掘标志物的过程分为7个模块，模块在OML的左边栏显示，每个模块使用方法均在OML首页有详细介绍。

图注：OML实现标志物筛选的7个模型和使用先后顺序的流程图

模块1

允许用户上传数据，可以是后缀为xlsx、xls、csv、txt的文件。当然，为了用户快速熟悉OML，OML自带分类和回归的示例数据，示例数据均来源文献中。

模块2

设置机器学习算法中的因变量和自变量。自变量通常是组学分子，因变量可以是疾病分组，临床某个指标等等。

模块3

对数据进行归一化，OML提供多种候选归一化方法。

模块4

组学分子的特征初筛，对分类和回归均采用2种算法来评估用户上传数据中所有特征的重要性，帮助用户可以快速找到最重要的Top特征。

图注：模块4重现文献Alzheimer蛋白组数据的特征筛选

模块5

允许用户自定义输入关键的组学分子，可以是模块4的Top分子，可以是差异分子，也可以是用户感兴趣的目标分子。

模块6

实现训练集和测试集的分割，兼顾交叉验证和百分比分割的功能，用户可以根据上传数据量样本数目的多少决定使用其中一个。OML推荐小样本使用交叉验证，大样本使用百分比分割。

模块7

实现算法建模。OML列出所有算法需要调试的最重要参数集并给出使用说明，允许用户自行调整参数。当用户选择一个算法并设置好参数后可点击“Submit”， OML将自动建模，建模完成后会展示多种模型评估指标和相关图表。OML鼓励用户尝试多个算法对上传数据进行测试，并选择最好的算法模型。

图注：分类模型的ROC曲线和PRC曲线

图注：分类模型的混淆矩阵

图注： SHAP评估模型特征重要性

图注： OML重现文献数据孕周预测模型

经测试，OML可以重现文献的数据模型结果，运行稳定可靠。用户不需要任何编程基础，只需了解机器学习中少量术语便可轻松使用OML。OML揭开机器学习建模的黑盒子，让用户能真正参与到模型构建，可以成为数据建模的有效工具。

欢迎大家使用我们的工具，如果您在使用过程中遇到任何问题，可以随时和我们联系：info@untangledbio.com。

参考文献

1. Proteomic biomarker discovery in 1000 human plasma samples with mass spectrometry. J Proteome Res. 2016 Feb 5;15(2):389-99.

2. Biomarker discovery in mass spectrometry-based urinary proteomics. Proteomics Clin Appl. 2016 Apr;10(4):358-70.

3. Application of machine learning to proteomics data: classification and biomarker identification in postgenomics biology. OMICS. 2013 Dec;17(12):595-610.

4. Statistical interpretation of machine learning-based feature importance scores for biomarker discovery. Bioinformatics. 2012 Jul 1;28(13):1766-74.

5. Proteome profiling in cerebrospinal fluid reveals novel biomarkers of Alzheimer''s disease. Mol Syst Biol. 2020 Jun;16(6): e9356.

6. Transparent exploration of machine learning for biomarker discovery from proteomics and omics data. J Proteome Res. 2023 Feb 3;22(2):359-367.

7. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLoS One. 2015 Mar 4;10(3): e0118432.

Untangled Biosciences

解构健康奥秘、探寻生命答案，氨探生物以一流的分子表型组平台和成熟的临床转化应用体系，为优秀的研究团队进行技术和数据赋能，致力于实现分子表型水平的精准诊疗。