临床研究专题 | 一文读懂4种机器学习算法教你如何筛选Biomarker

2022-05-30 21:42:32, 小迈 武汉迈特维尔生物科技有限公司



背景介绍

临床生物标志物的筛选及诊断panel优化构建是临床应用转化前期基础,如何高效从海量的代谢组学数据中获得高灵敏、高稳定、高准确率的潜在生物标志物,是标志物筛选所面临的主要挑战之一。


常规的单维统计学检验方法(如T检验、非参数检验等)和多维统计学分析方法(PLS-DA、OPLS_DA等)在标志物筛选中受方法本身的限制,如:筛选能力弱,返回大量的差异数据,指标间的互作关系以及对新样本有预测分类能力弱等,致标志物的实际诊断结果不理想等,能对数据的挖掘解析能力有限。


近几年来,先进的机器学习广泛应用于医学生物标志物的筛选,很大程度的解决了上述的这些问题,可谓是标志物筛选的一大必备利器。本文对代谢组学biomarker筛选中常用的几种机器学习算法进行介绍。(由于篇幅有限,本文仅做简单介绍,详细内容见《代谢biomarker研究一本通》,新书即将发布,敬请期待!

代谢biomarker研究一本通



逻辑回归

简单来说,逻辑回归(LogisticRegression,LogitRegression,LR)是一种用于解决二分类(0or1)问题的机器学习方法,使用场景大概有两个:第一,用于寻找因变量的影响因素;第二,用来预测。本节内容将其用于biomarker筛选,即属于第一种应用场景。


逻辑回归与线性回归(LinearRegression)都是一种广义线性模型。


逻辑回归在数据挖掘,疾病自动诊断,预测等领域都有着广泛的应用,例如,可以探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的代谢表征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,可以是我们根据FC以及VIP筛选到的多种差异代谢物,或者是年龄、性别、饮食习惯等临床指标。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素,并将其作为候选biomarker。



弹性网络回归(Elastic Net)

弹性网络是一种同时使用L1和L2正则化的线性回归模型。ElasticNet回归的目标函数同时包含LASSO回归和岭回归的惩罚项,两种惩罚项的λ系数不同(lasso回归λ1,岭回归λ2)。基于使用多个不同λ1和λ2的交叉验证,以寻找最佳λ1和λ2的取值。




当λ1= 0,λ2= 0时,弹性网络回归与最初的最小二乘法线性回归拟合的模型一致。

当λ1= 0,λ2>0时,弹性网络回归与lasso回归拟合的模型一致。

当λ1>0,λ2= 0时,弹性网络回归与岭回归拟合的模型一致。

当λ1>0,λ2>0时,弹性网络回归为岭回归和lasso回归的结合版本。


弹性网络回归善于解决含有相关性参数的模型:lasso回归筛选出相关的参数,并缩减其他无关参数;同时岭回归缩减所有相关性的参数。通过二者的结合,弹性网络回归可以筛选和缩减具有相关性的参数,将他们保留在模型中或者从模型中移除。在处理具有相关性的参数时,弹性网络回归能够表现出良好的性能。



支持向量机(SVM)

分类作为数据挖掘领域中一项非常重要的任务,它的目的是学会一个分类函数或分类模型(或者叫做分类器),支持向量机(SupportVectorMachine,SVM)也许是最受欢迎和讨论的分类学习算法之一,它属于有监督学习模型,主要用于解决数据分类问题,通常SVM用于二元分类问题,对于多元分类可将其分解为多个二元分类问题,再进行分类。SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势,因而被广泛地应用于统计分类以及回归分析中。


在SVM中,会选出一个超平面以将输入变量空间中的点按其类别(0类或1类)进行分离,此处超平面是指分割输入变量空间的面,在二维空间中可以将其视为一条线,所有的输入点都可以被这条线完全分开。SVM学习算法就是要找到能让超平面对类别有最佳分离的系数。



SVM算法分类思想很简单,就是将样本与决策面的间隔最大化,分类效果较好;SVM的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。但其对大规模训练样本难以实施,且用SVM解决多分类问题存在困难。



随机森林(RF)

随机森林(RandomForest,简称RF)就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(EnsembleLearning)方法。


随机森林顾名思义其是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,对于分类算法,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一类。对回归问题,计算k个模型的均值作为最后的结果。



通过随机森林分析可以进行代谢biomarker筛选,即对代谢特征进行重要性评估。思想比较简单,主要是看每个代谢物特征在随机森林中的每棵树上做了多大的贡献,然后取平均值,通常使用基尼指数(gini)或袋外数据(OOB)错误率作为评价指标来衡量贡献度。


最后挑选出贡献度较大的一部分代谢物,并用它们重新构建随机森林模型用于分类。


迈维代谢提供基于集成机器学习算法进行标志物筛选的一站式服务。您提供样本,我们给您最优的Biomarker!


99%的代谢组学研究者都在阅读下文:

临床研究专题|样本量如何计算?本文一看便知

临床研究专题 | 99%的临床研究类型都在这里

项目文章 | 能量代谢和全谱代谢组学助力新华医院皮肤科团队发现了一种新的疾病——CAOP综合征

重磅升级 | 空间代谢组物质检出更准、更多、更个性化


客服微信:metware888

咨询电话:027-62433042

邮箱:support@metware.cn

网址:www.metware.cn

我就知道你“在看”


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved