临床研究专题 | 一文读懂4种机器学习算法教你如何筛选Biomarker

2022-05-30 21:42:32, 小迈武汉迈特维尔生物科技有限公司

背景介绍

临床生物标志物的筛选及诊断panel优化构建是临床应用转化前期基础，如何高效从海量的代谢组学数据中获得高灵敏、高稳定、高准确率的潜在生物标志物，是标志物筛选所面临的主要挑战之一。

常规的单维统计学检验方法（如T检验、非参数检验等）和多维统计学分析方法（PLS-DA、OPLS_DA等）在标志物筛选中受方法本身的限制，如：筛选能力弱，返回大量的差异数据，指标间的互作关系以及对新样本有预测分类能力弱等，致标志物的实际诊断结果不理想等，能对数据的挖掘解析能力有限。

近几年来，先进的机器学习广泛应用于医学生物标志物的筛选，很大程度的解决了上述的这些问题，可谓是标志物筛选的一大必备利器。本文对代谢组学biomarker筛选中常用的几种机器学习算法进行介绍。（由于篇幅有限，本文仅做简单介绍，详细内容见《代谢biomarker研究一本通》，新书即将发布，敬请期待！）

代谢biomarker研究一本通

逻辑回归

简单来说，逻辑回归（LogisticRegression，LogitRegression，LR）是一种用于解决二分类（0or1）问题的机器学习方法，使用场景大概有两个：第一，用于寻找因变量的影响因素；第二，用来预测。本节内容将其用于biomarker筛选，即属于第一种应用场景。

逻辑回归与线性回归（LinearRegression）都是一种广义线性模型。

逻辑回归在数据挖掘，疾病自动诊断，预测等领域都有着广泛的应用，例如，可以探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的代谢表征与生活方式等。因此因变量就为是否胃癌，值为“是”或“否”，自变量就可以包括很多了，可以是我们根据FC以及VIP筛选到的多种差异代谢物，或者是年龄、性别、饮食习惯等临床指标。自变量既可以是连续的，也可以是分类的。然后通过logistic回归分析，可以得到自变量的权重，从而可以大致了解到底哪些因素是胃癌的危险因素，并将其作为候选biomarker。

弹性网络回归（Elastic Net）

弹性网络是一种同时使用L1和L2正则化的线性回归模型。ElasticNet回归的目标函数同时包含LASSO回归和岭回归的惩罚项，两种惩罚项的λ系数不同（lasso回归λ₁，岭回归λ₂）。基于使用多个不同λ₁和λ₂的交叉验证，以寻找最佳λ₁和λ₂的取值。

当λ₁= 0，λ₂= 0时，弹性网络回归与最初的最小二乘法线性回归拟合的模型一致。

当λ₁= 0，λ₂＞0时，弹性网络回归与lasso回归拟合的模型一致。

当λ₁＞0，λ₂= 0时，弹性网络回归与岭回归拟合的模型一致。

当λ₁＞0，λ₂＞0时，弹性网络回归为岭回归和lasso回归的结合版本。

弹性网络回归善于解决含有相关性参数的模型：lasso回归筛选出相关的参数，并缩减其他无关参数；同时岭回归缩减所有相关性的参数。通过二者的结合，弹性网络回归可以筛选和缩减具有相关性的参数，将他们保留在模型中或者从模型中移除。在处理具有相关性的参数时，弹性网络回归能够表现出良好的性能。

支持向量机（SVM）

分类作为数据挖掘领域中一项非常重要的任务，它的目的是学会一个分类函数或分类模型(或者叫做分类器)，支持向量机（SupportVectorMachine，SVM）也许是最受欢迎和讨论的分类学习算法之一，它属于有监督学习模型，主要用于解决数据分类问题，通常SVM用于二元分类问题，对于多元分类可将其分解为多个二元分类问题，再进行分类。SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势，因而被广泛地应用于统计分类以及回归分析中。

在SVM中，会选出一个超平面以将输入变量空间中的点按其类别（0类或1类）进行分离，此处超平面是指分割输入变量空间的面，在二维空间中可以将其视为一条线，所有的输入点都可以被这条线完全分开。SVM学习算法就是要找到能让超平面对类别有最佳分离的系数。

SVM算法分类思想很简单，就是将样本与决策面的间隔最大化，分类效果较好；SVM的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目，而不是样本空间的维数,这在某种意义上避免了“维数灾难”。但其对大规模训练样本难以实施，且用SVM解决多分类问题存在困难。

随机森林（RF）

随机森林（RandomForest，简称RF）就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（EnsembleLearning）方法。

随机森林顾名思义其是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，对于分类算法，看看这个样本应该属于哪一类，然后看看哪一类被选择最多，就预测这个样本为那一类。对回归问题，计算k个模型的均值作为最后的结果。