5大板块 | 基于集成机器学习联合策略筛选生物标志物(biomarkers)

2021-09-18 19:33:45, 多层组学定制服务 上海欧易生物医学科技有限公司


点击上方蓝色字体关注我们

蛋白组学、代谢组学服务专家

一. 前言

生物标志物(Biomarker)在转化医学与临床、生态与环境、生理机制研究等领域有着广泛的应用。

传统的标志物筛选的方法有单因素统计分析(如T检验、非参数检验和方差分析等)、多因素统计分析(PLS-DAOPLS-DA等)以及单一机器学习法(Lasso、支持向量机(SVM)、决策树(DT)以及随机森林(RF)等),但这些方法因自身算法的本身的优缺点,适用面和应用面都有限制,如会出现:筛选能力弱、标志物panel复杂、标志物效果差(标志物 panel 稳定性差、泛化能力差和模型整体性能差)等问题。为此,我司研发了一套以各组学或指标数据自身特征为前提,基于多种特征选择算法的集成机器学习方法的标志物筛选系统,它能筛选出高灵敏度、高准确率、高稳定性的潜在生物标志物,并构建高效、稳定的诊断模型。

二. 技术路线

整套筛选流程分为五大板块:初始筛选环境建立、最佳筛选模型的选择、基于集成机器学习算法的组合策略筛选、候选标志物的评价与验证、基于LR的诊断模型的构建与性能评估。

筛选流程如下图所示:



三. 初始筛选环境建立

标志物在机器学习领域中,可称为特征(Feature)或变量(Variation),那么标志物数据则可看作是由一个个特征、特征量和样品标记(Label)所组成。生物标志物数据来源比较多,除各组学数据、生化指标等数值型数据(Numeric data)以外,还有像一些临床指标或表型数据的类别型数据(Categorical data),所以在进行筛选之前需要对数据类型进行定义、转化(类别型数据量化等)和标准化等前处理。

另外,为了提高筛选效率,会对转换后的数据进行预筛选,采用的方法主要有:单因素统计分析方法如单因素方差分析、T检验等;多因素统计分析方法如共线性分析,PLS-DAOPLS-DA等。此部分秉承的筛选原则是,过滤掉一些明显无指示作用的特征变量的同时,要尽可能地保存有效的特征变量,这是为了一方面删除无用信息提高筛选效率,另一方面保留有效信息维持数据整体特征分布,因此初筛时各部分筛选的条件设置的相对宽泛。经过此部分处理后,就会得到特征的表达矩阵。

四. 最佳筛选算法的选择

标志物筛选的本质则是从庞大复杂的特征数据(各种组学数据、生化指标和类别数据等)中高效筛选到简单组合的、可以代表整体数据特性的一组特征(panel),这一组特征能很好地为我们所用(分类,预测等)。由于不同的特征数据存在着不同特征分布,而单一筛选算法往往只适合某一类数据,那么首先则需要找到适合于待筛选数据特征的模型,进而选择最优的模型作为标志物筛选的算法。最佳模型的选用是以模型(在默认参数下,避免模型的过拟合)的6大评价指标为依据,分别为准确度(AccuracyAUC召回率(Recall)精确率(PrecisionF1值(F1 Score)、Kappa系数(Kappa。一种评价指标只能反映模型一部分性能,如果选择的评价指标不合理,那么可能会得出错误的结论,故而应该针对具体的数据、模型选取不同的的评价指标。

我们选用了适用数据类型广、泛化能力较强的4种以决策树为基模型的集成机器学习算法(Ada Boost Classifier(Ada)Gradient Boosting Classifier(Gbc)Extreme Gradient Boosting(Xgboost)Light Gradient Boosting Machine(Lightgbm),以各性能指标优劣来进行筛选算法的选定。这里,将预筛选后的数据全部用于4大模型的训练,同时采用了K-折交叉验证K-Fold Cross Validation,默认K=10)策略(可减少因随机局部数据带来的模型过拟合),进而得到每折的6大评价指标,最终以各评价指标平均值大小做为筛选依据。各评价值越大,说明该模型更适合该数据,由该模型筛选出来的标志物越可靠。





五. 基于集成机器学习算法的组合策略筛选

获得最适合数据的集成机器学习算法后,进一步优化超参数,得到对于该数据的最佳模型,同时可得到该条件下的特征权重值(Importance)。权重值大的特征只能说明一定程度上该特征在分组上的贡献相对较大,但由于算法本身存在一定随机性,实际上每一个特征的权重值是一个波动的区间。为了筛选稳定、效能高的特征,我们采用了一套筛选组合策略,可以尽可能排除对分组贡献小的特征。

经过累加权重值筛选法(Cumsum Importance)、交叉递归特征消除法(REFCV)、排列重要性筛选法(Permutation Importance)、相关性系数筛选法(Correlation Coefficient)和累加特征AUC筛选法(Cumsum AUC)等组合策略筛选后,我们会得到一组包含信息度高、个数最少的生物标志物panel




 

六. 候选标志物的评价与验证

为了验证候选标志物的正确性和分类性能,对其进行了特征评价(表达丰度、相关性)和在五种经典模型(决策树(Decision Tree,DT)、随机森林(Random Forest, RF)、K-近邻法(K-Nearest Neighbors,KNN)、朴素贝叶斯法(Naive Bayes, NB)、支持向量机(Support Vector Machine,SVM))上分类能力的表现。

6.1 候选标志物的评价

a. 表达丰度评价

理论上,筛选出来的特征组合应能明显地进行分组,那么不同组特征间的表达丰度则存在显著差异。下表为筛选得到的特征的表达量,以及简单的统计分析:





 

b. 相关性评价

一般认为,诊断panel中包含的各标志物间相关性越低,则说明所筛选的标志物间重复信息越低,那么诊断panel就越趋向简单,包含的信息面就越多,这样的panel组合就是理想panel



 

6.3 五种经典模型对候选标志物的验证

一般而言,候选标志物panel应具有一定的通识性,即对采用不同的算法构建模型时都能表现出良好的性能。因此,对候选标志物panel采用五种不同的经典模型进行建模,用五大模型性能指标(准确度(Accuracy)、AUC值、召回率(Recall)、精确率(Precision)、F1值(F1 Score)、Kappa系数(Kappa))和ROC曲线来对模型的分类表现进行比较和评估。

A. 六大性能指标

为了充分展现各模型的分类性能,我们按一定比例将整体数据(Whole Data)分割为两个部分(训练集(Training Set)测试集(Testing Set),默认分割比为7:3)。利用训练集分别对这5种模型进行构建,同时采用K-fold交叉验证(K默认为10)来对模型性能进行验证,得到优化超参数,进一步对测试集进行测试,通过计算6个性能指标来显示模型的分类能力。这里,以KNN算法的结果进行展示,其中包含两个大的部分信息:1.模型性能结果,像Split_set对应的是各折交叉验证时对验证集(Validation Set)的分类性能指标, K_Neighbors_Classifier Prediction 表示该模型(这里是KNN)在测试集上的分类性能指标,这些指标越接近1,说明模型越好。2.第二部分是,测试集的模型分类性能的具体结果,前面的是标准化后的特征量,Label是样本实际的分组标签,Label_predicted是模型预测的分组标签,Score是模型预测的得分。



如下图,用箱线图可视化各个模型的性能指标,图中的红点,表示各模型在测试集中的性能表现。各指标的数值越大,越接近1,说明模型性能越好。若指标大于0.9,则表明筛选的标志物panel用该算法建立的模型,有比较优秀的分类性能。



B. ROC曲线

ROC曲线全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,经常作为二分类模型的性能评估,它的纵坐标是真正率(True Positive Rate, TPR),横坐标假正率(False Positive Rate, FPR)。下表以KNNROC分析结果进行展示:



如下图,将五个经典模型的ROC曲线进行展示,并给出了AUC值,该值越接近1,说明模型性能越好。



七. 基于LR的诊断模型的构建与性能评估

构建诊断模型的原则是,模型不仅需要对原本数据展现出很好的性能,还需要尽可能的简单(基模少、超参数少)、泛化能力强,这样它的适用面会更强,对新数据的诊断效果就更好。逻辑回归(Logical Regression,LR)是一种简单高效的分类算法,属于“广义的线性模型”,主要解决二分类问题,用来表示某件事情发生的可能性。

我们用LR算法来构建诊断panel模型时,通过计算得到LR的回归系数和截距,进而得到回归方程,就可以计算每个样品的概率值(可理解为属于正例的可能性),进一步与阈值(或临界点(Cutoff))进行比较,就可以判断该样本属于哪一类了,从而达到分组的目的。

7.1 诊断模型的构建

a. 模型的参数获得与保存

通过建模得到回归方程的参数,其中,Coef 是各标志物的回归系数, Intercept 为截距,见下表:


由上可得,本项目的回归方程为:


同时,将模型保存为二进制的pkl文件,便于模型再现和后续的诊断应用。

b. 诊断临界点(Cutoff)的确定

获得诊断模型后,需要将概率值和阈值(Threshold,或临界点(Cutoff))进行比较,才能知道样本的分类,如果概率值超出阈值,则该样本就被诊断为正例(阳性),若小于阈值则为负例(阴性)。为了诊断效果最好,则需要找到一个最佳的阈值,这里我们采用约登指数(Youden‘s Index)来界定出最佳的阈值。约登指数=敏感度+特异度-1(等同于TPR-FPR),那么当约登指数(敏感度和特异度之和)取最大值时,此时对应的阈值则为最佳判定阈值,同时敏感度和特异度都会比较高。在实际应用中,最优阈值不一定是唯一的,以对敏感度或特异度的要求不一样而有所调整,如对新冠病人的检测,需要尽可能检测出所有实际感染的病人,防止疫情扩散,那么就会适当放低阈值,即使有些正常人会被误诊为病人,此时对敏感度会要求更高。

约登指数、准确度(Accuracy)、特异度(Specificity)、灵敏度(Sensitivity)随阈值变化的结果如下表:



由上表可知,阈值 Thresholds0.49583769 时,约登指数YouDen_Index 达到最大值 0.90960 ,那么最佳阈值(诊断临界点)为 0.49583769



7.2 诊断模型的性能评估

A. 六大性能指标

为了检测诊断panel模型的分类性能,同样地,我们按一定比例将整体数据(Whole Data)分割为训练集(Training Set)和测试集(分割比默认7:3)或同类型、外来的新验证集数据(需另外提供),分别计算诊断模型的六大性能指标,来对诊断模型的分类表现进行检测。如下图,用箱线图可视化各个模型的性能指标,图中的橘红点,表示诊断模型在测试集中的性能表现。各指标的数值越大,越接近1,说明模型性能越好。图中,指标大于0.9,则表明筛选的标志物panel有比较优秀的分类表现。



 

B. ROC曲线

ROC曲线如下图所示,训练集和测试集的AUC均在0.95以上,说明我们筛选出来的标志物panel诊断模型的分类性能非常好,可作为实际应用的诊断工具。



八. 最后

目前,整套筛选流程已经实现了一键式自动化操作,老师只需提供表达矩阵和分组信息,便可完成全部的数据预处理分析、筛选过程、数据可视化和重要数据保存、诊断模型以及网页版项目报告,最大限度为老师提供快速、准确的筛选结果。

关于生物标志物的筛选有需要咨询的老师可以在文章下方留言,或者添加小鹿微信号:17317724501咨询我们的技术工程师,助力您的科研生物标志筛选~

九. 参考文献

[1] Tkachev V, Sorokin M, Borisov C, Garazha A, Buzdin A, Borisov N. Flexible Data Trimming Improves Performance of Global Machine Learning Methods in Omics-Based Personalized Oncology. Int J Mol Sci. 2020 Jan 22;21(3):713. doi: 10.3390/ijms21030713. PMID: 31979006; PMCID: PMC7037338.

[2] Yoav Freund, Robert E Schapire,A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting,Journal of Computer and System Sciences,Volume 55, Issue 1,1997,Pages 119-139,ISSN 0022-0000, https://doi.org/10.1006/jcss.1997.1504.

[3] Kawakami E, Tabata J, Yanaihara N, Ishikawa T, Koseki K, Iida Y, Saito M, Komazaki H, Shapiro JS, Goto C, Akiyama Y, Saito R, Saito M, Takano H, Yamada K, Okamoto A. Application of Artificial Intelligence for Preoperative Diagnostic and Prognostic Prediction in Epithelial Ovarian Cancer Based on Blood Biomarkers. Clin Cancer Res. 2019 May 15;25(10):3006-3015. doi: 10.1158/1078-0432.CCR-18-3378. Epub 2019 Apr 11. PMID: 30979733.

[4] Than MP, Pickering JW, Sandoval Y, Shah ASV, Tsanas A, Apple FS, Blankenberg S, Cullen L, Mueller C, Neumann JT, Twerenbold R, Westermann D, Beshiri A, Mills NL; MI3 collaborative. Machine Learning to Predict the Likelihood of Acute Myocardial Infarction. Circulation. 2019 Aug 16;140(11):899–909. doi: 10.1161/CIRCULATIONAHA.119.041980. Epub ahead of print. PMID: 31416346; PMCID: PMC6749969.

[5] Shung DL, Au B, Taylor RA, Tay JK, Laursen SB, Stanley AJ, Dalton HR, Ngu J, Schultz M, Laine L. Validation of a Machine Learning Model That Outperforms Clinical Risk Scoring Systems for Upper Gastrointestinal Bleeding. Gastroenterology. 2020 Jan;158(1):160-167. doi: 10.1053/j.gastro.2019.09.009. Epub 2019 Sep 25. PMID: 31562847; PMCID: PMC7004228.

[6] Jerome H. Friedman. “Greedy function approximation: A gradient boosting machine..” Ann. Statist. 29 (5) 1189 - 1232, October 2001. https://doi.org/10.1214/aos/1013203451

[7] Yan, L., Zhang, HT., Goncalves, J. et al. An interpretable mortality prediction model for COVID-19 patients. Nat Mach Intell 2, 283–288 (2020). https://doi.org/10.1038/s42256-020-0180-7

[8] Liu J, Tang W, Budhu A, Forgues M, Hernandez MO, Candia J, Kim Y, Bowman ED, Ambs S, Zhao Y, Tran B, Wu X, Koh C, Surana P, Liang TJ, Guarnera M, Mann D, Rajaure M, Greten TF, Wang Z, Yu H, Wang XW. A Viral Exposure Signature Defines Early Onset of Hepatocellular Carcinoma. Cell. 2020 Jul 23;182(2):317-328.e10. doi: 10.1016/j.cell.2020.05.038. Epub 2020 Jun 10. PMID: 32526205.

[9] Chen T , Guestrin C . XGBoost: A Scalable Tree Boosting System[J]. the 22nd ACM SIGKDD International Conference, 2016.https://doi.org/10.1145/2939672.2939785 .

[10] Gou W, Ling CW, He Y, Jiang Z, Fu Y, Xu F, Miao Z, Sun TY, Lin JS, Zhu HL, Zhou H, Chen YM, Zheng JS. Interpretable Machine Learning Framework Reveals Robust Gut Microbiome Features Associated With Type 2 Diabetes. Diabetes Care. 2021 Feb;44(2):358-366. doi: 10.2337/dc20-1536. Epub 2020 Dec 7. PMID: 33288652; PMCID: PMC7818326.

[11] Ke G, Meng Q, Finley T, et al. LightGBM: a highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems 30 (NIPS 2017). Accessed 23 November 2020.

[12] Guyon, I., Weston, J., Barnhill, S. et al. Gene Selection for Cancer Classification using Support Vector Machines. Machine Learning 46, 389–422 (2002). https://doi.org/10.1023/A:1012487302797

[13] Breiman, L. Random Forests. Machine Learning 45, 5–32 (2001). https://doi.org/10.1023/A:1010933404324


猜你还想看


别担“薪” | 2021届鹿明生物全国秋季招聘正式启动

“黄金时代,创新崛起” 质谱组学加速新药研发与临床诊断—9月23日在沪举办

GUT | 国家癌症中心崔巍联合多组学技术团队发表血清代谢组肠癌早筛新机制

项目文章 | 南中医吴颢昕团队发现中药泽泻饮可通过调节肠道菌群治疗动脉粥样硬化


END

段小前  撰文

欢迎转发到朋友圈

本文系鹿明生物原创

转载请注明本文转自鹿明生物

我知道你在看

点“阅读原文”了解更多


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved