武汉迈特维尔生物科技有限公司
400-6699-117转1000
热门搜索:
分析测试百科网 > 迈维代谢 > 新闻动态 > 运用 ROC 曲线筛选用于疾病早期诊断的生物标志物

运用 ROC 曲线筛选用于疾病早期诊断的生物标志物

发布时间: 2017-11-28 02:30 来源:武汉迈特维尔生物科技有限公司

1. 简介
 

ROC 曲线(Receiver Operating Characteristic Curve,受试者工作特征曲线)是对于可能或将会存在混淆的两种条件或自然状态,需要试验者、专业诊断学工作者以及预测工作者作出精细判别,或者准确决策的一种定量方法。ROC 曲线已经在医学领域广泛应用于临床诊疗、人群筛检等研究。
 

运用 ROC 曲线筛选生物标志物的策略主要包括,OPLS-DA 筛选差异代谢物,再用最小绝对收缩与选择算子算法(Least Absolute Shrinkage and Selection Operator,LASSO)和极端梯度上升算法(eXtreme Gradient Boosting,XGBoost)算法选择重要的代谢物,然后使用逻辑回归模型筛选最佳的代谢物组合,即候选的生物标志物。

 

2. 分析结果

 

图 1 LASSO 变量选择的计算结果。右侧虚线 lambda 对应的模型包含的代谢物就是 LASSO 一次计算所选择的变量。
 

图 2 XGBoost 变量选择的计算结果


图 3 候选生物标志物的 ROC 曲线


图 4 健康组和疾病组的代谢物含量比较(代谢物数据经 log2 标准化,均用 mean ± sd 表示,星号代表代谢物的含量差异显著)

图 5 逻辑回归模型预测结果的散点图,虚线 0.5 是临界值,虚线下方的样品预测是健康组,虚线上方的样品预测属疾病组。

 

3. 方法
 

3.1. LASSO 选择变量
 

LASSO 是基于惩罚函数的变量选择方法。LASSO 基于惩罚函数在零点处导数的奇异性,将不重要的变量系数以较大概率压缩到零,同时对估计值较大的重要自变量给予较轻压缩,来保证参数估计的准确性。LASSO 算法是一个有序、连续的过程,以牺牲无偏性换取较小的方差;该方法具有计算量小,速度快,参数估计连续性,适用于高维数据等优点,选择的模型具有较高的预测准确性。如果数据的维数大于样本量,还需要引入岭回归(Ridge regression)组成弹性网方法(Elastic net)。

 

3.2. XGBoost 选择变量
 

XGBoost 属于梯度提升算法(Gradient Boosting,GB),其原理是把成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的模型。XGBoost 是 GB 算法的高效实现,能够自动利用 CPU 的多线程进行并行计算,运算速度更高效,同时改进算法提高了精度。

 

3.3. 逻辑回归模型筛选最佳代谢物组合
 

线性回归用于描述自变量和因变量之间的关系,但是因变量的取值范围很广,无法用于分类问题。逻辑回归是在线性回归的基础上,套用了 Sigmoid 函数,将因变量的值限定在 [0,1] 区间内,可用于二分类和多分类问题,常用于数据挖掘、疾病自动诊断、经济预测等领域。
 

逻辑回归模型的效果使用 ROC 曲线评估。ROC 曲线的坐标轴范围都是 [0, 1],曲线与坐标轴之间的面积叫做曲线下面积(Area Under Curve,AUC)。AUC 取值范围是 [0.5, 1],在 0.5 ~ 0.7 范围内时有较低准确性,在 0.7 ~ 0.9 范围内时有一定的准确性,在 0.9 以上时有较高准确性。

 

3.4. 输入数据
 

代谢组数据:列是样品名,行是代谢物。

样品信息表:样品的临床信息,包括样品名、类别(健康组或疾病组)、性别、年龄等。

 

4. 参考文献

[1]. Jerome Friedman, Trevor Hastie, Robert Tibshirani (2010). Regularization Paths for Generalized Linear Models via Coordinate Descent. Journal of Statistical Software, 33(1), 1-22.

[2]. Tianqi Chen and Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. In 22nd SIGKDD Conference on Knowledge Discovery and Data Mining, 2016

[3]. Xavier Robin, Natacha Turck, Alexandre Hainard, Natalia Tiberti, Frédérique Lisacek, Jean-Charles Sanchez and Markus Müller (2011). pROC: an open-source package for R and S+ to analyze and compare ROC curves. BMC Bioinformatics, 12, p. 77.

[4]. Xu, R. et al. Circulating tumour DNA methylation markers for diagnosis and prognosis of hepatocellular carcinoma. Nat Mater, (2017).


移动版: 资讯 直播 仪器谱

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved

京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号