实例展示 | 氨探OML机器学习平台重现免疫检查点阻断剂反应预测模型

2023-09-13 13:01:21, Untangled



文献背景
BACKGROUND

2022年纪念斯隆凯特琳癌症中心的Timothy A. Chan团队在Nature Biotechnology发表了题为“Improved prediction of immune checkpoint blockade efficacy across multiple cancer types”文章,指出癌症患者中只有少部分人对免疫检查点阻断(immune checkpoint blockade,ICB)治疗敏感,但是目前临床决策的准确率不理想。所以,作者使用机器学习算法构建了患者对ICB治疗是否敏感的预测模型,模型使用的数据集(来自MSK-IMPACT队列)涉及16种癌症共计1479个样本,模型特征集囊括了包括基因组、分子、人口统计学和临床指标等在内的多种数据类型。其中,作者基于16个特征利用随机森林算法构建了RF16模型。这里,我们将使用文献公开的数据集来演示如何利用氨探生物开发的机器学习平台OML(https://omia.untangledbio.com/oml/)重现RF16模型结果

文献数据集

数据下载链接https://.ncbi.nlm.nih.gov/pmc/articles/PMC9363980/#SD2,下载的数据文件格式为xlsx(图1),每行表示一个样本,每列表示一个特征,这符合常规机器学习算法输入数据的格式。训练集和测试集分别在2sheet中,因为OML只能读取一个数据文件,首先需要将训练集和测试集简单合并到一起,重新生成一个xlsx文件。

文献RF16模型的特征集对应到数据集列名分别为Cancer_Type2(癌症类型)、Chemo_before_IO (1:Yes; 0:No)(患者在免疫治疗前是否接受化疗)、Age(年龄)、Sex (1:Male; 0:Female)(性别)、BMIStage (1:IV; 0:I-III)(癌症分期)、NLRblood neutrophil-to-lymphocyte ratio,血液中性粒细胞与淋巴细胞的比例)、Platelets(血小板)、HGBhemoglobin,血红蛋白)、Albumin(白蛋白)、Drug (1:Combo; 0:PD1/PDL1orCTLA4)immunotherapy drug agent,免疫治疗药物)、TMBtumor mutational burden, 肿瘤突变负荷)、FCNAfraction of copy number alteration,拷贝数变异率)、HEDHLA-I evolutionary divergenceHLA-I进化分化)、HLA_LOHloss of heterozygosity status in HLA-I25HLA-I25杂合性缺失)、MSI (1:Unstable; 0:Stable_Indeterminate)microsatellite instability,微卫星不稳定性)

1 ICB数据集的原始格式,训练集和测试集分别在2sheet

OML 重现ICB数据集的RF16模型的参数设置

OML有7个模块(见图2),模块均在左边栏呈现,现在依次设置7个模块的参数来重现ICB数据集的RF16模型(见图3),其中模块3和模块4无需设置任何参数,图3未展示这两个模块。

2 OML网页布局展示图,7个模块均在左边栏展示

· STEP 1_Upload Dataset

目前OML已经将ICB数据集作为示例数据集,可以直接选择Example dataset

中的Classification: Immune Checkpoint Blockade。“✅ File loaded successfully!”提示文件上传成功,点击“data preview”,可以预览已上传数据。数据导入成功后,OML可以读入所有列名,后续模块用户只需要点击相关选项即可,不需要再输入任何数据。

· STEP 2_Select Target Variable and Independent Variable

该模块用来设置样本标识符、因变量和自变量(因变量和自变量在统计和机器学习领域有多个名称,用户可查看本模块的说明)。目前OML支持一个因变量和多个自变量的有监督分类和回归模型。根据文献建模思路,这里Sample identifier选择“SAMPLE_ID”。Target variable表示因变量可选择“Response (1:Responder; 0:Non-responder)”。Categorical or Numerical for target variable选择Categorical,表示Target variable是分类型变量,下游将要构建的模型为分类模型。由于原始数据集Response列已经用0表示Non-responder(对照样本,阴性样本),1表示Responder(实验样本,阳性样本),符合机器学习算法输入数据的设置,该模块其它选项直接使用默认值。

· STEP 3_Normalize Dataset

数据无需标准化处理,直接使用默认选项,跳过这一步。

· STEP 4_Feature Selection from Model (Optional)

RF16已经明确了16个特征集,不需要再进行特征筛选,跳过这一步。

· STEP 5_Select Important Features

该模块需要输入机器学习建模所用的特征集,有2种选择方法:multi-selects是可以直接根据OML提供的自变量下拉框选项,依次选择所需特征,适合选择少量特征,比如5个以内;input text comment是允许用户直接输入特征到文本框,适合输入多个特征集,其中每行表示一个特征,注意特征名字必须与上传文件列名保持一致,否则OML因为不能匹配列名而报错。ICB数据集的16个特征可以采用input text comment一次性输入即可。

· STEP 6_Split Data into Training Set and Testing Set

ICB数据集中SAMPLE_ID从8461-8215为训练集,总计1184个样本;SAMPLE_ID从8384-9855为测试集,总计295个样本。为了自定义训练集和测试集,点击“select the specific Sample Identifier for testing set”,然后设置测试集的起始样本编号8384和终止样本编号9855,OML根据样本编号可准确识别训练集和测试集。

· STEP 7_Choose Machine Learning Method 

ICB数据集RF16是基于随机森林构建的,文献给出模型最终参数值:n_estimators=1,000,max_depth=8,min_samples_leaf=20 and min_ samples_split=2。本模块算法选择Random Forest Classification,将对应的参数设置为文献给出的值,其它参数使用默认值。直接点击“Submit”,等待几分钟,OML输出多个图标详细的模型性能评估指标结果。

3 ICB数据集在OML5个模块参数设置展示

OML 重现ICB数据集的RF16模型结果

OML构建的RF16模型性能结果见图4,图4a分别展示训练集和测试的ROC曲线和PRC曲线,图4b分别展示训练集和测试集的混淆矩阵,图4c展示随机森林模型的特征重要性排序,图4d展示SHAP(SHapley Additive exPlanations)算法计算特征重要性,图5e展示训练集和测试集的AUCROC, Accuracy, Balanced Accuracy, Sensitivity, Specificity, F1 Score, 以及 Precision等模型性能指标。

4 OML 重现ICB数据集的RF16模型结果展示

比较OML模型结果和文献结果的模型结果

1. 文献 RF16 模型的训练集AUCROC=0.85,测试集的AUCROC=0.79。OML模型的训练集AUCROC=0.848,测试集AUCROC=0.797,因此文献OML的AUCROC结果基本一致(图5)。

2. 文献RF16 模型的训练集混淆矩阵NR组有850个样本和R组有61个样本类别被正确预测,OML的训练集混淆矩阵NR组(表示0)有851个样本和R组(表示1)有60个样本类别被正确预测,结果基本基本一致。文献未展示0.5 cutoff 的测试集混淆矩阵结果,不进行测试集混淆矩阵的比较(图5)。

3. 16个特征在文献和OML的重要性排序类似,比如TMB、Chemo before ICB、Albumin、Age、NLR在文献模型和OML模型均是TOP特征(图5)。

5 OML模型和文献模型结果比较

模型一致性结果的重现需要明确以下3点:1)数据集一致包括训练集和测试集一致,特征集一致;2)相同算法和算法超参数设置;3)评估指标相同,对于分类模型特别是cutoff阈值相同。基于以上三点,我们使用OML重现了高分文献公开的ICB数据集RF16 模型结果,说明OML流程具有可靠性和稳定性。

OML纳入多种常用的机器学习算法,可以对有监督分类(二分类或者多分类)和回归进行建模。OML也可以作为一个公共的在线测试平台,用户可以测试多种算法来为数据集选择最佳模型结果

若您对我们的产品感兴趣,或有宝贵的意见和建议,请联系我们:info@untangledbio.com。

参考文献



1. Improved prediction of immune checkpoint blockade efficacy across multiple cancer types. Nat Biotechnol. 2022;40(4):499-506.

2. Mechanism-driven biomarkers to guide immune checkpoint blockade in cancer therapy. Nat Rev Cancer. 2016;16(5):275-287.

3. Machine Learning in Medicine. Circulation. 2015;132(20):1920-1930.

4. Random Forest. J Insur Med. 2017;47(1):31-39.

Untangled Biosciences

解构健康奥秘、探寻生命答案,氨探生物以一流的分子表型组平台和成熟的临床转化应用体系,为优秀的研究团队进行技术和数据赋能,致力于实现分子表型水平的精准诊疗。




  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved