剑指“癌症之王”!Science Advances:机器学习+脂质多组学助力胰腺导管腺癌的精准诊断和机制研究

2022-01-21 01:07:31, XHL 上海吉凯基因医学科技股份有限公司


胰腺导管腺癌(PDAC)是最致命的癌症之一,其特征是进展快速、会发生转移和难以诊断。然而,当前没有有效的基于体液的检测方法可用于PDAC检测。


北京大学尹玉新教授团队和国内其他团队合作在Science Advances (中科院JCR一区,影响因子:14.136)上发表了题为“Metabolic detection and systems analyses of pancreatic ductal adenocarcinoma through machine learning, lipidomics, and multi-omics”的文章,介绍了研究者利用机器学习(ML)分阶段对大规模的脂质组学的结果进行分析、训练、测试和验证,最终找到了17个特征脂质代谢物集合有良好的分类效果,可用于诊断PDAC。本研究同时显示了机器学习和代谢组学结合在疾病诊断中的潜在应用。


研究设计

研究结果

1.发现队列的血清脂质组学


实验组(PDAC):333个PDAC患者血清

对照组(NC):262个健康个体血清


正离子模式下共检测到1416个代谢物,分属于19个脂质大类;负离子模式下共检测到669个代谢物,分属于16个脂质大类。


2.对脂质组学结果进行基于机器学习

算法的分类


将发现队列的共计595个样本分为训练队列495个(训练集:372;交叉验证集:123)和测试集100个。支持向量机(SVM,一种机器学习分类算法)分别对正离子和负离子模式下检测到的脂质代谢物进行分类分析。在完成5000次循环计算后,正离子模式下,SVM分类模型在测试集的平均准确度为82.26%,特异性为98.05% ,灵敏度为66.48%。负离子模式下,SVM分类模型,在测试集的平均准确度为85.88% ,特异性为71.93% ,灵敏度为99.83%。该结果表明,脂质组学和SVM结合是检测PDAC的很有潜力的手段



3.机器学习寻找能有效分类的特征

脂质代谢物


贪婪算法通过逐一选择排名靠前的特征(即脂质代谢物)进行评估。对于每个当前特征,一旦先前选定的特征与当前特征的组合达到更高的性能水平,当前特征将被标记并添加到选定特征集中。例如,对于第N次迭代,基于包含先前所选特征的特征集,贪婪算法首先将当前特征添加到该集中,然后进行500次四重交叉验证以评估平均性能。如果获得的平均性能优于以前的特征集,则意味着当前特征是现有选定特征集的补充,对于识别PDAC和健康对照至关重要,当前特征就会被保留在特征集中。


正离子模式下的27个特征脂质代谢物构成的分类模型在测试集的准确性为93.61%,特异性为89.92%,灵敏度为97.30%。而负离子模式下的19个特征脂质代谢物构成的分类模型在测试集的准确性为90.40%,特异性为83.15%,灵敏度为97.66%。此外,研究者发现和传统的特征选择相比,基于贪婪算法的特征选择的精确度更高。



基于前面贪婪算法找到的特征代谢物,选择了正离子模式下检测到的12个和负离子模式下检测到的8个脂质代谢物,共计17个唯一代谢物,作为最终的特征脂质代谢物。基于这17个特征脂质代谢物组合的分类模型能以最少的数量达到最好的分类效果。



4.在大规模验证队列中对分类模型

进行验证


研究者建立基于质谱的靶向检测方法(MRM靶向脂质组学),检测1898个个体血清样本中的17个特征脂质代谢物。


(1)在前述发现队列中进行验证:将前述发现队列的595个样本又分为训练集(n=495)和测试集(n=100),作为内部验证。多元二元逻辑回归分析表明,性别和年龄状态对分类模型的影响有限,表明该分类模型对于PDAC和健康对照的分类是特异性的,与年龄和性别无关。分类模型在训练集上的准确率达到89.49%,特异性为89.15%,灵敏度为89.75%;在测试集上的准确率为86.00%,特异性为80.00%,灵敏度为92.00% 。训练集的AUC达到0.9591,测试集的AUC达到0.9444。这些结果说明了机器学习算法辅助的基于脂质代谢物的PDAC检测方法的准确性和有效性。


(2)在独立队列中进一步验证:研究者在含有1003个个体血清(600 PDAC和403健康对照)的独立队列中对分类模型进行进一步验证。分类模型的AUC为0.9309,准确率为88.24%,灵敏度为93.00%,特异性为81.43%。在600个PDAC样本中,86.38%(406/470)的早期PDAC(I期-II期)样本和90%(113/130)的晚期PDAC(III期-IV期)样本能被准确检测。这些结果表明了机器学习算法辅助的基于脂质代谢物的PDAC检测方法能有效的检测各阶段的PDAC。



(3)在新的临床队列中进行验证:研究者在一个前瞻性、单盲的医院队列中检验了机器学习辅助的代谢PDAC检测方法的性能。该队列包含130名已接受医学检查的无癌个体和170名接受胰腺手术的患者,包括70名胰腺良性疾病患者(无癌个体)以及100名诊断为PDAC的患者。分类模型的准确率达到85.00%,特异性为81.00%,敏感性为93.00%,AUC为0.9389。在该队列中,该机器学习辅助的代谢PDAC检测方法准确检测了90.91% (50/55)的早期PDAC(I期-II期)和95.56% (43/45)的晚期PDAC(III期-IV期)样本。


(4)与其他PDAC检测方法进行比较:机器学习辅助的代谢PDAC检测方法AUC为0.9309,准确度为88.24%,敏感性为93.00%,特异性为81.43%。而经典的PDAC生物标志物碳水化合物抗原CA19-9的AUC为0.8790,准确率为83.00%,灵敏度为79.00%,特异性为85.00%。CT扫描的AUC为0.7098,准确率为86.67%,灵敏度为78.00%,特异度为91.00%。此外,在对良性胰腺疾病的检测分类中,机器学习辅助的代谢PDAC检测方法也比CA19-9和CT扫描有更好的效果。因此,机器学习辅助的代谢PDAC检测方法有临床应用价值,同时AI方法和CA-919或CT扫描联合或可使PDAC的临床诊断受益。



5.多组学分析显示PDAC存在广泛的

脂质代谢失调


(1)基质辅助激光解析电离质谱成像(MALDI-MSI)对5对PDAC癌组织和癌旁组织样本中的17个特征脂质代谢物进行检测。结果表明,6个特征脂质代谢物的变化趋势和前述脂质组学的结果相符


(2)10个PDAC组织和5个配对的临近胰腺组织的蛋白质组学结果,发现多个和脂质代谢相关的蛋白和通路失调


(3)对公开数据库中24178个来自PDAC患者的胰腺组织细胞和5280个来自正常胰腺组织细胞的单细胞RNA测序结果进行分析共产生了10个细胞谱系。作者根据大规模的拷贝数变异(CNV)情况从上皮细胞中分辨出PDAC细胞。通过分析发现,甘油磷脂代谢是PDAC细胞中最显著变化的脂质代谢相关途径


(4)在TCGA-GTEx数据集以及独立的mRNA 芯片结果中也有类似的结果。 


综合以上结果表明,PDAC中存在广泛的脂质代谢紊乱。

研究总结

研究者通过建立了一种结合机器学习和代谢组学的原型方法,该方法改进了利用机器学习进行靶向代谢组学的疾病检测测试程序。研究结果表明,机器学习辅助的代谢PDAC检测方法的比传统方法有更良好的效果,证明了该方法在PDAC辅助诊断中的潜在应用前景。该方法的适当临床应用可能有利于PDAC患者的准确诊断,并可能指导更加有效的治疗。


做蛋白组学· 找吉凯

吉凯基因凭借多年在靶标筛选及验证服务领域的技术积累,建立的标准化 、工程化 、系统化的GRP平台,为中国研究型医生提供科研服务,加快科研成果转化。其中,蛋白质组学平台拥有多台timsTOF Pro、Exploris 480高精度质谱仪,专业领先的Spectronaut Plusar、Mascot等分析软件,提供专业的4D、DIA、TMT、PRM、磷酸化修饰组等检测服务,强大的机器学习算法、IPA分析、蛋白基因组分析服务,系统的生物标志物、分子分型、药物靶点、基因功能研究等解决方案,真正让广大研究型医生的科研工作更省心、更省力、更高效。




1.实验技术干货

2.蛋白质组学研究

3.腺病毒简介及应用

4.临床基础研究思路解析    

5.组织特异性腺相关病毒

6.单细胞测序    

7.慢病毒实验操作指南

8.悬浮细胞专用病毒

9.靶点设计/数据库教程

10.测序技术研究与应用

11.非编码RNA研究技术与应用

12.腺相关病毒选择/应用    

13.表观遗传研究

14.文章解析

15.国自然课题设计思路解析

16.生物信息分析及工具      

17.外泌体研究    

18.肿瘤免疫研究

19.高分文章  



  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved