2023新品系列!Bioselector系统重磅发布,10大机器学习算法助力筛选最优生物标志物组合

2023-04-27 09:36:41, ShanR 上海吉凯基因医学科技股份有限公司


 

生物标志物(Biomarkers)是指可以标记系统、器官、组织、细胞及亚细胞结构或功能变化以及可能发生变化的生化指标,作为最直接快速有效的诊断手段,在肿瘤诊断、发展、治疗、以及疗效监测等多个方面发挥重要的作用。如何从高维的组学数据中寻找出更具区分能力的标志物,如何评价所选生物标志物的分类效果是标志物筛选所面临的2大主要挑战。


传统的生物标志物筛选方法中,研究人员根据实验设计以及数据的正态性与方差齐性,选择采用参数检验或非参数检验判断样本均数是否具有统计学差异,而后采用多元线性回归、逻辑回归等回归模型评判生物标志物的分类效果。但这些方法存在:1)尽管假设检验方法具有丰富的理论支持及应用实例,但其本质上都是单变量的分析手段,不能反映分子之间的相关性。2)传统的回归模型更适用于处理单一边界线性可分的分类问题,而组学数据往往是非线性可分的,只应用线性回归模型可能导致分类效果不佳。


为此,吉凯以各组学数据特征为前提,建立了一套一站式智能化机器学习BioselectorTM系统,此项专利技术涉及10种机器学习算法用于特征选择和分类器效能评估。所用算法种类之多,为市面公开报道的科研商业化服务产品之最!BioselectorTM系统能筛选出高灵敏度、高准确率、高稳定性的潜在生物标志物,并构建高效、稳定的诊断模型。一起跟着小编来了解一下BioselectorTM吧。

BioselectorTM系统分析流程:支持各类组学数据,打通标志物发现到验证

为筛选高潜生物标志物组合,吉凯基因对组学数据进行数据预处理、特征选择、特征集(标志物组合)的分类性能评估和诊断模型构建等一系列处理。这套分析流程支持单一队列及多队列分析,分析流程如图所示。


BioselectorTM系统核心科技:10大机器学习算法加持,全面筛选评估最优标志物组合


生物标志物筛选过程的核心是特征筛选和特征集性能评估。针对这两方面,吉凯基因策略如下:


1

特征筛选

特征选择(Feature selection, FS),旨在通过去除不相关、冗余或嘈杂的特征,从原始特征中选择一小部分相关特征。吉凯基因采用两步法对经过归一化和缺失值填充后的预处理数据进行特征筛选:


特征集预筛选(统计学方法):涉及T检验、多因素共线性分析、OPLS-DA正交偏最小二乘法分析等方法进行特征预筛选,以筛选在样本间方差大、差异显著性强、低变量相关性及高组间差异的特征分子。


特征集二次筛选(集成机器学习方法):选择了5种机器学习算法,也是最为常见几种特征挑选算法,包括xgboost(极端梯度提升)、randomforest(随机森林)、lightgbm、gradientboost(梯度提升)和adaboost进行特征筛选。基于5种机器学习算法对特征的重要性程度排序结果,综合选择重要性高的特征组成最终的特征集(标志物组合)。相比单一的机器学习方法,集成机器学习策略可以进一步缩小特征集的冗余性,将特征数目降至更低。


2

特征集(标志物组合)性能评估

筛选后的特征集的性能如何,还需进一步通过分类模型来综合评价。由于不同的分类算法适用于不同的数据类型和场景,因此吉凯基因采用5种不同的经典分类机器学习算法,包括linearSVM(支持向量机)、RBFsv、RandomForest(随机森林)、GaussianNB(朴素贝叶斯)和Logistic(逻辑回归)进行特征集性能评估。通过比较多种算法的分类性能,可以得出分类模型的稳定性和可靠性评估。


5种机器学习对标志物进行性能评估(左)&稳定性验证实验(右)

BioselectorTM系统转化助力:提供诊断模型公式,助力专利申请

为契合临床应用习惯以及进一步评估特征集的应用潜力,吉凯基因基于筛选出的特征集和逻辑回归算法构建诊断模型。模型公式为P=eX/(1+eX),其中X是一个与标志物组合有关的线性方程式,公式示例如下所示:


此外,吉凯基因还提供公式的cutoff值,根据Cutoff值,研究者可判断预测样本究竟属于哪一分类,一般来说大于cutoff值表示判别对象属于对照组;小于cutoff表示判别对象属于实验组。


诊断模型公式的cutoff值(左)&在外部验证队列中的诊断能力(右)


标志物分子的组间差异箱线图(左)&相关性分析(右)

BioselectorTM系统流程成熟:基于各种组学数据、样本类型及不同队列规模进行训练,支持各类应用场景

吉凯基因在产品研发时便考虑各种组学数据特征、样本类型和队列大小等差异,为保证BioselectorTM能筛选出高灵敏度、高准确率、高稳定性的潜在生物标志物,我司进行了数百种情况的测试,可放心选用。

BioselectorTM系统交付结果:TOP级期刊生信分析,报告逻辑清晰,通俗易懂,助力论文写作

机器学习是一款生信产品,有其技术门槛和阅读理解的复杂性。为了助力用户在论文写作上更加得心应手,吉凯交付报告逻辑清晰,通俗易懂,提供英文方法描述,图片美观高清,助力论文轻松发表。报告目录如下所示。完整demo报告请联系吉凯业务员索取。



吉凯基因提供组学+机器学习的一站式生物标志物筛选方案,助力临床生物标志物的开发与转化。有需要咨询的老师请联系吉凯当地业务员或者拨打客服热线4006210320,也可添加吉凯客服“jikaikefu”索取当地业务员联系方式。



吉凯基因凭借多年在靶标筛选及验证服务领域的技术积累,建立的标准化 、工程化 、系统化的GRP平台,为中国研究型医生提供科研服务,加快科研成果转化。其中,多组学平台包含蛋白质组学平台和高通量测序平台


·蛋白质组学平台拥有多台timsTOF Pro、Exploris 480高精度质谱仪,专业领先的PaSER、Spectronaut Plusar等分析软件,提供专业的4D、DIA、TMT、PRM、磷酸化修饰组、olink蛋白质组等检测服务,强大的机器学习算法、IPA分析、蛋白基因组分析服务,系统的生物标志物、分子分型、药物靶点、基因功能研究等解决方案,真正让广大研究型医生的科研工作更省心、更省力、更高效;


·高通量测序平台分为常规测序服务和单细胞测序服务:单细胞测序拥有10x和BD两个平台,提供单细胞RNA-seq、单细胞核测序、单细胞混样RNA-seq、单细胞TCR/BCR、单细胞(RNA+ATAC)、空间转录组测序等服务;常规测序服务提供meRIP-seq(m6A/m1A/m7G/m5C 等RNA甲基化修饰测序)、acRIP-seq(ac4C RNA乙酰化修饰测序)、ATAC-seq、Ribo-seq(翻译组测序) 、mRNA/miRNA/LncRNA/circRNA-seq、全转录组测序(两文库/三文库)、外泌体miRNA/LncRNA-seq、WGS/WES、WGBS、RRBS、BSAS等服务。



1.实验技术干货

2.蛋白质组学研究

3.腺病毒简介及应用

4.临床基础研究思路解析    

5.组织特异性腺相关病毒

6.单细胞测序    

7.慢病毒实验操作指南

8.悬浮细胞专用病毒

9.靶点设计/数据库教程

10.测序技术研究与应用

11.非编码RNA研究技术与应用

12.腺相关病毒选择/应用    

13.表观遗传研究

14.文章解析

15.国自然课题设计思路解析

16.生物信息分析及工具      

17.外泌体研究    

18.肿瘤免疫研究

19.高分文章  

20.吉凯病毒神经方向应用案例 



  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved