人群研究必看！临床大队列诊断标志物发现解决方案来袭

发布时间： 2021-04-01 17:05 来源：上海中科新生命生物科技有限公司

摘要：代谢组学的快速发展为精确医学新突破提供了革命性的方法，与基因组相似，“代谢组”描述的是细胞或机体内的所有小分子（<1.5 kDa）的组成。代谢产物不仅指细胞代谢的内源性副产物，还包括来自饮食、环境和肠道菌群的外源性的生物活性物质。代谢物作为基因表达和环境暴露的下游终产物，在基于人群研究的临床生物标志物的发现提供了一种新思路。

临床代谢组标志物发现研究流程

代谢组学中发现和验证与人类疾病相关的疾病诊断、预后或预测性生物标志物的数据流程通常包括：实验设计、样本制备和质谱数据采集、数据处理、数据整合分析、复杂体系中的代谢物鉴定、生物学意义解释、标志物验证和临床试验等。临床标志物的发展对促进个体化医学、药物开发和早期发现遗传病和慢性病的进展具有重要意义。

Source：The Britz-McKibbin Laboratory

图1 临床代谢组标志物发现研究流程

临床大队列研究意义及挑战

图2 临床大队列研究意义及挑战

数据采集质量控制

质量控制是代谢组分析的第一要素，用来保证代谢组学测定的数据的重复性和精确性。MS定量分析时，使用内标化合物用于控制样品提取、LC进样和电离等过程种的误差。内标选择规则如下：

图3 内标选择规则

数据处理——数据校准算法解决大样本批次效应

由于色谱系统和质谱与样品的长时间接触，随着分析样品的增多色谱柱和质谱会逐步的污染，导致信号的漂移。质控样本被用于评估整个质谱数据在采集过程中的信号漂移，这些漂移能够被基于QC的算法所识别、校正，提高最终获得的数据质量。使用支持向量回归(Support vector regression, SVR) 或基于随机森林系统误差剔除的归一化方法 (Systematical error removal using random forest, SERRF)对大样本数据进行校正。SVR是SVM（支持向量机support vector machine）对回归问题的一种运用，通过找出一个超平面，使得所有数据到这个超平面的距离最小，与线性模型类似，对区域外的点进行回归，希望这些残差（ζ）最小。

SERRF采用的是随机森林的方法来对代谢组学数据进行归一化，是一种非参、非线性的方法，具有不容易过拟合的优点，利用随机森林的算法，SERRF自动选择相关的QC样本中的化合物来归一化系统误差。不同算法具有不同的特点。以下展示了中科新生命大批次样本用2种算法校正后的结果， 2种算法均可获得较好的信号漂移校正效果。

图4 校正前后PCA plot

图5 校正前后RSD分布

图6 校正前后RSD百分比

标志物筛选创新研究点：脂质组+非靶代谢描绘总体代谢谱

除了常规极性代谢物外，脂质是一类参与调节多种生命活动的重要非极性小分子，脂质代谢的异常可能引发诸多疾病，如肥胖、动脉硬化等。脂质组学通过研究脂质在生物样本中的组成、结构特点及量的变化等方式，来阐明脂质在细胞水平上代谢方式，研究脂质分子在各种生命现象中的作用机制，是代谢组学的一个重要分支。

Mik A , Kaczynski Z, et al. 2017.

图7 脂质组学应用于多种疾病研究

中科新生命可以提供优质的脂质组学服务，对临床样本脂质分子进行大规模检测，最多同时定性定量2000+脂质分子，结合非靶向代谢组学描绘样本中小分子代谢物的总代谢谱。

代谢数据挖掘

1）集成机器学习构建具有预测样本组别的模型

临床生物标志物的筛选、及诊断panel优化构建是临床应用转化前期基础，如何高效从海量的组学数据中获得高灵敏、高稳定、高准确率的潜在生物标志物？也是利用高通量组学技术进行标志物筛选所面临的主要挑战之一。在机器学习算法中，特征选择算法被广泛应用于潜在的生物标志物筛选。流程概览如下：

图8 中科新生命集成机器学习分析流程

机器学习算法中ROC (Receiver Operating Characteristic) curve是一个画在二维平面上的曲线，平面的横坐标是 FPR (false positive rate)，纵坐标是 TPR (true positive rate)。对某个分类器而言，我们可以根据其在测试样本上的表现得到一个TPR和FPR点对，这样，此分类器就可以映射成ROC平面上的一个点。基于样本中训练集和测试集候选Biomarkers的表达量，利用构建的诊断模型进行ROC分析，进行诊断模型的评价，AUC (Area Under roc Curve) 是一种用来度量分类模型好坏的一个标准，通常，AUC的值介于0.5到1.0之间，较大的AUC代表了较好的performance。

图9 集成机器学习ROC曲线、AUC值示例

2）多组学联合分析

单一组学分析方法可以提供不同生物学过程的信息。但是，这些分析往往有一定的局限性，多组学方法整合多组学信息可以为生物机制提供更多证据，从深层次挖掘候选关键生物步骤。通过将代谢和转录、蛋白等不同层面之间信息进行整合，构建调控网络，深层次理解各个分子之间的因果关系，从而更深入的认识复杂性状的分子机理。如将转录组、代谢组、宏基因组数据进行整合，构建多组学相关网络可以帮助揭示宿主-菌群相互作用机制：

Mars R , et al. 2020.

图10 肠道菌群关键基因和关键代谢物相关性

标签：	蛋白组代谢组多组学中科新生命临床大样本生物标志物

上海中科新生命生物科技有限公司

资质证书更多>>

人群研究必看！临床大队列诊断标志物发现解决方案来袭