基于人工智能筛选蛋白标志物，助力精准医疗

2024-03-09 09:52:01 北京青莲百奥生物科技有限公司

机器学习的最新进展为精准医学和转化研究提供了信息。计算病理学将计算机视觉方法应用于临床和病理图像，并从基于神经网络的深度学习技术中收益匪浅。卷积神经网络（CNN）模型可以稳健地预测特定癌症类型中常见的突变基因。然而，目前还未有研究报道将丰度的蛋白组学数据与组织特征联系起来。现在也很少有弱监督深度学习研究将病理学专业知识整合到研究设计和解释中，导致模型可能缺乏人类可解释性或与肿瘤生物学的明确相关性。

2023年9月，纽约大学格罗斯曼医学院的研究团队在期刊Cell Reports Medicine（IF=14.3）发表题目为《Deep learning integrates histopathology and proteogenomics at a pan-cancer level》的研究论文，该研究引入一种开创性的方法，将病理成像与转录组学和蛋白质组学相结合，以确定与癌症关键临床结果相关的预测性组织学特征。

文章题目：Deep learning integrates histopathology and proteogenomics at a pan-cancer level

发表期刊：Cell Reports Medicine

影响因子：14.3

发表时间：2023年9月

发表单位：纽约大学格罗斯曼医学院

研究策略

该研究利用卷积神经网络模型，对来自癌症基因组图谱（TCGA）和临床蛋白质组肿瘤分析联盟（CPTAC）的组织样本图像进行了处理和分析。建立了来自CPTAC的657名患者包含2,755张H&E染色切片的图像库，涵盖了六种癌症类型[肾透明细胞癌(CCRCC)，头颈部鳞状细胞癌(HNSCC)，肺鳞状细胞癌(LSCC)，肺腺癌(LUAD)，胰腺导管腺癌(PDA)，子宫体内膜癌(UCEC)]，以有效区分肿瘤与正常和起源组织。

结合转录组学和蛋白质组学，确定了驱动预测性组织学特征的通路水平和细胞过程。通过使用TCGA确认了模型的泛化能力和可解释性。

利用先进的图像处理和机器学习技术，对癌症组织样本进行了深入的分析，旨在通过组织图像特征来预测临床特征和生物标志物，从而推动癌症诊断和治疗的进步。

图1 工作流程

研究结果

一、组织源模型性能和组学联合

尽管已经有许多针对多种恶性肿瘤的分子靶向治疗，但肿瘤的组织来源仍然是选择治疗方案和基于肿瘤分级和分期的预后预测的重要因素。该研究通过正常组织和肿瘤样本进行模型训练，来预测肿瘤的组织来源，并建立了全球范围内来自不同器官系统的癌症变异的基线。模型表现异常出色，AUROC值（曲线下面积）达到0.949到0.995（图2A, 2B）。还通过tSNE（t-Distributed Stochastic Neighbor Embedding）技术可视化了从最后卷积层学习到的潜在特征，以推断不同组织类型之间的分离程度（图2C, 2D）。模型在TCGA（The Cancer Genome Atlas）样本上进行了验证，包括FFPE（福尔马林固定石蜡包埋）和新鲜冷冻切片图像。模型在FFPE切片上的泛化能力更好，这可能与冷冻切片样本制备过程中组织特征的已知人为降解有关。

为了研究驱动预测形态改变的转录组和直接相关组织的蛋白组机制，应用稀疏CCA（Canonical Correlation Analysis）统计方法，用于在基因/蛋白/图像空间中提取高维旋转（canonical variates），UCEC和LUAD样本的投影值表现出最大程度地相互关联。

图2 组织源模型性能和组学联合

二、肿瘤发生模型的特征可视化和交叉测试

利用深度学习CNN模型对肿瘤和正常邻近组织（NAT）进行区分。首先通过训练一个单一的泛癌症成像模型来识别区分肿瘤和NAT样本，然后为每种癌症类型训练了单独的模型，以隔离各个器官系统特有的肿瘤发生特征。这些模型在分类肿瘤和NAT时取得了很高的准确率，实现高AUROC的泛癌症模型，并在TCGA测试集验证了模型的有效性和可靠性。

采用了类激活映射（CAM）来展示深度学习模型的关注点，发现模型在全切片水平聚合时，通常更关注肿瘤区域而非正常区域。还提取了测试集样本在倒数第二层的激活图，并进行了降维处理以显示二维tSNE图。观察到肿瘤样本聚类在顶部，而正常样本聚类在底部，且预测标签和真实标签相关性良好。通过审查与tSNE图上的点相对应的H&E切片，证实了肿瘤组织簇准确地捕捉到了常见的肿瘤发生特征。

图3 肿瘤发生模型的特征可视化和交叉测试

此外，还评估了泛癌症模型在分子特征方面的表现，通过成像和转录组或蛋白质组特征的投影值分析，发现正常和肿瘤样本之间有明确的区分。对转录组和蛋白组的通路分析，特定基因和蛋白质富集于细胞周期DNA复制和双链断裂修复相关通路。另一个典型变量显示了LSCC和LUAD与NAT之间的明显分离，以及HNSCC肿瘤与NAT之间的中度分离。这些结果证明成像模型已经学会了代表可解释生物学信号的特征，这些信号与可识别的H&E特征相对应，而不是随机噪声的结果。

图4 与肿瘤发生相关的主要典型变量

三、临床与组织病理学特征

分级和分期是关键的临床预后指标，可能与驱动肿瘤侵袭性行为的潜在分子变化有关。通过训练模型来预测病理分级(1类任务)和分期(2类任务)(图5A)，模型的预测能力通过AUROC值来评估。对于分级预测，最佳单片AUROC值分别为0.883和0.799 。对于分期，最佳单片AUROC值分别为0.783和0.727。研究发现，TCGA等级数据不适用于测试模型的普遍性，进一步使用稀疏CCA来识别生物相关性，在转录组学和蛋白质组学水平上，染色体分离和减数分裂信号之间的信号传导最强，具有较高的分级和分期。此外，还识别出一个与平面细胞极性相关的典型变量，这可能是导致高分级肿瘤中细胞迁移和增殖增加的原因之一。

图5 模型性能及等级和阶段的多组学评价

四、生物标志物

研究通过测试模型从组织病理学图像预测常见基因组生物标志物的能力，模型能够准确预测包括EGFR、TP53、KRAS、STK11和PTEN在内的特定突变（图6A），这表明该模型可以用于区分携带常见突变的肿瘤。在进一步的探索中，使用tSNE降维技术预测突变，发现不同类型的突变与特定的组织病理学特征相关（图6B）。例如，TP53突变与高密度、小细胞的肿瘤特征相关，而KRAS突变则与较大的细胞核、开放的染色质和腺体特征相关。

最后，通过盲法病理学审查验证模型预测的生物学相关性。发现，TP53突变的样本通常具有密集的细胞、淋巴细胞浸润、高有丝分裂率、增加的核质比等特征，这些特征与模型预测的结果一致。

图6 生物标记物的性能、可视化和特征提取

五、Panoptes Web

为了促进临床和转化研究工作流程的整合，研究团队开发了一种直观的可视化工具Panoptes Web (http://panoptes.fenyo.cloud)，供临床医生、科学家和读者使用独立的H&E图像评估模型的性能，直观可视化预测结果（图7A）。结果绘制在概率得分和课堂结果的直观方框图中，以及基于web的查看器，详细说明逐块预测（图7B）。

图7 Panoptes Web

研究结论

本研究通过深度学习的方法，成功地在泛癌症层面上整合了组织病理学与转录组学和蛋白质组学数据，揭示了潜在联系和互补性。通过构建多模态深度学习模型，证明了结合这两种类型的生物标志物可以显著提高癌症分类和预后的准确性。还开发出了可以帮助临床医生评估和预测癌症分子和临床结果的新型工具Panoptes Web。

关注青莲百奥