NBT|人类蛋白质组的共调控图谱

2020-04-03 09:30:32, 冯晋文 上海中科新生命生物科技有限公司


31.864

质谱多组学

Co-regulation map of the human protome enables identification of protein functions.

Nature Biotechnology  IF=31.864

本期为大家带来的是一篇于今年11月发表在Nature Biotechnology上的文章,本工作由来自英国爱丁堡大学、剑桥大学,柏林工业大学等几个团队共同完成。

135编辑器

摘要

作者利用同位素标记鉴定了294个生物扰动条件下的10,323种蛋白,然后将自己的数据同PRIDE结合生成了ProteomeHD数据库,再利用treeClust算法找到了蛋白质之间的共调控关系,生成了人类蛋白质组共调控图谱。共调控图谱揭示了没有物理接触或者是共定位蛋白的相互作用,同时也对传统方法很难去研究的微蛋白进行了功能预测。

正文

功能基因组学会使用关联推断的途径来确定基因或者蛋白质的功能。但这么做会因多种方法和抗体的使用会引入干扰。同时,对同一生理功能起作用的蛋白质并不一定存在物理接触或者共定位。

最常见的蛋白质注释的方法是基因表达谱分析。一般来认为共表达基因具有相同的生理功能,因此我们能够来推断未知蛋白的生理功能。但是此前基于共表达基因的推断有可能导致不准确的结果,其中一个原因是此前的共表达数据是在mRNA水平上的测量,忽略了蛋白质合成和降解的作用。

蛋白质的丰度同mRNA的丰度之间的关系随着基因的不同而改变。进一步的,mRNA水平的蛋白质的表达之间存在根本性差异。比如很多共表达的mRNA是因为染色体接近,但并不存在功能相似性。而且空间上接近,功能上不同的mRNA的共表达在蛋白质水平上不一定能表现出来。遗传变异对蛋白质含量的表达影响远低于mRNA水平。因此,利用蛋白表达谱来预测基因功能优于mRNA表达谱。

本文中作者利用了大规模定量蛋白质组学和机器学习技术来生成蛋白质组共调控数据集,为人类蛋白质功能预测提供了资源。

结果

首先作者创建了ProteomeHD数据集。同之前的人类蛋白质草图数据库不同的是,作者不是按照组织或者亚细胞结构来进行分类,而是按照不同的蛋白质组状态来进行分类。之所以称为ProteomeHD-高清蛋白质组数据集,是因为第一、作者使用SILAC来对蛋白质组数据进行量化;其次,作者发现随着数据集中的实验增多,能看到的蛋白质组调控关系也越来越准确。

作者将获得的5,288次质谱数据整合到同一个矩阵中,共包含来自294种生物学条件的9,987个基因的10,323个蛋白质。上述实验中,作者实验室共进行了其中80种条件,其余的数据是来自PRIDE的公开数据。60%的实验为全细胞提取,其余的是在生物扰动后分级进行测量的。(Figure 1a)

Fig.1

在ProteomeHD数据集中,每个蛋白质鉴定到的肽段平均为28.4个。在294种条件中平均定量到3,928种蛋白质。再接下来的蛋白质关联分析中,作者使用了至少在95个实验中出现的5,013种蛋白质,这些蛋白平均在190个实验里被定量到。(SFig 1)

SFig.1

作者发现具有同一作用的蛋白质具有类似的表达模式模式(Figure 1b)。在此前的研究中,共表达程度是利用Pearson系数来确定,但是Pearson系数对异常值非常敏感,所以作者也考虑了Spearman系数和bicor系数。对Reactome的PPI金标准数据进行评估,作者发现Spearman系数比其他略好,但是并未发现明显差异。(Figure 1c)

接下来作者基于无监督机器学习的方法来确定共表达测量。作者利用了treeClust算法,一种基于决策树的算法来计算,作者发现treeClust明显优于上述三种系数。在对treeClust相似性进行了拓扑测量叠度优化后,作者将treeClust打分称为共同调控分数。这种分数越高,反映出蛋白质越相似。利用这个分数,作者在ProteomeHD数据中确定了62,812个共调控蛋白质对(Figure 1d)。同Pearson系数相比,Pearson系数排名前0.5%蛋白质对,也被认为强关联的。这些共调控蛋白都富集在同一个蛋白复合体、催化连锁代谢反应的酶和同一个亚细胞结构中(Figure 1e)。在数据集中大多数蛋白至少被一个蛋白质调控,大约有1/3的具有五个以上的共同调控蛋白(Figure 1f)。在具有十个以上共调控组的蛋白里,99%都富集在同一个通路里(Figure 1g)。

在识别PPI上,作者比较了treeClust和Jaccard系数的区别,发现Jaccard系数和treeClust一样都可以用来检测功能相关的蛋白质,但Jaccard精度低于treeClust。作者生成了一组人工数据,发现treeClust倾向于选择强线性关系。但是作者对ProteomeHD数据集进行了检测,发现ProteomeHD中的数据都是线性的,因此作者认为运用treeClust是没有问题的。(Figure2)

Fig.2

作者利用t-SNE可视化了蛋白质蛋白质共调控矩阵,发现t-SNE图中距离较近的蛋白即共调控蛋白质同功能密切相关。在ProteomeHD中有301种未表明功能的蛋白质,其中51%与一个以上的被完全注释的蛋白共调控,中位共调控蛋白数目为9。这使得对未知蛋白功能注释成为可能,同时通过扰动的蛋白质组发现,ProteomeHD方法能够识别更多的微蛋白。(Figure 3)

Fig.3

作者建立了网站https://www.proteomehd.net/ 提供给用户使用。网站中可以对感兴趣的蛋白进行搜索,同时可以手动调控阈值来确定GO的富集分析。这些共调控数据已经整合到STRING第十一版本。

讨论

ProteomeHD通过同机器学习相结合,为功能基因组学方法库提供了大量的共调控蛋白资源。与传统的基于相关性的方法相比,通过treeClust推断蛋白质的关联性可以提高从同一数据集中识别功能相关相互作用的准确性。t-SNE可视化的蛋白质与蛋白质之间的关联对于研究相关蛋白复合物之间的联系可能很有用,为揭示尚无详细预测的未表征蛋白质的提供线索。作者建立了https://www.proteomehd.net/,支持研究人员探索多种尺度的共调控数据,以验证现有假设或创建新假设。

作者认为,利用300个定量蛋白质组,同时基于机器学习的判读,就可以建立许多人类基因之间的功能联系。(关于机器学习,大家可以通过之前这篇文章了解更多:【业界领先】新产品重磅发布:标志物筛选“黑科技”—集成机器学习或者“机器学习”果然是照妖镜:预测皮肤真实年龄)这样的发现对较难发现的蛋白质注释非常有意义。

同时,作者发现添加更多的蛋白质组学数据,可以进一步提高准确性和覆盖范围。作者通过随机删除了ProteomeHD中5%,10%或15%的数据点。发现与删除的数据量成比例地降低了注释性能,表明ProtomeHD尚未达到饱和状态。因此对其ProteomeHD数据集进行扩展将进一步增强其性能。比如结合其他类型的蛋白质组学实验,比如亲和纯化实验或整个PRIDE资料库。

但是,将ProteomeHD限于扰动实验是有好处的。它支持从蛋白质之间的关联来进行的生物学解释:即使连接的确切性质是未知,在同一细胞对不断变化的生物学条件使得调控的蛋白得以发现。蛋白质共调控分析类似于遗传相互作用筛选,将蛋白质共调控与单纯不考虑扰动条件的蛋白质共变化或共表达区分开。不考虑扰动条件的共变化和共表达会在蛋白质组学数据的混合中找到蛋白质联系,对其生物学联系可能无法进一步理解。

总之,蛋白质共表达分析可识别蛋白质之间的功能连接,其准确性和灵敏度远高于传统的mRNA共表达分析。这对于占人类基因的一半组成型活性基因可能尤其重要。随着越来越多的蛋白质组表达数据可用,蛋白质共表达分析将在基因功能注释方面发挥更大作用。

微信公众号

中科新生命

多组学质谱解决方案领航者


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved