【Lancet Digit Health】Olink蛋白组学结合AI赋能大型队列解码疾病先兆

首页    应用案例    OLINK队列研究应用案例    【Lancet Digit Health】Olink蛋白组学结合AI赋能大型队列解码疾病先兆

研究团队

Claudia Langenberg教授为英国剑桥大学伦敦玛丽女王学院(Queen Mary University of London, MRC)流行病中心负责人,2022年被任命为玛丽女王学院新成立的精准健康大学研究所(Precision Health University Research Institute, PHURI)主任,主要研究方向为分子流行病学,聚焦于糖尿病和相关代谢紊乱的病因学及机制,通过整合大规模基因组、蛋白组及代谢组等多组学数据,研究蛋白基因组与疾病表型间的因果相关性和特异性。血浆蛋白质组技术作为基因组和表型组间的「桥梁」,具有确定新的疾病过程的潜在功能。将具有互补性的蛋白质组学技术与基因组学整合,即使采用中等规模的样本,也可以识别出代谢疾病的全新介质,并具有治疗干预疾病的潜力。

 

研究背景

基于血液组学,特别是蛋白组学,展示了在预测疾病发生和进程方面的巨大潜力,但往往缺乏系统性和严格的大规模测试。与基因组不同,作为信息传递核心层的蛋白组会随着早期疾病的发展而动态变化。循环蛋白因其宽动态范围、较长半衰期、主要内源性来源以及易于获取等特性,成为了疾病预测、诊断和预后的优选生物标志物然而,现有的临床标志物多源自针对性研究,缺乏与其他组学生物标志物的系统性比较或结合。高通量蛋白组学技术的日益普及与AI机器学习方法的引入,使得对蛋白组平台的系统性、数据驱动研究成为可能,为发现新生物标志物和评估其在不同疾病中的特异性或共享性提供了新途径。

新文速递

Claudia Langenberg教授团队近期又在国际期刊Lancet Digit Health(IF =23.8)发表了基于欧洲前瞻性癌症调查-诺福(EPIC-Norfolk)队列的一项研究成果:这是一项大规模队列的多疾病研究,研究团队利用Olink Explore 3072平台,旨在识别23种疾病和全因早逝的稀疏蛋白质特征;结果显示,仅5种蛋白质的预测模型超过了大多数疾病的多基因风险评分的预测性能,并且与基本患者信息模型结合后,进一步提高了7种疾病的预测性能10种蛋白质稀疏共病特征改善了7种疾病预测,并超越了患者信息模型,实现了与疾病特异性特征相似的性能;该研究展示了大规模蛋白组学在开发稀疏特征以改进预测策略方面的潜力,包括用于预测多种疾病的常见生物标志物panel,并为未来研究疾病原因提供了指导。
研究设计
多项病例-对照研被设计并嵌套在EPIC-Norfolk研究中,包括随机抽取的对照亚队列(n=1,759)和在随访10年内发展出10种较不常见疾病之一的参与者(n=989)。通过Olink Explore 3072平台对两个独立批次的样本(nset1 =1,040, n set2=1,708)进行蛋白组学分析,检测了2,923种独特蛋白标志物。同时,采用Affymetrix UK Biobank Axiom Array进行全基因组基因分型。使用AI机器学习框架来推导出23种单独疾病和全因早逝发病的稀疏预测蛋白质模型,并从2,923种血清蛋白中推导出可预测多种疾病的独特通用稀疏共病特征模型,通过特征选择和交叉验证进行模型测试。
试验设计

研究解读

基于之前开发的识别24种突发结果的稀疏预测蛋白集合模型,研究团队进一步用两个批次的蛋白组数据来设计独立的特写选择验证集整个数据集分成两个独立的特写选择(70%,n=452-821)和验证(30%,n=194-352)子集,并使用最小绝对收缩和选择算子回归在200个子样本上进行特征选择。仅使用前5种蛋白的模型在大多数疾病中的表现优于使用所有2,319种蛋白质的模型,中位C-index提高了0.04。在研究的11种疾病中,仅使用蛋白质模型(中位C-index为0.74,IQR 0.66–0.80)与基本患者信息模型(中位C-index为0.71,IQR 0.65–0.75)表现相当或更优。此外,仅蛋白质模型在17种疾病的预测上还优于包含多达722万个遗传变异的多基因风险评分(PRS)模型,中位C-index差异为0.13(IQR 0.10–0.17)。

研究进一步表明,添加前5个蛋白质到患者信息模型可以改善7种疾病的预测性能(中位C-index为0.82,IQR 0.77‒0.82):II型糖尿病、前列腺癌、全因早逝、COPD、肺癌、肾脏疾病和心力衰竭。最大的改进体现在II型糖尿病(C-index提高0.11)、前列腺癌(0.10)和全因早逝(0.08)。

23种疾病和全因早逝的蛋⽩质⽣物标志物的交叉验证预测性能

研究还探索了是否可以得出一个独特通用稀疏蛋⽩质组学特征,用于同时预测多种疾病,这将提供一种具有更高临床转化潜⼒的经济有效策略。在21种单独发病疾病中,前10种共病蛋⽩质的C-index中位数为0.72(IQR 0.64‒0.76)。平均而⾔,这高于疾病特异性蛋⽩质特征的表现,这可能表明存在共同的疾病机制。这10种蛋白质在6种疾病和全因早逝的预测性能上超过了患者信息模型(C-index变化范围0.02–0.06;中位C-index 0.81, IQR 0.80–0.82)。

10种共病蛋⽩对20种疾病和全因早逝的交叉验证预测性能

研究发现,基于高于固定阈值的标准化选择分数来选择可变数量的蛋白质作为预测因子(范围从1到16个蛋白质),其C-index与仅选择5个蛋白质时相似(r=0.99)。在最佳预测因子中,除了已确立的临床生物标志物外,还包括一些迄今为止在文献中很少报道的强预测性蛋白质,如肺癌和慢性阻塞性肺病(COPD)中CXCL17和肾病中的LMOD1。总体而言,在来自疾病特异性特征的前20种蛋白标志物中,这些蛋白质的表现至少与患者信息模型相当或有所改进,其中有26种蛋白在两种或多种疾病之间共享。尽管结果表明与其他组学(如代谢组学)相比重叠较少,这也进一步佐证某些特定蛋白在不同疾病间存在共性的重要性。

在蛋白质模型至少达到或超过患者信息模型性能的疾病中,前20种蛋白质的标准化特征选择得分

写在最后

预测未来疾病风险能够实现早期干预,并针对高危人群和个人制定预防策略。本研究通过采用Olink蛋白组学研究系统且前瞻性地评估了血清蛋白对于提高疾病风险预测能力的潜力,为如何有效整合蛋白质组学、健康记录及机器学习以改善疾病预测提供了深刻见解, 并为不断增加的大规模队列研究利用蛋白组图谱取得进一步进展提供了指导。

尽管过去几年遗传和多基因预测备受关注,但本研究显示蛋白组学模型通常优于基于静态遗传信息的模型。反映了循环蛋白质在捕捉当前健康状况和作为早期疾病检测因子方面的潜力,它们可能对病理过程敏感,甚至在出现明显症状之前。相比之下,多基因风险评分(PRS)是静态的,无法捕捉疾病过程对环境和生活方式风险因素的响应阶段。同时也表明大规模蛋⽩组学平台有助于制定系统且无假设的⽣物标记物发现策略,有望改善⽣物标志物的发现和预测策略。

参考文献:
1.  Carrasco-Zanini J, et al. Proteomic prediction of diverse incident diseases: a machine learning-guided biomarker discovery study using data from a prospective cohort study. The Lancet. Digital Health,(2024)6: e470–79.

 

如有需求Olink服务需求,欢迎咨询Olink认证服务商—中科普瑞

电话:021-58086128

邮箱:market@sinomics.com

 

 

2025年1月8日 11:02
浏览量:0