【Nat. Commun.】全基因组测序确定神经系统疾病的血清蛋白质组
神经系统疾病的全球负担日益增加,其诊疗急需有效的生物标志物。蛋白质的功能失调在疾病发生发展及遗传效应中发挥重要作用。本研究使用来自两个独立人群队列(N = 2893)的全基因组测序数据,对184种神经系统相关蛋白质进行蛋白质定量性状位点分析,阐明了循环蛋白质组的遗传图谱及其与神经系统疾病的关联。本研究检测到214个与107种蛋白独立相关的基因变异,其中大多数(76%)是顺式作用,包括114个未曾被鉴定过的变异。本研究用双样本孟德尔随机化的研究方法确定了血清CD33蛋白和阿尔茨海默氏症、GPNMB蛋白和帕金森病以及MSR1蛋白和精神分裂症之间的因果关系,阐明了这些蛋白的临床潜在作用并提供了药物再利用的机会。
论文ID
实验设计
实验结果
1. 蛋白质QTL的发现
经过条件检验,从184种与神经系统疾病相关的蛋白质中检测到214个独立相关的pQTL(P<1.05×10-10,参见方法),其中107种蛋白质来自荟萃分析的数据(图1和补充数据1)。pQTL位点可分为顺式和反式作用两类:顺式作用的pQTL是在蛋白质编码基因上游或下游1Mb内的变异,直接在转录水平上调节蛋白质表达,而反式pQTL通过中间体作用来调节蛋白质的表达水平。其中91种蛋白质的顺式作用pQTL有162个(75.7%),38种蛋白质的反式作用pQTL有52个(24.3%),另外共有22种蛋白质同时具有顺式和反式作用的pQTL(图2b)。
图1 来自Olink神经病学和神经系统探索小组的107种血清蛋白的pQTL信号。
a检测到的 pQTL 的 3D 曼哈顿图。x轴代表107种蛋白质,y轴代表染色体位置,z 轴表示每个关联信号的 −log10 p 值。b pQTL变异与靶蛋白基因的散点图。每个点代表一个独立的变异。顺式 pQTL 以蓝绿色显示,而反式 pQTL 以橙色显示。
图2 107种与神经系统相关的血清蛋白的总体遗传结构
a共发现214个独立变异。顺式变异被定义为位于编码靶蛋白的基因上游和下游1 Mb内的变异,而反式变异是位于该区域之外的变异。最严重后果的定义由Ensembl的变异效应预测因子(VEP)确定。在本研究的数据集中,除了错义突变,变异还包括“获得终止密码子”、“移码突变”和“剪接体变异”,而“调控区域”变异包括“3’/5’端UTR变异”、“转录因子结合位点突变”、“剪切位点突变”和“调控区域突变”,而”其他"主要由基因间和内含子变异组成。通过交叉引用其他pQTL研究中已发表的摘要统计数据来评估新颖性(补充数据2)。而已知的多效性位点不是新颖的。具有次要等位基因频率(MAF)<1%、MAF 为1-5%和MAF>5%的变异分别被定义为罕见、低频和常见变异。b检测到仅有顺式pQTL、仅有反式pQTL或两者皆有的蛋白质数量。
本研究中发现16种蛋白质只有反式pQTL,其中13种仅在多效位点具有pQTL。在已知的多效位点共发现30个变异,包括KLKB1、ABO、F12、VTN和6号染色体上的HLA区域附近或内部的变异。这些位点可影响多种蛋白质的表达水平,最具多效性的是KLKB1和ABO的位点,分别影响11和12种蛋白质。在已发表的研究中已经确定了这些pQTL,而且也影响神经系统以外的蛋白质。ABO是这些多效性位点中研究最广泛的,以其在凝血过程和ABO血型中的作用而闻名。本研究中检测到影响ADAM15、IL3RA和KIRREL2蛋白表达水平的错义突变rs8176747。rs8176747是常规用于确定血型表型的变异之一,该变异与多种疾病相关,主要与心血管相关。由于ABO等蛋白质与广泛的信号通路网络关联,其蛋白结构或表达水平的变化可能会影响多个下游底物,因而解释了它们具有多效性的原因。
本研究确定了15种蛋白质的33个基因序列变异-蛋白质水平的独立关联,以前从未研究过这些蛋白质的pQTL(表1)。对于其余的92种蛋白质,鉴定了72种新的顺式pQTL变异和15种新的反式pQTL变异,不包括已知多效位点的变异。本研究把以前的血清 pQTL 研究中 2 Mb 以内的未报告过的变异以及进行条件检验后pQTL相关性仍然显著的曾报道过的变异都定义为新发现的变异。
表1 首次分析的蛋白质的独立pQTL变异
本研究发现的8种蛋白质也在其它脑脊液(CSF)pQTL研究中有过报道。研究者在血清中重复了6种蛋白的顺式pQTL:CD33、GPNMB、LEPR、NAAA、SIGLEC-9和TDGF1。此外,还发现了CD33和GPNMB的新顺式pQTL,以及NAAA和SIGLEC-9的反式pQTL,这几种新的pQTL在CSF中未检测到。CSF pQTL的重复验证实验表明这些蛋白质在血清和CSF中的表达由相同的遗传机制来控制。
在鉴定的独立相关的pQTL中,185个(86%)是常见变异(次要等位基因频率[MAF]>5%),25个(12%)是低频变异(MAF 1-5%),4个(2%)是罕见的变异(MAF<1%)(图2a)。尽管这些蛋白质在过去的研究中已经分析过,但其中8种低频或罕见的pQTL(均为顺式作用)以前从未被报道过,这显示了使用基于全基因组测序的分析来捕获完整的MAF图谱的优势。
2. 基因表达 QTL 共定位
共定位分析用于检测两个性状的独立关联信号是否存在共同的因果变异关系。当蛋白质与基因表达水平相比较时,阳性共定位表明存在共同的调节机制,从而起到正交验证的作用。通过检测多个组织(基因型和基因表达量关联数据库的数据,GTEx)的基因表达QTL(eQTL)和神经系统pQTL的共定位,确定了与基因表达和血清蛋白表达相关的疾病组织。在所有组织中,对蛋白质表达和编码基因表达进行了顺式作用pQTL的共定位分析。64 个(69%)顺式pQTLs 是强共定位(共定位后验概率 4 [CLPP4] > 0.8,参见方法),即在至少一个组织中具有基因表达,其中全血中有11个(12%)、大脑各个部位有21个(23%)(补充数据4)。这表明对于这些位点而言,因果变异影响基因和蛋白质表达,因此支持转录调控是调节蛋白质表达水平的机制。
对于反式pQTL,基因远端的pQTL和eQTL之间的阳性共定位提高了两种基因产物映射到相同调节通路的可能性(补充说明1和补充图2)。在反式作用变异2 Mb内进行基因表达和蛋白质性状之间的共定位分析,检测到36个(75%)信号,这些信号及其侧翼序列附近至少有1个共定位,其中3个信号(6%)在全血中,30个信号(62%)在大脑中(补充数据4)。用概念验证发现了已知的受体-配体对,例如KIR2DL3和HLA-C,KIR2DL3是HLA-C的抑制受体,负责防止自然杀伤细胞杀死健康细胞。KIR2DL3(杀伤细胞免疫球蛋白样受体2DL3)蛋白的反式信号与多个组织(22个组织,CLPP4 > 0.78)的HLA-C表达共定位。
该分析还能发现了新的蛋白质关联。例如,SMPD1(鞘磷脂磷酸二酯酶,rs10745925,MAF = 0.333,P = 7.75 × 10−23,β = −0.2805,SE = 0.0285)的反式pQTL与肝脏中GNPTAB的表达强共定位(CLPP4:0.89),并在其他组织中度共定位(CLPP4 = 0.58 [食道粘膜],0.57 [胃], 0.54 [肾上腺])。SMPD1是一种参与多个细胞过程的脂质水解酶,而GNPTAB编码GlcNAc-1-磷酸转移酶的亚基,其参与甘露糖-6-磷酸(M6P)的合成。SMPD1以两种形式存在:分泌型和溶酶体型。其溶酶体型通过M6P受体途径运输,因此支持观察到的SMPD1-GNPTAB相互作用。此外,发现次要等位基因与循环SMPD1的减少和GNTABTAB表达的增加有关。这可能是M6P标记增加的结果,导致M6P不成比例地靶向溶酶体型而不是分泌型的酶。分泌型和溶酶体型SMPD1 可能在体内发挥不同的作用,分泌型的异常水平与年龄相关的神经退行性疾病有关,包括阿尔茨海默病和肌萎缩性侧索硬化症(ALS)。综上,本研究在GNPTAB鉴定了一个位点,该位点共同调节分泌型SMPD1的水平和GNPTAB的表达,确定了SMPD1相关神经系统疾病的可能病理机制。
3. 遗传力
为了估计所研究的蛋白质性状的狭义遗传性,使用GCTA GREML计算了基因组中所有遗传方差的解释比例(PVE)。使用单组分方法,WGS变异解释了血清蛋白水平的遗传方差中位数为33.3%,其中CD33具有最高的遗传力(h2 = 87.2%)。另外3种蛋白质也具有超过80%的高遗传性:TDGF1(85.4%)、VSTM1(82.8%)和LAIR2(82.3%)。相反,一些蛋白质的遗传力估计非常低(h2<5%):IKZF2(4.9%)、RNF31(4.4%)和EPHA10(0.001%)。
对于h2>80%的4种蛋白质,在多个组织中pQTLs与基因表达QTL共定位,表明这几种蛋白的变异在转录水平上进行调节,因此,观察到的高h2值可能反映了真正的高遗传力。然而,还有其他非相互排斥的原因可能导致非常高或非常低的估计值:(1)改变Olink抗体结合特异性而不是蛋白质数量的变异可能产生不准确的遗传力估计;(2)单组分GREML分析方法的各种偏差(已知和未知的),当因果变异常见时,往往会高估h2,当因果变异罕见时,往往会低估h2(补充图1)。
4. 与疾病结局的关联
为了探索pQTL的生物学相关性,本研究使用精神病学基因组学联盟(PGC)发布的数据以及来自最近大型GWAS荟萃分析的公开汇总统计数据,对神经系统相关的性状以及其他神经退行性状进行了共定位分析(补充数据5b)。本研究还进行了疼痛性状的共定位分析,这些疼痛性状与神经系统相关,例如慢性背痛和骨关节炎。共有15个蛋白质-性状配对与人类疾病信号共定位,表明这些蛋白质在疾病发生发展中发挥了作用。这些结果总结在补充数据5a中。
将本研究检测到pQTL的107种蛋白质以及206种神经系统和行为相关的性状进行双样本孟德尔随机化(MR)分析。与共定位相反,MR的目标是寻找蛋白质和神经系统表型的因果效应。使用顺式和反式作用pQTL,发现15种蛋白质与至少一种性状有因果关系,并且检测到25种蛋白质-性状配对的显著因果效应(图3和补充数据6a)。
本研究在共定位和MR分析中重复验证了蛋白质和疾病之间的多种已知关联,包括瘦素受体(LEPR)和偏头痛,LTBP3(转化生长因子β家族相关隐性结合蛋白3)和骨关节炎,FLRT2(富含亮氨酸的跨膜蛋白)和双相情感障碍,以及PLXNB1(神经丛素-B1)与PLA2G10(第10组分泌性磷脂酶A2)和精神分裂症。
该分析还确定了新的蛋白质-疾病关联。值得注意的是,血清WFIKKN1与精神分裂症之间发现了最强的因果关系(Padj = 9.12 ×10-43),迄今为止尚未发现WFIKKN1(WAP,Kazal,免疫球蛋白,Kunitz和含有NTR结构域的蛋白质1)与任何神经精神疾病相关,但在大脑(GTEx)中高表达并调节几种生长和分化因子的活性。同样,新的证据表明血清VSTM1与睡眠呼吸暂停有因果关系(Padj= 2.03 ×10-2)。VSTM1(V-set和跨膜结构域蛋白1)是一种促进辅助性T细胞(TH17)分化的细胞因子,这些细胞因子通常与继发于睡眠呼吸暂停的自身免疫性疾病有关。
本研究的首要目的是确定可用于神经系统疾病预后、诊断或治疗的蛋白质生物标志物。因此本研究重点介绍了由多条证据支持的各种潜在疾病标志物。
图3 使用双样本孟德尔随机化确定的蛋白-疾病的因果关联
研究了血清蛋白(暴露)对各种神经系统的性状(结果)的因果关系,如图的前两列所示。手动下载的汇总统计数据使用PubMedID(PMID),其他 ID 来自MRBase(https://gwas.mrcieu.ac.uk/)。“nSNP”列显示分析中使用的变异数量。“pBH”列包含每个检验的 FDR 校正(Benjamini–Hochberg) P值。仅具有一个变异的蛋白质-性状对用Wald比率法分析,具有多个变异的蛋白质-性状对使用逆方差加权(IVW)方法分析。数据表示为均值比±SEM。*表示顺式pQTL作为工具变量分析时产生的其他信号。
5.GPNMB作为帕金森病的生物标志物
本研究确定了一种顺式pQTL,它与血清GPNMB(跨膜糖蛋白NMB,rs7797870,MAF = 0.4286,P =7.01 × 10−50,β = −0.2109,SE = 0.0247)水平降低有关,且和已知帕金森病(PD)位点(CLPP4 =0.86)共定位(图4b)。在其它大型PD荟萃分析中,GPNMB被认为是PD易感基因,并且已被证明在PD患者的大脑和溶酶体功能障碍的小鼠模型中上调。除了与PD的关联外,还有新的证据表明,血清GPNMB与全血(CLPP4 =0.79)和脑组织(基底神经节CLPP4= 0.70,皮层CLPP4 =0.74,前扣带皮层CLPP4 =0.83)中的GPNMB基因表达共享因果变异。这不仅意味着GPNMB表达由pQTL转录调节,而且其在血液和大脑中的表达通过共同的机制介导。以前的研究表明,组织GPNMB能够脱落胞外结构域并进入循环系统。主要变异rs75801644解释了血清GPNMB抗体结合变异的7%。重要的是,因为目前的诊断性生物标志物主要存在于脑脊液中,而检测血清生物标志物的侵入性更小,它们通常更适合常规检测或监测疾病进展,因此血清 GPNMB 水平作为 PD 潜在标志物的鉴定意义重大。本结果还需要临床研究来评估临床转化效用。
6. CD33作为阿尔茨海默病的生物标志物
使用双样本MR验证了血清CD33(骨髓细胞表面抗原CD33)与阿尔茨海默病(AD,β = 0.0091,SE = 0.0017,逆方差-加权[IVW] Padj = 3.62 ×10−4)的关联(图3、4a)。顺式pQTL与因果变异rs2455069以及已知的AD相关位点(CLPP4 = 0.82)之间的阳性共定位进一步验证了CD33在AD中的作用(MAF = 0.3967,P = 2.03 × 10−1580,β = 1.2092,SE = 0.0142)。CD33在AD大脑中上调,与疾病严重程度呈正相关,而CD33敲除的小鼠能减少淀粉样蛋白斑块的形成。此外,CD33的顺式pQTL与全血(CLPP4 = 0.95)和大脑(小脑半球CLPP4 = 0.62)中CD33基因的eQTL共定位,表明基因和蛋白质表达的共同调节通路。
值得注意的是,遗传力分析显示血清CD33的h2值非常高(82.7%),是所有性状中观察到的最高方差比例,反映了CD33的高遗传力。在另一项研究中也观察到了类似的情况,该研究表明,CD33中最强烈的AD相关变异rs3865444解释了单核细胞中CD33表达的超过70%的遗传方差,并且不受年龄的影响。一项反向孟德尔随机化分析(以 AD 为暴露,以血清 CD33 为结局)证实 AD 与 CD33 升高的因果关系。总之,这些发现表明血清CD33水平有望成为早期AD的诊断标志物(补充说明2)。
图4 共定位图
每个图显示关联信号和−log10 P 值。pQTL 的主要变异由黑色菱形表示,而其他不同颜色的点是与主要变异连锁不平衡的变异,图例显示颜色与LD程度的关系。每个图底部的黄色显示感兴趣基因的染色体坐标位置。红色虚线显示每项研究的显著性阈值。a左图:血清CD33的蛋白质QTL信号,右图:阿尔茨海默病的GWAS信号。b左图:血清GPNMB的蛋白QTL信号,右图:帕金森病的GWAS信号。
7. MSR1与精神分裂症的因果关系
本研究通过共定位分析(CLPP4= 0.75)和双样本MR分析(BETA = -0.2205,SE= 0.0522,Wald比率Padj= 1.44 × 10−2,图 3)发现血清MSR1(巨噬细胞清道夫受体I型和II型)降低相关的顺式pQTL(rs150158578)与精神分裂症的因果关系。在精神分裂症GWAS研究中,MSR1编码基因中的变异与精神分裂症显著相关,并且与AD和PD紧密相关。
MSR1是一种在巨噬细胞表面表达的免疫调节剂。该蛋白在清除感染因子和毒性分子(如淀粉样-β蛋白、损伤相关分子模式[DAMPs] ),以及脂质修饰(如氧化低密度脂蛋白[oxLDL])方面起关键作用。MSR1介导的吞噬作用能激活促炎和抗炎反应,并且已被证明对多种疾病具有保护作用,包括细菌和病毒感染、AD、动脉粥样硬化和巴雷特食管(BE)。MSR1缺陷小鼠的大脑出现免疫反应失调和工作记忆恶化的症状。MSR1激活也会导致与败血症相关的过度炎症,并加重心脏和脑损伤。本研究观察到MSR1表达降低与精神分裂症风险增加之间的因果关系,表明MSR1具有保护作用(图5b)。
本研究还发现血清MSR1的顺式pQTL与基底神经节伏隔核(CLPP4 = 0.90)、主动脉(CLPP4 = 0.94)、胫骨动脉(CLPP4 = 0.90)和食道(CLPP4 = 0.91)(图5c)中的MSR1基因的eQTL共定位。伏隔核是大脑奖励中枢的核心,富含多巴胺能神经元,有助于研究精神分裂症和其他神经精神疾病的病理生理过程。一项大型合并症研究表明,精神分裂症患者更容易罹患冠心病、脑血管疾病和充血性心力衰竭。但本研究没有观察到血清MSR1与卒中或冠状动脉疾病(CAD)之间的共定位或因果关系。
为了进一步研究pQTL调节蛋白表达的机制,研究者查询了ENCODE(https://www.encodeproject.org/)数据库中顺式调节元件方面的数据,发现在血细胞中,连锁不平衡(LD,r2 >0.8)的三种变异,即rs15015857(rs420931、rs433235和rs59251421),分别位于具有近端增强子特征(EH38E2612565)、启动子特征(EH38E2612567)和远端增强子特征(EH38E2612573)的调控元件中。所有三种变异以及rs150158578也是全血基因型和基因表达量关联数据库(GTEx)中MSR1基因表达的eQTL。这表明pQTL是在转录水平上调节血细胞中的MSR1,可能是通过改变转录因子与启动子或增强子的亲和力调节MSR1的转录水平。此外,另外两个顺式作用的罕见独立变异(rs182190568,MAF = 0.006,P =1.44 ×10−21,BETA = −1.2568,SE = 0.1317,rs41341748,MAF = 0.0148,P = 3.18 × 10−38,BETA = −1.3351,SE = 0.1033),以及罕见变异(chr8:16090094-16150000[b38],MAF = 0.006,P =7.10 × 10−23,BETA = −1.414,SE = 0.1436),与MSR1的血清水平也显著相关(图5a),说明了MSR1遗传调控的复杂性。
图5 血清MSR1与精神分裂症的因果关系
a血清MSR1的遗传结构。三个独立变异及其连锁不平衡变异分别以橙色、蓝绿色和紫色表示,颜色的深浅不同表示LD(r2)的强度不同。罕见的缺失也以紫色表示,并且与独立变异rs182190568完全连锁不平衡。在信号图下方,使用彩色点代表与基因对应的SNV变异的位置,虚线框代表基因缺失。b MSR1的降低导致神经元损伤以及导致神经精神疾病的可能机制。c MSR1位点的关联信号图,按顺时针方向依次为血清MSR1、精神分裂症、伏隔核组织MSR1基因表达、主动脉、食道肌肉和胫骨动脉。主要 pQTL 变异用黑色菱形表示,而 LD 中的变异根据 LD 与主要变异的强度用不同的颜色区分(红色 [r2> 0.8],橙色 [0.5< r2 > 0.8],蓝色 [0.2< r2 > 0.5],灰色 [r2< 0.2])。
8. 评估药物靶点
老药新用可以大大加快对患者有益的蛋白质组学和基因组学研究成果的临床转化应用。由于超过95%药物的靶标是蛋白质,研究者试图确定本研究中包含的蛋白质是已获FDA批准的药物靶标或处于临床试验后期阶段的靶标蛋白(参见方法)。本研究中的蛋白质有23种是已批准药物的靶标。其中,17种蛋白质具有pQTL信号(补充数据7)。
这些蛋白质中有7种具有顺式作用的pQTL,与神经系统疾病共定位或具有因果关系:DDR1、IL12、NEP、CD33、DPEP1、GPNMB和LEPR(补充说明3)。值得注意的是DPEP1(二肽酶1),其表达的增加是骨关节炎和多部位慢性疼痛(MCP)的原因(图3)。DPEP1能被药物西司他丁抑制,西司他丁通常与抗生素亚胺培南联合使用作为治疗严重感染的栓塞剂。鉴于DPEP1与骨关节炎有因果关系,西司他丁可能被用于治疗骨关节炎。事实上,已有研究将西司他丁/亚胺培南组合作为膝关节骨关节炎的治疗方法,并被证明可以缓解疼痛。同样值得注意的是CD33,在AD患者中表达增加(图3、4a)。CD33已被证明是一个安全的靶标,治疗急性髓系白血病(AML)的药物吉珠单抗奥佐加米星和林珠单抗证明了这一点。在一项研究林珠单抗用于降低AD风险的研究中,抗CD33药物被证明可以强有力地降低细胞表面蛋白质的表达。因此,本研究提供了进一步的遗传证据,支持将林珠单抗用于AD治疗。
讨论
https://pubmed.ncbi.nlm.nih.gov/34857772/