【Nature Biotechnology】Olink蛋白质组学数据被临床知识图谱CKG平台收录 (Insight限时申请)
研究背景
网络和图形已经成为生物学中代表连接数据的自然方式。将大量的不同信息组织成节点(实体)和边(关系)的集合。由此产生的灵活结构被称为知识图谱,它能迅速适应复杂的数据及其关系,并能有效利用网络分析技术来识别隐藏的模式和知识。该工作将这一概念带入一个新的方向,并描述了一个临床知识图谱(Clinial Knowledge Graph, CKG),该框架在整合相关生物医学数据库和从科学出版物中提取的文本的同时,促进了蛋白质组学与其他全能数据的协调,它构成了一个由数百万个节点和关系组成的图数据库。它允许有临床意义的查询和先进的统计分析,实现自动数据分析、知识挖掘和可视化。
文章解读
Matthias Mann团队今年初在Nature Biotechnology 杂志 (IF = 41.667)上发表题为「A knowledge graph to interpret clinical proteomics data」的文章,针对生物医学数据数量大、种类丰富而带来的数据整合困难,提出了一个开源的临床知识图谱平台CKG。该平台结合了统计和机器学习算法,加速了蛋白质组学工作流程的分析和解释。相比于其他解决方案,CKG平台显得更加友好,将一系列数据库和科学文献信息与omic数据整合到一个易于使用的工作流中,显著增强了科学研究和临床实践的能力。
临床知识图谱CKG模块及功能
CKG运作模块建立在科学的Python库上,具有可靠性和可维护性。整个系统是开源的,并取得了MIT许可。在标准工作流程和基于Jupyter笔记本的互动探索中实现可重复、可再现和透明的数据分析。CKG包括四个独立的功能模块:1)格式化的分析蛋白质组学数据(analytics_core);2)通过整合来自一系列可公开访问的数据库、用户进行的实验、现有本体和科学出版物的可用数据,构建一个图形数据库(graphdb_builder);3)连接和查询这个图形数据库(graphdb_connector);4)通过在线报告(report_manager)和Jupyter notebooks促进数据可视化、存储和分析。
Insight 蛋白组学可视化分析平台
解决方案不应该比问题更复杂,Insight 蛋白组学可视化分析平台以此为出发点。在对CKG工作表示祝贺的同时,我们并没有忘记医学专家对于传统蛋白质组学的数据的复杂感受。如您所知,Olink蛋白质组学的数据原始格式为表达矩阵,提供了蛋白质组学领域前所未有的数据友好度。