臨床蛋白質(zhì)組學(xué)數(shù)據(jù)知識(shí)圖譜
網(wǎng)絡(luò)和圖表已經(jīng)成為表示連接數(shù)據(jù)的自然方式,過(guò)去十年的努力已將大量不同的信息組織為節(jié)點(diǎn)(實(shí)體)和邊(關(guān)系)的集合。由此產(chǎn)生的靈活結(jié)構(gòu),稱(chēng)為知識(shí)圖譜,可以快速適應(yīng)復(fù)雜數(shù)據(jù)及其關(guān)系,并能夠有效地使用網(wǎng)絡(luò)分析技術(shù)來(lái)識(shí)別隱藏的模式和知識(shí)。
蛋白質(zhì)組在過(guò)去的十年中已取得了長(zhǎng)足的進(jìn)步,為生物過(guò)程、細(xì)胞信號(hào)傳導(dǎo)和蛋白質(zhì)相互作用提供了越來(lái)越多的數(shù)據(jù)。然而,快速增長(zhǎng)的數(shù)據(jù)量對(duì)該領(lǐng)域提出了新的挑戰(zhàn)。高通量蛋白質(zhì)組學(xué)中一個(gè)瓶頸是難以解釋定量結(jié)果,對(duì)生物學(xué)或臨床假設(shè)的驗(yàn)證提出了考驗(yàn)。目前,僅有少數(shù)工具旨在緩解這個(gè)問(wèn)題。因此,我們需要一種集成多種數(shù)據(jù)類(lèi)型的解決方案,實(shí)現(xiàn)同時(shí)獲取分子及其對(duì)應(yīng)的疾病表型之間的關(guān)系。此外,我們需要那些缺乏專(zhuān)業(yè)知識(shí)的人提供工具,以用戶友好的方式從蛋白質(zhì)組學(xué)數(shù)據(jù)中提取高質(zhì)量信息。因此,建立一個(gè)基于知識(shí)的平臺(tái),將一系列數(shù)據(jù)庫(kù)和科學(xué)文獻(xiàn)信息與組學(xué)數(shù)據(jù)集成到易于使用的工作流程,將為發(fā)現(xiàn)科學(xué)和臨床實(shí)踐提供支持。
Matthias Mann 在2022年1月31日發(fā)表在Nature Biotechnology上的“A knowledge graph to interpret clinical proteomics data”就基于臨床相關(guān)的實(shí)驗(yàn)數(shù)據(jù)、公共數(shù)據(jù)庫(kù)和文獻(xiàn),建立了一套開(kāi)源平臺(tái):臨床知識(shí)圖譜 (CKG),目前包含近 2000 萬(wàn)個(gè)節(jié)點(diǎn)和 2.2 億個(gè)關(guān)系。CKG 結(jié)合了統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法,可加速蛋白質(zhì)組學(xué)工作流程的分析和知識(shí)挖掘。
代碼:
https://github.com/MannLabs/CKG
CKG包括幾個(gè)獨(dú)立的功能模塊:
(1)格式化和分析蛋白質(zhì)組學(xué)數(shù)據(jù)(analytics_core);
(2)通過(guò)整合來(lái)自一系列可公開(kāi)訪問(wèn)的數(shù)據(jù)庫(kù)、用戶進(jìn)行的實(shí)驗(yàn)、現(xiàn)有本體和科學(xué)出版物的可用數(shù)據(jù),構(gòu)建一個(gè)圖形數(shù)據(jù)庫(kù)(graphdb_builder);
(3)連接和查詢這個(gè)圖形數(shù)據(jù)庫(kù)(graphdb_connector);
(4)通過(guò)在線報(bào)告(report_manager)和Jupyter notebooks促進(jìn)數(shù)據(jù)可視化、存儲(chǔ)和分析。這個(gè)架構(gòu)無(wú)縫地協(xié)調(diào)和整合了數(shù)據(jù)以及用戶提供的分析。它還促進(jìn)了數(shù)據(jù)共享和可視化,以及基于詳細(xì)的生物醫(yī)學(xué)知識(shí)注釋的統(tǒng)計(jì)報(bào)告的解釋?zhuān)a(chǎn)生了臨床相關(guān)的結(jié)果。
1. analytics Core
蛋白質(zhì)組學(xué)數(shù)據(jù)下游分析的第一步需要一個(gè)全面的、多功能的統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和可視化方法的集合。該工作組選擇了Python及其相關(guān)的科學(xué)堆棧,在分析核心中實(shí)現(xiàn)的功能以統(tǒng)計(jì)和視覺(jué)數(shù)據(jù)表示為中心,涵蓋所有主要的計(jì)算領(lǐng)域,如表達(dá)、相互作用和翻譯后、基于修飾的蛋白質(zhì)組學(xué)(圖1b)。
其設(shè)計(jì)的分析核心包括數(shù)據(jù)科學(xué)管道的主要步驟:數(shù)據(jù)準(zhǔn)備(過(guò)濾、規(guī)范化、估算和數(shù)據(jù)格式化)、數(shù)據(jù)探索(匯總統(tǒng)計(jì)、排名和分布)、數(shù)據(jù)分析(降維、假設(shè)檢驗(yàn)和相關(guān)性)和可視化。分析核心整合了除蛋白質(zhì)組學(xué)之外的其他數(shù)據(jù)類(lèi)型的分析(即臨床數(shù)據(jù)、多組學(xué)、生物背景和文本挖掘)。

臨床知識(shí)圖譜架構(gòu)

CKG圖數(shù)據(jù)庫(kù)數(shù)據(jù)模型旨在整合多層次的臨床蛋白質(zhì)組學(xué)實(shí)驗(yàn),并用生物醫(yī)學(xué)數(shù)據(jù)對(duì)其進(jìn)行注釋。
2. Graphdb Builder
為了實(shí)現(xiàn)蛋白質(zhì)組學(xué)數(shù)據(jù)與其他全能實(shí)驗(yàn)或文獻(xiàn)信息的無(wú)縫注釋和整合,該工作構(gòu)建了一個(gè)能自然連接大型異質(zhì)數(shù)據(jù)的圖形數(shù)據(jù)庫(kù)。為了構(gòu)建知識(shí)圖譜,該工作首先編寫(xiě)了一個(gè)解析器庫(kù)(graphdb_builder),為每個(gè)本體、數(shù)據(jù)庫(kù)和實(shí)驗(yàn)類(lèi)型提供相關(guān)配置。這些解析器從在線資源中下載數(shù)據(jù),提取信息并生成實(shí)體和關(guān)系,兩者在蛋白質(zhì)節(jié)點(diǎn)中都可以有屬性,如名稱(chēng)或描述。解析器使用配對(duì)的配置文件,指定需要如何解釋本體、數(shù)據(jù)庫(kù)或?qū)嶒?yàn)。
一旦本體、數(shù)據(jù)庫(kù)和實(shí)驗(yàn)文件被標(biāo)準(zhǔn)化、格式化和導(dǎo)入,graphdb_builder模塊就會(huì)用一組Cypher查詢將它們加載到圖數(shù)據(jù)庫(kù)中,從而創(chuàng)建相應(yīng)的節(jié)點(diǎn)和關(guān)系(方法)。
3.Graphdb Connector graphdb_connector
提供連接和查詢CKG數(shù)據(jù)庫(kù)的功能。這個(gè)模塊依賴于Neo4j。它使用Python庫(kù)py2neo,能獨(dú)立于平臺(tái)中的其他功能,這使得與數(shù)據(jù)庫(kù)的互動(dòng)不可知,有利于適應(yīng)和擴(kuò)展。同樣,在整個(gè)平臺(tái)上用Cypher語(yǔ)言對(duì)數(shù)據(jù)庫(kù)的查詢也被定義為YAML對(duì)象,其結(jié)構(gòu)使它們可以被找到(名稱(chēng)、涉及的節(jié)點(diǎn)和關(guān)系)和被理解(描述),并易于替換。
4.Reportmanager & Jupyter notebooks
報(bào)告管理器是一個(gè)與CKG數(shù)據(jù)庫(kù)中現(xiàn)有項(xiàng)目對(duì)接的工具。這個(gè)功能模塊利用分析核心來(lái)分析項(xiàng)目數(shù)據(jù)并生成交互式圖表,然后用這些分析結(jié)果創(chuàng)建詳細(xì)的報(bào)告。新的報(bào)告管道可以用配置文件(YAML格式)來(lái)定義,描述數(shù)據(jù)處理中要使用的參數(shù),以及要執(zhí)行的分析順序。該結(jié)構(gòu)要求用戶為每個(gè)分析的配置指定要使用的數(shù)據(jù)(數(shù)據(jù)框架的名稱(chēng))、分析列表和可視化結(jié)果的圖表(分別是分析核心中的函數(shù):analytics和viz)、是否將結(jié)果存儲(chǔ)為數(shù)據(jù)框架以及分析和可視化需要的參數(shù)。
該工作將 Jupyter notebooks作為CKG平臺(tái)的另一個(gè)組成部分,主要是以下三個(gè)方面上因素上的考慮:(1)作為測(cè)試和開(kāi)發(fā)新的分析和可視化的平臺(tái);(2)解釋如何使用CKG的Python庫(kù);(3)能作為已發(fā)布的案例研究進(jìn)行再分析的資源庫(kù),可以共享、復(fù)制和重用。

report_manager 模塊包括一組儀表板應(yīng)用程序
參考文獻(xiàn)
Santos A, Cola?o AR, Nielsen AB, et al. A knowledge graph to interpretclinical proteomics data. Nat Biotechnol. 2022;
10.1038/s41587-021-01145-6.doi:10.1038/s41587-021-01145-6.