「青蓮聚焦」蛋白相互作用研究神器——STRING
研究蛋白之間的相互作用網(wǎng)絡(luò),有助于挖掘核心的調(diào)控基因。String數(shù)據(jù)庫(kù)(https://string-db.org/)是目前數(shù)據(jù)量最豐富、應(yīng)用最廣泛的研究蛋白質(zhì)相互作用的數(shù)據(jù)庫(kù)之一。目前,String數(shù)據(jù)庫(kù)已更新到Version 11.5版本。收錄了超過14000個(gè)物種、6千多萬(wàn)種蛋白、200多億個(gè)相互作用的信息。這些蛋白質(zhì)相互作用既包括直接的物理作用,也包括間接的功能相關(guān)性。通過STRING數(shù)據(jù)庫(kù),我們可以很方便地檢索已知蛋白間的互作關(guān)系,有助于更好地理解生物體中復(fù)雜的調(diào)控網(wǎng)絡(luò)。

蛋白質(zhì)及其功能相互作用構(gòu)成了細(xì)胞機(jī)制的骨架。為了充分理解生物現(xiàn)象,需要考慮它們的互作網(wǎng)絡(luò),但關(guān)于蛋白-蛋白關(guān)聯(lián)的現(xiàn)有信息是不完整的,并且顯示出不同程度的注釋分散度和可靠性。STRING?數(shù)據(jù)庫(kù)旨在收集、評(píng)估和整合所有可公開獲得的蛋白-蛋白相互作用信息資源,并通過計(jì)算機(jī)預(yù)測(cè)來(lái)補(bǔ)充這些信息。其目標(biāo)是實(shí)現(xiàn)一個(gè)全面的和客觀的全球網(wǎng)絡(luò),包含直接的(物理)和間接的(功能)互作信息。
數(shù)據(jù)庫(kù)內(nèi)容
String數(shù)據(jù)庫(kù)中所有關(guān)聯(lián)證據(jù)主要來(lái)源于:實(shí)驗(yàn)數(shù)據(jù)、文本挖掘數(shù)據(jù)、數(shù)據(jù)庫(kù)數(shù)據(jù)、基因鄰接、基因融合、基因共表達(dá)。用戶可以單獨(dú)使用每種方法的數(shù)據(jù),也可以組合使用。該系統(tǒng)會(huì)對(duì)不同方法得到的數(shù)據(jù)給予一定的權(quán)重,給出一個(gè)綜合評(píng)分,以0-1的范圍表示該互作關(guān)系的置信度。從11.0版本開始,String支持上傳整個(gè)基因組水平的數(shù)據(jù)集,可以讓用戶把數(shù)據(jù)集可視化為互作網(wǎng)絡(luò),以及對(duì)整個(gè)輸入的數(shù)據(jù)做基因富集分析,包括GO、KEGG富集分析。
如何使用String數(shù)據(jù)庫(kù)
String數(shù)據(jù)庫(kù)不需要注冊(cè),直接打開網(wǎng)站就可以使用??梢灾苯虞斎氲鞍踪|(zhì)名稱或者蛋白序列進(jìn)行查詢。下面我們來(lái)看下String數(shù)據(jù)庫(kù)具體如何操作吧!
?1?、查詢目標(biāo)蛋白的互作信息
首先打開STRING數(shù)據(jù)庫(kù)(https://string-db.org),點(diǎn)擊主頁(yè)的“Search”。選擇“Protein by name”,輸入目標(biāo)蛋白或者基因名稱,并在“Organism”中指定物種,然后點(diǎn)擊“SEARCH”進(jìn)入下一步。

以Crot蛋白為例,下圖展示了Crot的10個(gè)主要的相關(guān)蛋白。

?2?、查詢多個(gè)已知蛋白間的互作信息
選擇“Multiple proteins”,輸入蛋白名稱,或者將所有蛋白名稱整理到一個(gè)文件,直接上傳文件即可。然后選擇物種,點(diǎn)擊search進(jìn)入下一步。

點(diǎn)擊CONTINUE,得到最終的檢索結(jié)果。

上圖中的圓圈代表每個(gè)蛋白,有些圓圈內(nèi)部有螺旋狀的三維結(jié)構(gòu),代表該蛋白的結(jié)構(gòu)已知,如果是未知結(jié)構(gòu)的蛋白,圓圈內(nèi)部為空。節(jié)點(diǎn)之間的連線表示蛋白之間的相互作用,不同顏色對(duì)應(yīng)不同的相互作用類型,既包括實(shí)驗(yàn)驗(yàn)證的,也包括數(shù)據(jù)預(yù)測(cè)的,具體作用類型可以點(diǎn)擊Legend查看。

相互作用結(jié)果展示可以在Settings中進(jìn)行自主設(shè)置,例如可選需要展示的相互作用類型(實(shí)驗(yàn)驗(yàn)證、文本挖掘等),或者根據(jù)互作得分過濾掉可信度低的互作關(guān)系等等。

此外,String數(shù)據(jù)庫(kù)還提供了互作網(wǎng)絡(luò)蛋白的功能富集分析結(jié)果,包括GO、KEGG、Reactome等。

最后可以對(duì)互作網(wǎng)絡(luò)結(jié)果進(jìn)行導(dǎo)出,點(diǎn)擊“Exports”,選擇需要下載的數(shù)據(jù)即可。

對(duì)于一個(gè)包含許多節(jié)點(diǎn)的蛋白質(zhì)互作網(wǎng)絡(luò),還可以通過Clusters頁(yè)面來(lái)挖掘其中的子網(wǎng)絡(luò)信息,本質(zhì)上是對(duì)基因進(jìn)行聚類,從中可以看出哪些基因?qū)儆谕活悺?strong>String支持kmeans和MCL聚類,聚類的結(jié)果為TSV格式網(wǎng)絡(luò)圖。

值得注意的是,點(diǎn)擊“More”,可以加入更多的蛋白網(wǎng)絡(luò)信息,連續(xù)點(diǎn)擊可以持續(xù)加入更多蛋白。點(diǎn)擊“Less”,即可刪除前面增加的蛋白。以上就是對(duì)String數(shù)據(jù)庫(kù)的全部介紹,具體信息請(qǐng)參閱官網(wǎng)說(shuō)明。

參考文獻(xiàn):
Szklarczyk Damian, Gable Annika L, Lyon David, et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets[J]. Nucleic Acids Res, 2019, 47: D607-D613.
