不同蛋白數(shù)據(jù)庫之間的id轉(zhuǎn)換數(shù)據(jù)庫

一 起因
對于現(xiàn)在需要研究蛋白質(zhì)組學(xué)的人而言,特別是研究PPI的人而言,不同的蛋白數(shù)據(jù)庫間名字的差異是一件非常讓人困惑的事情。明明是同一個蛋白,卻存在許多不同的姓名。這也導(dǎo)致了數(shù)據(jù)間的共享利用成為了一個小小的麻煩事情。因此,筆者將幾種常用的數(shù)據(jù)庫id之間的轉(zhuǎn)換一次說清,方便各位讀者避開這些坑。
二 調(diào)用
為了方便進行統(tǒng)一id的轉(zhuǎn)換,我們將以uniprot的蛋白id作為所有數(shù)據(jù)庫的參考id。而取這一參考id的原因則是因為uniprot數(shù)據(jù)庫應(yīng)該是目前已知的包含蛋白信息最全的數(shù)據(jù)庫了。
至于需要轉(zhuǎn)換的數(shù)據(jù)庫則太多啦,因此,本文將以最常見的蛋白互作數(shù)據(jù)庫STRING數(shù)據(jù)庫為例,介紹如何進行id轉(zhuǎn)換。
STRING數(shù)據(jù)庫簡介:在分子生物學(xué)中,STRING(用于檢索相互作用基因/蛋白質(zhì)的搜索工具)是已知和預(yù)測的蛋白質(zhì)-蛋白質(zhì)相互作用的生物數(shù)據(jù)庫和網(wǎng)絡(luò)資源。STRING 數(shù)據(jù)庫包含來自眾多來源的信息,包括實驗數(shù)據(jù)、計算預(yù)測方法和公共文本集合。它可以免費訪問,并且會定期更新。該資源還使用許多功能分類系統(tǒng)(如 GO、Pfam 和 KEGG)來突出用戶提供的蛋白質(zhì)列表中的功能豐富。最新版本 11b 包含來自 5000 多種生物的約 2450 萬種蛋白質(zhì)的信息。STRING 由學(xué)術(shù)機構(gòu)聯(lián)盟開發(fā),包括 CPR、EMBL、KU、SIB、TUD 和 UZH。
實際上,STRING數(shù)據(jù)庫對于蛋白的命名有專門的id(以ENSP開頭)

但是呢,uniprot蛋白的id則是以字母加數(shù)字的方式來表示的(如下圖)。

那么,接下來,我們就以人類蛋白為例,展示如何將STRING數(shù)據(jù)庫中ESPN開頭的蛋白與uniprot的蛋白聯(lián)系起來。
首先,我們在Popular organisms選項中選擇好‘Human’。隨后點擊download選項。

隨后,可以看見默認的選項卡中format選項是fasta,這也意味著下載的數(shù)據(jù)中僅僅包含fasta相關(guān)信息,但是呢,我們需要的信息是uniprot id與STRING id的對應(yīng)關(guān)系,那么該怎么辦呢?

接著,在彈出來的對話框中我們需要選擇TSV格式,即需要下載的蛋白的其他相關(guān)信息

之后呢,在Protein-protein intraction選項中STRING復(fù)選框打上√,然后點擊下載即可。
PS:其實從選項卡中我們可以看到,能對應(yīng)的起來的數(shù)據(jù)庫包括了corum、BioGRID、MINIT、IntAct等等互作數(shù)據(jù)庫,還有結(jié)構(gòu)數(shù)據(jù)庫等等數(shù)據(jù)庫。其實按照本推文的方法都能夠得到對應(yīng)的id對應(yīng)關(guān)系。

最后,下載的數(shù)據(jù)庫數(shù)據(jù)中即包含uniprot id和STRING id的對應(yīng)關(guān)系(如下圖)。當然,并不是每個蛋白都能找到對應(yīng)的STRING id。

至于,如何將這些id對應(yīng)起來,那必然會用到本公眾號自研軟件Multi-omics Hammer的一個Aligment功能啦。該功能可以將兩個數(shù)據(jù)庫的數(shù)據(jù)按照對應(yīng)的列進行對齊,并且無需任何代碼操作。具體的推文地址可以點這里:Multi-omics Hammer軟件之Aligment功能介紹
三 慣例小結(jié)
每一個蛋白數(shù)據(jù)庫的開發(fā)都受限于當時的技術(shù)以及所需要服務(wù)的人群的差異,這必然會導(dǎo)致不同數(shù)據(jù)庫間的統(tǒng)一利用存在少許的問題?,F(xiàn)在,許多的數(shù)據(jù)庫創(chuàng)建者已然認識到了這一點,因此,不同數(shù)據(jù)庫間的互通有無也成為了許多數(shù)據(jù)庫的標配。但是,由于本公眾號的讀者存在一些濕實驗的同學(xué),對于干實驗的同學(xué)習以為常的數(shù)據(jù)庫使用起來存在困難。因此,本文希望能夠起到一個拋磚引玉的作用,將不同蛋白數(shù)據(jù)庫信息整合起來,方便各位讀者的使用。不過,這些數(shù)據(jù)庫都是一些常見的數(shù)據(jù)庫,并未包含一些小眾的數(shù)據(jù)庫,后續(xù)的話公眾號也將根據(jù)筆者自身的知識的拓展進行持續(xù)的更新,也歡迎各位讀者多提意見。
本公眾號開發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號在其他平臺的賬戶,也歡迎大家關(guān)注并多提意見。
Multi-omics Hammer軟件下載地址:
https://github.com/wangjun258/Multi-omics-Hammer
Multi-omics Visual軟件下載地址:https://github.com/wangjun258/Multi_omics_Visual/releases/tag/Multi_omics_Visual_v1.03
PS:因為本軟件是用python腳本撰寫,調(diào)用了部分依賴包,用戶首次使用需要安裝python以及對應(yīng)的包,安裝之后便可永久使用。
本公眾號開發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號在其他平臺的賬戶,也歡迎大家關(guān)注并多提意見。
簡書:WJ的生信小院
公眾號:生信小院
博客園:生信小院
最后,也歡迎各位大佬能夠在本平臺上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對某一科研領(lǐng)域的看法;3:想要達成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機會;5:博導(dǎo)提供博后工作或者博士攻讀機會,都可以后臺給筆者留言。希望本平臺在進行生信知識分享的同時,能夠成為生信分析者的交流平臺,能夠?qū)崿F(xiàn)相應(yīng)的利益互補和雙贏(不一定能實現(xiàn),但是夢想總得是有的吧)。
另外,怎么說呢,投幣也可,不強求,但奢求。
四 每日一圖(源自Stable-diffuse創(chuàng)作)?



