「青蓮客戶文獻」PSL-LCCL:人肝癌細胞系SK_HEP1蛋白的亞細胞定位數(shù)據(jù)庫
癌細胞系百科全書匯編了25種人肝癌細胞系(hLCCLs)的基因突變和mRNA表達。TCGA中的肝細胞肝癌(LIHC)隊列描述了基因組畸變、表觀遺傳學和基因表達譜特征。此外,一項關于肝癌發(fā)生的蛋白質組學的研究對生物標志物的篩選和治療具有重要意義。然而目前hLCCLs的細胞器圖譜尚未被描繪出來。
今天北京蛋白質組學跟大家分享的是一篇青蓮客戶文獻來自河南省醫(yī)學遺傳研究所及國家蛋白質機構合作完成,于2022年1月20日發(fā)表在Database上“PSL-LCCL: a resource for subcellular protein localization in liver cancer cell line SK_HEP1”。蛋白亞細胞定位的表征為進一步了解細胞行為提供了基礎。人肝癌細胞系(hLCCLs)中蛋白質在膜結合細胞器上的亞細胞定位還有待進一步研究,因此作者通過質譜法對分離并富集了六個膜結合細胞器的蛋白質進行了定量分析,利用marker蛋白和基于機器學習的算法實現(xiàn)了在聚類和鄰域水平上定位蛋白質(青蓮百奧提供技術支持)。

圖1:用MS定量分析SK_HEP1分離六種細胞器(n=3)中的蛋白質
研究結果
六種膜結合細胞器中蛋白質的定量結果分析
六個細胞器中共鑒定到4464個蛋白質,其重疊率為 百分之92 (n = 4097)。作者將來自六個細胞器鑒定的蛋白質結果組合在一起并實施機器學習算法來預測蛋白質亞細胞定位?;跈C器學習算法的分類在很大程度上依賴于可用的marker蛋白,而特異性定位于細胞器的marker蛋白要求具有高度的可復制性。選定了1481個marker蛋白分為18個簇(圖2A)并進一步注釋為不同的亞細胞區(qū)室。

圖 2:選定的1481個marker蛋白的注釋
蛋白在 t-SNE 空間的分布,如相鄰的幾個簇(簇 1-3、簇 4-8、 簇9-11 和簇 12-17)表明了簇之間的內(nèi)在聯(lián)系?;谝阎膩喖毎麉^(qū)室的關系,作者使用“鄰域”的定義來合并相鄰的簇,如“分泌”(簇 1-3)、“線粒體”(簇 4-8)、“細胞核”(簇 9-11)和“胞質溶膠”(簇 12-17)。不同細胞器中marker蛋白的表達譜(圖2B)也表明選擇的marker蛋白的可靠性。
基于聚類的、鄰域的蛋白質亞細胞定位
基于監(jiān)督的機器學習的方法將所有鑒定到蛋白嚴格地分配到簇中進行分類,成功地將 2510 個(百分之56)蛋白分類為簇。然后,作者將預測的單定位蛋白(n = 2510)與 UniProt (n = 7147)和GO (n = 6664)中的單定位蛋白進行比較,發(fā)現(xiàn) 百分之44 的蛋白(n = 1105)與單定位蛋白一致。富集分析證實亞細胞定位在簇水平上被正確分配。

圖3:鑒定的蛋白質(n = 4464)在鄰域水平的亞細胞定位
由于聚類相關性和蛋白質覆蓋深度有限,僅一半(百分之56)被歸類為cluster。因此遵循“鄰域”的定義,根據(jù)已知的亞細胞區(qū)室關系在較高水平上對蛋白質進行分類(圖3A)。蛋白分類比例增加到百分之85 的蛋白質(n = 3803),并與公共數(shù)據(jù)庫中注釋的單定位蛋白質進行比較進一步驗證蛋白亞細胞定位分類。
蛋白質結構域和復合物的亞細胞分布
蛋白質結構域可能在蛋白亞細胞定位中發(fā)揮作用,例如帶有轉運肽的蛋白質可以被運輸?shù)骄€粒體,而一個信號肽可以將蛋白質靶向“分泌”鄰域。將具有不同結構域(如跨膜、信號和轉運)的蛋白質定位到網(wǎng)絡中顯示具有不同結構域的蛋白在預期的鄰域中富集。pfam中注釋的36個結構域家族在特定的簇或鄰域中顯著富集表明了蛋白質結構域與其亞細胞定位之間的關聯(lián)。

圖4:蛋白質復合物的亞細胞定位
作者創(chuàng)建了一個 PSL-LCCL 數(shù)據(jù)庫,提供了用于SK _ hep1的“ PSL-LCCL”的用戶友好的蛋白質亞細胞定位數(shù)據(jù)庫。可以通過關鍵字查詢給定蛋白質的定位進行可視化,還可以查看細胞器中感興趣的蛋白質。
PSL-LCCL:一種人肝癌細胞系SK_HEP1中蛋白的亞細胞定位資源庫
期刊名稱:Database
影響因子:2.593
樣本選擇:SK_HEP1細胞器包括質膜、內(nèi)質網(wǎng)、核內(nèi)體、溶酶體、高爾基體和線粒體
技術策略:非標蛋白質組學
「青蓮客戶文獻」PSL-LCCL:人肝癌細胞系SK_HEP1蛋白的亞細胞定位數(shù)據(jù)庫的評論 (共 條)
