scRNA代謝分析軟件千千萬,總有一款適合您
單細胞技術(shù)自2019年被Nature Methods雜志評選為年度技術(shù)以來,單細胞測序及其下游分析迅速成為生物科學(xué)研究的熱點,推動了腫瘤研究、組織和器官發(fā)育以及農(nóng)林遺傳分析等多個領(lǐng)域的快速發(fā)展。
隨著單細胞文章的遍地開花,單細胞的多組學(xué)聯(lián)合分析也逐漸走上舞臺。多維度的交叉分析有助于我們更全面地理解細胞在時間-空間的復(fù)雜生命過程,但受限于目前的高通量單細胞建庫技術(shù),我們只能從細胞中獲取到一個組學(xué)的信息,得到的數(shù)據(jù)難以嚴(yán)格論證細胞內(nèi)外的新陳代謝活動;此外,胞內(nèi)和胞外體液中的代謝物也極不穩(wěn)定,定性準(zhǔn)確性和重復(fù)性難以保證。
那我們是否可以通過合適的計算模型,從單細胞數(shù)據(jù)中模擬或類比轉(zhuǎn)換得到代謝物或蛋白的變化情況,進而獲得多組學(xué)的研究結(jié)果呢?當(dāng)然可以!目前有很多課題組/實驗室已經(jīng)研發(fā)并見刊了多款基于單細胞轉(zhuǎn)錄組數(shù)據(jù)的代謝分析軟件,例如Compass,scFEA,Mebocost,scMetablism等,其原理大致可分為兩類:
(1)基于已知代謝通路的富集分析;
(2)基于拓撲代謝模塊的通量平衡分析。
今天我們就來一起了解幾款小歐們已經(jīng)“馴化”的單細胞代謝分析軟件。
scMetabolism?
scMetabolism是復(fù)旦大學(xué)中山醫(yī)院研發(fā)的一款單細胞水平化量化代謝活性的軟件,目前已有多篇文章引用。該軟件基于常規(guī)單細胞表達矩陣,采用VISION算法對每個細胞進行評分,最終得到細胞在每條代謝通路的活性得分。
圖1 | scMetabolism代謝分析流程
軟件預(yù)置人類代謝基因集,包括85條KEGG通路和82條REACTOME條目,其他如大、小鼠等哺乳動物的scRNA數(shù)據(jù)可以同源轉(zhuǎn)換human后進行分析;物種為植物或者其他非常規(guī)物種的話,也可選擇合適的代謝基因集來打分。
得到每個代謝條目的打分后,可以進行多種下游分析,部分示例結(jié)果如下:
圖2 | 不同分組代謝差異顯著條目熱圖
圖3 | 差異代謝條目得分feature圖
相比其他軟件,scMetabolism對單細胞的Seurat軟件兼容極好,包含多種較完善的R語言打分算法,且在分析速度上明顯優(yōu)于其他軟件;得分結(jié)果以熱圖和小提琴圖展現(xiàn)不同分組或clusters間的代謝活性差異,也可以將代謝得分整合進seurat數(shù)據(jù),從多個角度展示不同細胞群的代謝活性強弱,是當(dāng)前單細胞代謝分析的首選之一。
scFEA?
scFEA是Chang團隊基于通量平衡(Flux Balance)算法開發(fā)的代謝通量相對速率評估軟件,可以通過scRNA-seq數(shù)據(jù)表達變化,結(jié)合通量平衡約束概率等模型來評估酶和轉(zhuǎn)運蛋白的變化。scFEA在對數(shù)據(jù)建模時遵循以下原則:
1. 根據(jù)重組人類KEGG代謝圖,獲得重點代謝模塊以降低計算復(fù)雜度;
2.建立通量平衡約束概率模型以及神經(jīng)網(wǎng)絡(luò)優(yōu)化求解器和多層神經(jīng)網(wǎng)絡(luò)模型,獲得轉(zhuǎn)錄組到代謝組的復(fù)雜級聯(lián)信息;
3. 定義一個損失函數(shù)L來推斷scRNA-seq數(shù)據(jù)的細胞代謝通量。
圖4 | scFEA 代謝通量分析流程
軟件在分析中,會假設(shè)每個模塊的代謝通量可以建模為模塊中酶表達水平的非線性函數(shù),且中間模塊的底物進出通量總體失衡為最小化??紤]到單細胞表達數(shù)據(jù)的稀疏矩陣,如果刪除零表達狀態(tài)相關(guān)基因的反應(yīng)后模塊與其他模塊斷開了連接,該模塊會被認為是關(guān)閉模塊被剔掉;但該模塊只要有一個基因具有顯著的非零表達,就會繼續(xù)保留。
每個細胞的代謝通量可以作為raw_data進行降維聚類,也可以結(jié)合Seurat進行多種下游分析,部分示例結(jié)果如下:
圖5 | scFEA代謝通量降維聚類
圖6 | scFEA代謝通量顯著條目熱圖
圖7 | 差異代謝通量條目箱線小提琴圖
我們也可以將scFEA 估算的細胞通量與常規(guī)流程結(jié)合,進一步分析細胞類型或評估不同組織、細胞群的代謝應(yīng)激水平,單個酶/基因?qū)φ麄€代謝網(wǎng)絡(luò)的敏感性,以及推測細胞-組織和細胞-細胞之間的代謝交換。
Mebocost
MEBOCOST是由Rongbin Zheng等人開發(fā)的代謝分析軟件, 根據(jù)每對 細胞類型和代謝物-傳感器伙伴的代謝酶和傳感器的表達來計算通信分?jǐn)?shù),進而推斷已知代謝物的相對豐度。軟件的分析步驟如下:
整理scRNA-seq 的表達數(shù)據(jù)和細胞類型,以便識別細胞-細胞代謝物-傳感器通信。代謝物酶和傳感器分別在發(fā)送細胞(Sender cells)和接收細胞(Receivor cells)中高度表達,接收細胞上的感受器蛋白(sensor protein)可能是細胞表面受體、細胞表面轉(zhuǎn)運蛋白和核受體;?
從scRNA-seq數(shù)據(jù)中提取代謝物酶和代謝物傳感器的基因表達,取酶基因表達的平均值推斷代謝物的存在,然后使用發(fā)送細胞中平均代謝物豐度與接收細胞中平均傳感器基因表達量的乘積來計算通信分?jǐn)?shù);
對表達數(shù)據(jù)的細胞標(biāo)簽進行1000 次(默認)隨機置換,生成1000個通信分?jǐn)?shù),獲得相應(yīng)的經(jīng)驗分布,并基于零分布置換檢驗計算p值,推斷通路和基于代謝物的細胞間通訊之間的關(guān)聯(lián),預(yù)測重要的receiver中sensor相關(guān)的通路。
圖7 | Mebocost分析流程
部分示例結(jié)果如下:
圖8 | 代謝傳感器通訊events條形圖
圖9 | 多組間代謝通訊dot圖
圖10 | 代謝物表達豐度提琴圖
圖11 | 通信網(wǎng)絡(luò)圖
相比于通量平衡分析,MEBOCOST根據(jù)基因表達情況推斷配體-受體通訊,計算方式簡單高效,也容易解釋其生物學(xué)意義。根據(jù)代謝物和傳感器在配體細胞和受體細胞中會有較高豐度表達預(yù)測代謝物介導(dǎo)的胞間通訊,也可以與常規(guī)細胞通訊結(jié)果進行對應(yīng)。
Compass?
Compass是Wagner 團隊發(fā)布的一款Python軟件,基于單細胞表達數(shù)據(jù)和通量平衡分析 (FBA) ,結(jié)合代謝網(wǎng)絡(luò)的先驗知識來展現(xiàn)細胞代謝狀態(tài)。
其分析原理如下:
1.基于代謝網(wǎng)絡(luò)數(shù)據(jù)庫Recon2,為每個代謝反應(yīng)r計算它能承載的最大通量,同時只施加化學(xué)計量和質(zhì)量平衡約束;
2.根據(jù)基因表達,給每個細胞中每個反應(yīng)分配一個與該細胞中催化反應(yīng)的酶相關(guān)的mRNA表達成反比的罰分;對于每個反應(yīng)r和每個細胞找到一個通量分布(對網(wǎng)絡(luò)中每個反應(yīng)的通量值的分配),使總體懲罰最小的同時保持通過r的通量為最大通量的95%;
3.對這個懲罰分?jǐn)?shù)取倒數(shù),并相加為反應(yīng)的Compass分?jǐn)?shù)。
圖12 | Compass分析流程?
考慮到算法運行效率及單細胞數(shù)據(jù)中可能存在的技術(shù)噪音,在分析中也可以將細胞分割成微簇并將每個簇的平均值作為下游分析中的觀察值,以減少運行時間。示例結(jié)果如下:
圖13 | 主成分分析結(jié)果,左圖針對正反應(yīng),右圖針對負反應(yīng)
圖14 | 差異代謝通路火山圖
圖15 | top5核心代謝通路差異情況
Compass使用基因組規(guī)模的代謝網(wǎng)絡(luò),允許整個代謝轉(zhuǎn)錄組影響任何特定反應(yīng)的計算分?jǐn)?shù)而不僅僅是催化它的酶的 mRNA 編碼,這有助于減少 mRNA 表達與代謝活動不相關(guān)的情況和 scRNA-seq 丟失的影響;軟件還通過K近鄰的信息共享,減輕單細胞數(shù)據(jù)的稀疏效應(yīng),進一步提升了軟件預(yù)測結(jié)果的準(zhǔn)確性。
可以看出,不同代謝分析軟件的分析策略雖有所差異,但最終都要回到已知代謝物或已知酶的基因在單個細胞中的表達。如果說基因表達的有無是細胞類型的特征,那么代謝物的多少就是細胞活動的展現(xiàn)。單細胞水平的代謝分析,有助于我們對單細胞數(shù)據(jù)更深入的分析和挖掘,進一步了解異質(zhì)細胞的新陳代謝差異,在免疫和遺傳發(fā)育研究中有著重要的作用。