Nat Methods | 空間轉(zhuǎn)錄組與單細(xì)胞轉(zhuǎn)錄組整合分析工具大比拼

由于大部分空間轉(zhuǎn)錄組的分辨率無法達(dá)到單細(xì)胞級(jí)別(Stereo-seq除外),因此目前空間轉(zhuǎn)錄組的數(shù)據(jù)分析還高度依賴于單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的整合,以幫助空間轉(zhuǎn)錄組數(shù)據(jù)的表達(dá)量計(jì)算以及去卷積。
來自中國科學(xué)技術(shù)大學(xué)的研究團(tuán)隊(duì)利用45個(gè)配對(duì)數(shù)據(jù)以及32個(gè)模擬數(shù)據(jù)評(píng)估了16種單細(xì)胞轉(zhuǎn)錄組與空間轉(zhuǎn)錄組的整合工具,發(fā)現(xiàn)Tangram、gimVI、SpaGE在預(yù)測(cè)RNA的空間分布上更有優(yōu)勢(shì),而Cell2location、SpatialDWLS、RCTD在細(xì)胞類型的去卷積上表現(xiàn)更佳。該文章于2022年5月在Nature Methods發(fā)表,以下是該文的詳細(xì)解讀。

文章題目:Benchmarking Spatial and Single-Cell Transcriptomics Integration Methods for Transcript Distribution Prediction and Cell Type Deconvolution
發(fā)表時(shí)間:2022-05-16
發(fā)表期刊:Nature Methods
主要研究團(tuán)隊(duì):中國科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院、合肥綜合性國家科學(xué)中心人工智能研究院等
影響因子:48.000
DOI:10.1038/s41592-022-01480-9
軟件、功能與原理
首先,研究人員介紹了幾款軟件與它們的基本methods。

具體評(píng)估內(nèi)容
基于以上軟件與功能,研究人員展開了以下評(píng)估。
首先我們要明確,下文提到的空間轉(zhuǎn)錄組“ground truth”為通過變異系數(shù)挑選出的1,000個(gè)高變RNA(如果足夠)數(shù)據(jù)集。
1. 預(yù)測(cè)RNA空間分布表達(dá)量
利用交叉驗(yàn)證,研究人員計(jì)算了空間轉(zhuǎn)錄組與整合方法處理后矩陣之間的Person相關(guān)系數(shù)(Pearson correlation coefficient,PCC),并通過一些經(jīng)典的marker來舉例論證,此處省略。為了全局評(píng)估各類工具的準(zhǔn)確性,研究人員還引入了structural similarity index(SSIM)、root mean square error(RMSE)、Jensen-Shannon divergence(JS)這幾個(gè)參數(shù),簡(jiǎn)單理解來說,PCC與SSIM越高、RMSE與JS越低,則代表該工具的預(yù)測(cè)越準(zhǔn)確。由圖1c可知Tangram、gimVI、SpaGE的表現(xiàn)相較于其他工具明顯更優(yōu)。對(duì)于1d-e中的accuracy score而言,依舊是這三款工具遙遙領(lǐng)先。

考慮到很多時(shí)候空間轉(zhuǎn)錄組與scRNA-seq的輸入矩陣格式可能有所不同,通常有normalization data(N)和raw data(R)兩種。因此空間轉(zhuǎn)錄組與scRNA-seq整合分析時(shí)的輸入組合就有R-R、N-R、R-N、N-N這四種。研究人員同樣評(píng)估了這四種輸入方式對(duì)于分析精確度的影響。可以看出無論怎么切換輸入方式,最優(yōu)的工具仍是Tangram、gimVI、SpaGE;而R-R、N-R、R-N、N-N四種輸入方式中R-R為最優(yōu)解(圖2)。

2. 矩陣稀疏性
對(duì)于單細(xì)胞測(cè)序和空間轉(zhuǎn)錄組而言,它們得到的矩陣均是稀疏矩陣,這意味著矩陣中存在著大量的0值。矩陣稀疏性是指0元素在表達(dá)矩陣中的占比。不出意外,即使是在稀疏度大于70%的矩陣中,仍然是Tangram、gimVI、SpaGE的AS值更高。

3. 去卷積
由于分辨率的原因,空間轉(zhuǎn)錄組的最小分辨率spot通常包含數(shù)個(gè)到數(shù)十個(gè),這時(shí)就需要去卷積來拆分出每個(gè)spot包含的細(xì)胞信息。Seurat、SpaOTsc、Tangram、novoSpaRC、Cell2location、SpatialDWLS、RCTD、Stereoscope、DestVI、STRIDE、SPOTlight、DSTG均提供此功能。在spot均已被注釋共包含1,549個(gè)細(xì)胞、15個(gè)細(xì)胞類型的數(shù)據(jù)集10中,RCTD、Tangram、Cell2location的PCC最高,而AS值最高的為RCTD與Stereoscope(圖4b-c)。在數(shù)據(jù)集4中,Tangram依舊可以排在第二名的位置(圖4d)。

4. 計(jì)算性能
數(shù)據(jù)計(jì)算的完成度和精確性孰優(yōu)孰劣可以爭(zhēng)議,但對(duì)于相同樣本量的計(jì)算時(shí)間卻是一個(gè)可以直接衡量的指標(biāo),并且會(huì)即時(shí)獲得對(duì)各位分析人員帶來體驗(yàn)感的好壞。對(duì)于各個(gè)數(shù)據(jù)集的計(jì)算時(shí)間來說,Seurat和Tangram穩(wěn)定更優(yōu),相較于尾部的算法來說,甚至能節(jié)省99%的時(shí)間。這一模塊可以說是本研究最有價(jià)值的部分。

最后,作者用一張圖梳理了各個(gè)軟件基于的編程語言、計(jì)算依賴(CPU/GPU)、各個(gè)精確度衡量方式中的表現(xiàn)、相同細(xì)胞數(shù)量的計(jì)算時(shí)間。大家可以收藏查看。

本文轉(zhuǎn)載自:Biomamba 生信基地?,作者BIOMAMBA