中國科大實現(xiàn)多種空間轉錄組分析算法的系統(tǒng)性評估

?
近日,中國科學技術大學生命科學與醫(yī)學部瞿昆教授課題組通過設計一整套分析流程,系統(tǒng)性評估了16種空間轉錄組和單細胞轉錄組數(shù)據(jù)整合算法在預測基因或細胞類型空間分布方面的性能。研究成果以“Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution”為題,于2022年5月16日在線發(fā)表于國際知名學術期刊Nature Methods。

細胞在組織器官內所處的空間位置對于它發(fā)揮特異性功能至關重要。近年來,研究者開發(fā)了多種空間轉錄組技術可以在保留細胞精確空間定位的同時,檢測細胞內全轉錄組的表達,以此來研究在發(fā)育或疾病發(fā)生發(fā)展過程中起關鍵性作用的細胞亞群及其分子機制。然而,現(xiàn)有的空間轉錄組學技術存在兩個不足:1.基于測序的空間轉錄組技術無法實現(xiàn)真正意義上的單細胞分辨率;2.基于成像空間轉錄組的技術能檢測到的基因通量有限。為了突破技術的局限性,生物信息學家設計了多種算法整合空間轉錄組與單細胞轉錄組數(shù)據(jù),預測細胞類型的空間分布和/或單個細胞的完整轉錄組信息。這些算法大大加深了我們對空間轉錄組學數(shù)據(jù)及相關生物學和病理過程的理解。然而,由于不同算法的工作原理和適用范圍存在顯著差異,使得研究者很難選擇最佳算法用來預測細胞類型和基因表達的空間分布。
瞿昆教授課題組長期致力于開發(fā)生物大數(shù)據(jù)分析算法和軟件。在此項研究中,課題組收集了45對同一組織來源的空間轉錄組與單細胞轉錄組數(shù)據(jù)集,和32個模擬數(shù)據(jù)集,并設計了多種指標,從準確性、魯棒性、計算資源耗時等多維度系統(tǒng)性評估了16種整合算法的性能。

圖1.整合分析流程
結果顯示,Cell2location、SpatialDWLS和RCTD算法能更加準確的預測細胞類型的空間分布;Tangram、gimVI和SpaGE算法是預測基因表達空間分布的最佳算法。Tangram、Seurat和LIGER計算效率相對較高,適合處理大規(guī)模數(shù)據(jù)集。該研究工作總結了每種算法的屬性、性能和適用性,總結了高效算法的優(yōu)勢,為研究人員進一步提升算法性能提供了參考;并在github上提供了整合空間轉錄組和單細胞轉錄組數(shù)據(jù)的分析流程,以幫助研究人員為處理自己的數(shù)據(jù)選擇最佳的分析工具。
中科大生命科學與醫(yī)學部瞿昆教授為本文的通訊作者,課題組特任副研究員黎斌(現(xiàn)北京生命科學研究所研究員)、博士生張文和特任副研究員郭闖為本文的共同第一作者。這項工作得到基金委杰出青年基金、國家重點研發(fā)計劃、基金委自然科學基金、中科院基礎研究青年團隊、安徽省科技重大專項等項目的經(jīng)費支持。中科大薛天教授、陳發(fā)來教授和程臨釗教授課題組為該工作的順利開展提供了巨大支持。
論文鏈接:https://www.nature.com/articles/s41592-022-01480-9
(生命科學與醫(yī)學部、科研部)

