22種單細(xì)胞自動注釋方法性能大比拼


大家做過單細(xì)胞的都深有體會,目前大多數(shù)的單細(xì)胞分析都依賴于手動注釋,不僅耗時長、復(fù)現(xiàn)性又差。隨著技術(shù)的進(jìn)步,一些自動化注釋的方法出現(xiàn)了,我們發(fā)現(xiàn)一篇比較22種單細(xì)胞自動注釋的方法,特地分享給大家:來自萊頓大學(xué)計算生物學(xué)中心的Tamim Abdelaal團(tuán)隊在Genome Biology上發(fā)表題為:A comparison of automatic cell identification methods for single-cell RNA sequencing data的文章,對22種自動識別、分類細(xì)胞的方法進(jìn)行了全面的評價。

作者對22種分類器(Table 1)在11個數(shù)據(jù)集中的性能和計算時間進(jìn)行了測試。其中包括了通用分類器SVM和數(shù)智生物常用的singleR,總體而言,所有分類器的測試結(jié)果良好。

不同的分類器在不同的數(shù)據(jù)集中各顯神通,比如Cell-BLAST在Baron(Mouse)和Segerstople胰腺數(shù)據(jù)集中表現(xiàn)的不太友好,但SVM的整體性能卻很強(qiáng)(圖1B),未標(biāo)記的細(xì)胞也更少。而對于Mus musculus(TM)、肺癌細(xì)胞系的數(shù)據(jù)集來說性能最好的分類器分別是SVMrejection、SVM、scmapcell、Cell-BLAST和scPred。此外,KNN的性能會隨著深度注釋而下降、scVI在深度注釋的數(shù)據(jù)集上的性能也很差。

對于PBMC數(shù)據(jù)集來說,不同的分類器在每個細(xì)胞群體中標(biāo)記基因的數(shù)量也會不一樣,并且很少有重疊。比如Zheng數(shù)據(jù)集,DigitalCellSorterDE、GarnettDE和SCINADE的最佳標(biāo)記基因個數(shù)分別為5、15和20個,而Zheng 68K的最佳標(biāo)記個數(shù)為5、5和10個。這些結(jié)果表明,分類性能比較依賴于標(biāo)記基因的選擇。
為了評估不同流程和不同實驗室之間的分類性能,作者使用了四個人類胰腺數(shù)據(jù)集測試,結(jié)果顯示數(shù)據(jù)集之間的批次差異會影響分類的性能。對原始數(shù)據(jù)而言,性能最好的分類器是scVI、SVM、ACTINN、scmapcell、和SingleR。對于處理后的數(shù)據(jù),性能最好的分別是KNN、SVMrejection、singleCellNet、SVM、和NMC。

一般情況下,所有的分類器的計算時間都會隨著細(xì)胞數(shù)量的增加而延長,但并不是所有的分類器計算時間都會增加。為了公平的評估不同分類器的運(yùn)行時間,作者分別調(diào)查了細(xì)胞數(shù)量、特征以及群體的影響,對兩個最大的數(shù)據(jù)集(TM、Zheng 68K)進(jìn)行了測試,意外地發(fā)現(xiàn)CaSTle、CHETAH和SingleR的細(xì)胞數(shù)量在增加,但計算時間卻在減少。
作者綜合全面的比較,建議使用通用的SVMrejection分類器,因為與其他分類器相比,它具有更好的性能。