單細(xì)胞擬時(shí)序分析又一利器—Diffusion?Map
目前在分析單細(xì)胞的高維表達(dá)數(shù)據(jù)時(shí),都會(huì)通過(guò)降維聚類將復(fù)雜多維的數(shù)據(jù)轉(zhuǎn)變到低維空間,以便我們進(jìn)行可視化和進(jìn)一步挖掘。常見的方法有基于線性分析來(lái)聚類區(qū)分,如主成分分析(PCA),獨(dú)立成分分析(ICA)和線性判別分析 (LDA)等,還有根據(jù)特征信息來(lái)進(jìn)行分群,例如 t分布-隨機(jī)鄰近嵌入(t-SNE),統(tǒng)一流形逼近和投影 (UMAP)等。這些方法大多是區(qū)分離散亞群或者檢測(cè)胞間臨近關(guān)系,通常都沒有保留細(xì)胞間的連續(xù)分化軌跡,當(dāng)我們的研究對(duì)象為連續(xù)分化的細(xì)胞群,反而不希望出現(xiàn)明顯區(qū)分的細(xì)胞簇。
那如何在區(qū)分細(xì)胞間差異的同時(shí),又能最大限度保留其連續(xù)性呢?基于此研究目的,Laleh Haghverdi 團(tuán)隊(duì)提出基于內(nèi)在擴(kuò)散樣動(dòng)力學(xué)識(shí)別細(xì)胞分化軌跡的方法,并在Bioinformatics上發(fā)布了DiffusionMap軟件。下面就讓歐寶帶您了解一下這款軟件吧!
1.DiffusionMap算法簡(jiǎn)介
DiffusionMap (擴(kuò)散映射)是一款R軟件,通過(guò)高斯模型和馬爾科夫模型,把單細(xì)胞(scRNA)表達(dá)矩陣的非線性結(jié)構(gòu)映射為連續(xù)性結(jié)構(gòu),并關(guān)聯(lián)至對(duì)應(yīng)細(xì)胞分組。數(shù)據(jù)計(jì)算主要包括以下幾步:
圖1?| DiffusionMap 示意圖
A.由四種不同細(xì)胞類型組成的 n × G 單細(xì)胞表達(dá)矩陣。矩陣右側(cè)的最后一列代表每個(gè)細(xì)胞的類型;
B.在G維基因空間中,由高斯函數(shù)表示每個(gè)細(xì)胞。由于高斯波干擾,具有相對(duì)高概率密度的連續(xù)路徑在數(shù)據(jù)流形上形成擴(kuò)散路徑;
C.計(jì)算 n × n 的細(xì)胞間馬爾可夫轉(zhuǎn)移概率矩陣;
D.馬爾可夫轉(zhuǎn)移矩陣的前兩個(gè)特征向量(DC1和DC2)數(shù)據(jù)嵌入,它們對(duì)應(yīng)了數(shù)據(jù)流形的最大擴(kuò)散系數(shù)。DiffusionMap顯示了四種細(xì)胞類型中細(xì)胞的連續(xù)流動(dòng)趨勢(shì)。
此外,團(tuán)隊(duì)也針對(duì)單細(xì)胞數(shù)據(jù)常見的零值、缺失值和采樣密度異質(zhì)性情況,對(duì)軟件的計(jì)算模型和高斯kenralwidth 篩選進(jìn)行了優(yōu)化,確保在數(shù)據(jù)的遍歷擴(kuò)散過(guò)程是連續(xù)型的同時(shí)細(xì)胞之間的擴(kuò)散距離仍然有較高的靈敏度。
2.分析方法
2.1 DiffusionMap降維聚類
歐寶們已經(jīng)將軟件適配公司的分析流程,可以直接從上游單細(xì)胞數(shù)據(jù)提取表達(dá)信息(data)和元數(shù)據(jù)進(jìn)行DiffusionMap降維聚類。分析中計(jì)算細(xì)胞距離使用歐式距離公式,主成分分析則采用PCA算法。
由圖2和圖3可以看出,測(cè)試數(shù)據(jù)中胚胎干細(xì)胞和誘導(dǎo)多能干細(xì)胞發(fā)育趨勢(shì)比較接近,與遠(yuǎn)端的神經(jīng)上皮細(xì)胞有明顯的區(qū)別;3D交互降維聚類圖可以自行旋轉(zhuǎn)調(diào)整到合適的角度截圖保存。這里也可以按照clusters 或者group等分組信息來(lái)展示。
圖2 | DiffusionMap2D 和3D降維聚類圖
圖3 | DiffusionMap3D交互降維聚類圖
2.2?特征向量提取和數(shù)據(jù)整合
降維聚類圖的DC1-DC3,即為馬爾可夫轉(zhuǎn)移矩陣的特征值(類似于PC1,PC2,對(duì)整體數(shù)據(jù)的貢獻(xiàn)度)。我們提取前三維特征值,根據(jù)特征值的排序預(yù)測(cè)每個(gè)細(xì)胞的發(fā)育狀態(tài)。表1中pseudotime1 即為DC1中細(xì)胞排序得到的分化順序,圖4展示了不同分組不同維度的細(xì)胞分布情況。
圖4 | Diffusion DC1-DC2 細(xì)胞排序
2.3 指定root展示
最后,可以根據(jù)先驗(yàn)信息來(lái)識(shí)別細(xì)胞流趨勢(shì)的起點(diǎn),指定數(shù)據(jù)中細(xì)胞分化起點(diǎn)并可視化展示不同條件下的發(fā)育變化。圖5三個(gè)紅點(diǎn)為root細(xì)胞中篩選的特征細(xì)胞,細(xì)胞由黑至黃逐漸的分化;圖6的分組山脊圖可以看出,胚胎干細(xì)胞大部分處于DPT趨勢(shì)的初始階段,iPS細(xì)胞則更多處于前中期,這也與部分研究認(rèn)為iPS細(xì)胞保留了部分來(lái)源細(xì)胞特征的結(jié)果相符。
圖5 | DPT 細(xì)胞流趨勢(shì)軌跡
圖6 | DPT趨勢(shì)中不同分組的細(xì)胞分布
經(jīng)過(guò)多種數(shù)據(jù)集的測(cè)試,DiffusionMap 在同源細(xì)胞不同的分化譜系中都有較好的表現(xiàn)。它可以通過(guò)擴(kuò)散映射將空間距離轉(zhuǎn)換為狀態(tài)轉(zhuǎn)移的概率,對(duì)不同分化路徑中的細(xì)胞進(jìn)行降維和排序,確定分化細(xì)胞的隨機(jī)轉(zhuǎn)移方向,進(jìn)而預(yù)測(cè)細(xì)胞的發(fā)育軌跡并檢測(cè)稀有種群。
參考文獻(xiàn):
[1]Laleh Haghverdi, Florian Buettner, Fabian J. Theis, Diffusion maps for high-dimensional single-cell analysis of differentiation data. Bioinformatics(2015)https://doi.org/10.1093/bioinformatics/btv325
[2]Coifman,R.R. , et al. Geometric diffusions as a tool for harmonic analysis and structure definition of data: Diffusion maps. National Academy of Sciences 21(2005).
[3]Kingman, J.F.C. Markov transition probabilities.?Z. Wahrscheinlichkeitstheorie verw Gebiete?10, 87–101 (1968).
[4]Kang L, Gao S. Pluripotency of induced pluripotent stem cells. J Anim Sci Biotechnol. 2012 Feb 28;3(1):5. doi: 10.1186/2049-1891-3-5. PMID: 22958434; PMCID: PMC3415130.
詳細(xì)技術(shù)請(qǐng)?jiān)L問(wèn)歐易生物官網(wǎng)
?
百度搜索歐易生物(oebiotech)
?
了解更多多組學(xué)技術(shù)
(單細(xì)胞測(cè)序)