散文網(wǎng) » 科技 »學習 » 對單細胞分析毫無頭緒？讓popsicleR領你入門

對單細胞分析毫無頭緒？讓popsicleR領你入門

2023-09-11 10:13 作者:爾云間 0人讀過 | 我要投稿

不知道有多少剛開始接觸單細胞測序分析的小伙伴在面對無窮無盡的R包和代碼時感到畏難，仿佛一堆知識要強行涌入我們的腦海。今天小云想向大家介紹一個R包——popsicleR。該R包的作者整合了單細胞轉(zhuǎn)錄組分析所需的R包，用七行代碼就可以完成從質(zhì)控到細胞注釋的整套流程。學習使用該R包可以為初學者構(gòu)建思維框架，從而使學習過程更加簡單。下面，小云將為大家詳細介紹一下popsicle。它結(jié)合了廣泛使用的流程中實現(xiàn)的方法，以交互方式執(zhí)行 scRNA-seq 數(shù)據(jù)分析的所有主要預處理和 QC 步驟。該軟件包由七個功能組件組成：

Step 1：執(zhí)行質(zhì)量控制指標的探索

Step 2：細胞篩選

Step 3：雙細胞檢測

Step 4：數(shù)據(jù)標準化

Step 5：縮放及回歸

Step 6：細胞聚類

Step 7：細胞注釋

在分析的每個步驟中，popsicleR 通過彩色文本消息交互式地指導用戶，并在專用文件夾中保存各種圖，以研究多個 QC 指標并評估過濾和回歸參數(shù)對細胞群識別和分類的影響。跑完流程后可為小伙伴們產(chǎn)出20多張各式各樣且美觀的圖表。小云這邊已經(jīng)為小伙伴們準備好輸入文件了，獲取鏈接放在文章的最后哦~就讓我們正式開始今天的學習吧！? #?Step?0?安裝popsicleR包及其依賴

因為popsicleR整合大量的R包，因此在安裝依賴的過程中可能有一些繁瑣哦，下面的代碼雖然很多，但只需要小伙伴們直接運行就可以啦。 options(timeout = 999) #?方便在GitHub上下載對應的R包

CRANdep <- c("Seurat","reticulate","R.utils","dplyr","ggplot2","clustree","ape","gtools",

?????????????"future","grid","gridExtra","magrittr","limma","patchwork",

?????????????"crayon","ggExtra","RColorBrewer","ggplotify","RANN","umap",

?????????????"celldex","curl","httr","lattice","shinythemes","usethis","rcmdcheck",

?????????????"roxygen2","rversions","devtools","pheatmap","BiocManager","corrplot")

newPackages <- CRANdep[!(CRANdep %in% installed.packages()[,"Package"])]

if(length(newPackages)){install.packages(newPackages)}

?

CRANarcdep <- c("Matrix","optimbase","optimsimplex","neldermead","session")

newPackages <- CRANarcdep[!(CRANarcdep %in% installed.packages()[,"Package"])]

if(length(newPackages)){

??packagesurl <- c("https://cran.r-project.org/src/contrib/Archive/Matrix/Matrix_1.3-2.tar.gz",

???????????????????"https://cran.r-project.org/src/contrib/Archive/optimbase/optimbase_1.0-9.tar.gz",

???????????????????"https://cran.r-project.org/src/contrib/Archive/optimsimplex/optimsimplex_1.0-7.tar.gz",

???????????????????"https://cran.r-project.org/src/contrib/Archive/neldermead/neldermead_1.0-11.tar.gz",

???????????????????"https://cran.r-project.org/src/contrib/Archive/session/session_1.0.3.tar.gz")

??for (i in 1:length(newPackages)){

????source_repo <- packagesurl[grep(newPackages[i], packagesurl)]

????install.packages(source_repo, repos=NULL, type="source")

??}

}

?

BioCdep <- c("SingleR","limma","BiocFileCache","AnnotationHub",

?????????????"ExperimentHub","celldex","scDblFinder")

newPackages <- BioCdep[!(BioCdep %in% installed.packages()[,"Package"])]

if(length(newPackages)){BiocManager::install(newPackages)}

?

if(!"scMCA"%in% installed.packages()[,"Package"]){devtools::install_github("ggjlab/scMCA")}

?

devtools::install_github("bicciatolab/popsicleR")

library(popsicleR)

載入R包后出現(xiàn)

即為安裝成功，我們便可以進行下一步啦 ?

#?step?1?從原始數(shù)據(jù)創(chuàng)建?Seurat 對象并可視化 QC 指標

seurat_obj <- PrePlots(sample = 'CRR073027',

???????????????????????input_data = 'filtered_feature_bc_matrix/',

???????????????????????percentage = 0.1, gene_filter = 200, cellranger = TRUE, organism = "human")

?

@para sample:?研究項目的name；

@para input_data: 輸入文件的路徑，在這面小伙伴們既可以使用小云為大家準備好的cellranger的矩陣結(jié)果，也可以是非cellranger的普通計數(shù)矩陣，都是兼容的哦

@para?genelist:?在這里如果小伙伴們有屬于自己的一套與細胞對應的marker列表也可以使用向量的形式進行添加哦，小白沒有的話，也沒有關(guān)系，作者為大家準備好了一套marker。

@para percentage: 這里限制了所有的基因起碼在1%的細胞中進行表達，默認值為0.1

@para?gene_filter: 限制所有的細胞最起碼檢測出200個基因

@cellranger:?若輸入文件為cellranger的輸出文件則設定為TRUE

@organism: 選擇研究的物種

? 下面小云為大家篩選了運行完質(zhì)控結(jié)果后的數(shù)張結(jié)果圖給各位小伙伴預覽一下

# step?2?雙重細胞檢測

該處代碼的運行時間會較長，有條件的小伙伴建議使用服務器進行運行哦~

seurat_obj <- CalculateDoublets(UMI = seurat_obj, method = "scrublet", dbs_thr ='none', dbs_remove = FALSE)

?

# step 3 雙重細胞移除

seurat_obj <- CalculateDoublets(UMI = seurat_obj, method = "scrublet", dbs_thr = 0.22, dbs_remove = TRUE)

? # 參數(shù)說明:

@para UMI: 輸入的單細胞轉(zhuǎn)錄組數(shù)據(jù)對象

@para method: 雙重細胞檢測方法，可以選擇"scrublet","scDblFinder"其中一種方式

#?來自小云的溫馨提示，dbs_thr參數(shù)是在選擇scrublet方法的情況下才進行選擇的哦

@para dbs_thr: 設定的雙重細胞閾值，這里設置為'none'

@para dbs_thr: 設定的雙重細胞閾值，這里設置為0.22

@para dbs_remove: 是否移除雙重細胞

? # step 4標準化

seurat_obj <- Normalize(UMI = seurat_obj, variable_genes = 2000)

# 參數(shù)說明:

# @para UMI: 輸入的單細胞轉(zhuǎn)錄組數(shù)據(jù)對象

# @para variable_genes: 選擇的變異基因數(shù)量，這里設置為2000

?

# step?5?回歸

seurat_obj <- ApplyRegression(UMI = seurat_obj, organism = "human", variables = "none", explore_PC = FALSE)

?

# step 6對PC值進行觀測后進行回歸研究

seurat_obj <- ApplyRegression(UMI = seurat_obj, organism = "human", variables = "none", explore_PC = TRUE)

? # 參數(shù)說明:

@para UMI: 輸入的單細胞轉(zhuǎn)錄組數(shù)據(jù)對象

@para organism: 研究的物種，這里選擇了"human"

@para variables: 進行回歸分析的變量，這里設置為"none"

#?在我們探索主成分的個數(shù)后便可對該參數(shù)進行調(diào)整

@para explore_PC: 是否探索主成分，這里設置為FALSE

@para explore_PC: 是否探索主成分，這里設置為TRUE

? # step?7細胞類型注釋

seurat_obj <- MakeAnnotation(UMI = seurat_obj, organism = "human", marker.list = "none", cluster_res= 0.8)

? # 參數(shù)說明:

@para UMI: 輸入的單細胞轉(zhuǎn)錄組數(shù)據(jù)對象

@para organism: 研究的物種，這里選擇了"human"

@para marker.list: 細胞類型標記基因列表，這里設置為"none"

@para cluster_res: 聚類分辨率，這里設置為0.8

可以看出，雖然這段代碼有7行，但實際上有兩行代碼是為了重復運行以選擇參數(shù)的，因此我們可以只用5行代碼就完成單細胞轉(zhuǎn)錄組分析。 popsicleR這個R包的源代碼將近有2000行，感興趣的小伙伴可以進入官方文檔進行學習哦（https://github.com/bicciatolab/popsicleR/），這不僅僅是對單細胞轉(zhuǎn)錄組分析流程的學習，還可以通過閱讀源碼了解到各種各樣的表格的繪制代碼，在日后的研究學習中頗有益處。好啦~今天小云的分享就到這里啦！希望今天小云的分享可以幫到剛開始入門單細胞轉(zhuǎn)錄組分析的小伙伴們哦~