和R語言一起探索單細胞基因表達!
爾云間一個專門做科研的團隊
?小果?生信果?
歡迎點贊+收藏+關注

當我們拿到一組單細胞數據的矩陣時,如何在處理之前觀察細胞和基因表達之間的關系呢?今天小果就帶大家一起來看一下!

1、生成數據矩陣
今天我們用到的數據仍然來自于scRNAseq包中的細胞集哦!數據矩陣的生成方法小果已經給大家準備好啦!一起來看一下吧!
使用R語言中的View()函數可以直接查看我們生成的數據矩陣哦,我們一起來看一下。

2、探索基因表達情況
在探索基因表達情況,具體時從哪些角度來看呢?小果在這里給大家體共兩種思路:
1.統計某個基因在多少個細胞中得到表達;
2.統計一個細胞中表達了多少個基因;
那么要從這兩個角度去探索,分別要如何去統計呢?快調動你聰明的小腦袋!如果想不到也沒關系,今天小果手把手教你完成!
o?統計所有基因表達成功的細胞個數
對于基因表達成功的細胞個數,我們需要用apply函數統計數據矩陣中每一行元素中對應值大于0的個數,接下來我們進行統計并繪制箱線圖觀察整體表達情況。和小果一起來看看吧!
fivenum(apply(counts,1,function(x) sum(x>0) ))#統計所有基因表達成功細胞個數中的五個指標
boxplot(apply(counts,1,function(x) sum(x>0) ))#繪制箱線圖

得到以上的箱線圖后,小果來給大家做一個簡單的解讀吧!由箱線圖的中位線可以看出,基因表達成功的細胞數的中位數值大概在3個左右,表達細胞數的閾值大概在35左右,即說明如果基因在35個細胞內不表達就可以直接過濾掉哦。
o?統計所有細胞表達了的基因個數
有了上面的基礎,你是否學會舉一反三了呢?對于細胞表達了的基因個數,我們同樣使用apply函數統計數據矩陣中的每一列元素中對應值大于0的個數即可,接下來我們用直方分布圖來和大家展示一下整體的表達情況。和小果一起看看吧!
fivenum(apply(counts,2,function(x) sum(x>0) ))#統計所有細胞表達了基因個數中的五個指標
hist(apply(counts,2,function(x) sum(x>0) )) #繪制直方分布圖

????在分析了箱線圖的統計結果后,你能否獨立分析直方圖的統計結果呢?我們還是和小果一起來看一下!
?????由直方分布圖的統計結果可以看出,表達基因個數在3000~4000之間的細胞占最多數量,表達基因個數在8000以上的細胞僅有2~3個,占最少的數量。
?????通過以上兩組統計圖的分析,我們就對基因在細胞中的表達情況游客整體的把握,怎么樣,今天的小技巧你學廢了嘛?更多生信技巧請繼續(xù)關注小果哦!

生信人R語言學習必備
立刻擁有一個Rstudio賬號
開啟升級模式吧
(56線程,256G內存,個人存儲1T)
往期代碼:
【1】lncRNA的拷貝數變異下游相關分析
【2】R可視化:ggstatsplot包—科研界的美圖秀秀
【3】隨機森林算法用于分類預測和篩選診斷標志物
【4】基于本地Java版GSEA的輸出結果整合多個通路到一張圖
【5】基于嶺回歸模型和基因表達矩陣估算樣本對藥物反應的敏感性
【6】基于R包NMF對樣本進行分型分析
【7】DALEX包用于探索、解釋和評估模型;分析不同特征變量對響應變量的影響
【8】根據腫瘤突變負荷TMB進行KM生存分析尋找最佳的cutoff
【9】基于單樣本富集分析算法評估組織中的免疫細胞浸潤水平
【10】代碼分享│什么?你還在用散點圖來可視化數據之間的相關性
【11】代碼分享│診斷列線圖、校準曲線、決策曲線和臨床影響曲線的構建
【12】代碼分享│你了解基因的動態(tài)變化模式嗎
【13】代碼分享│生物信息分析之SCI熱門圖表-復雜熱圖
【14】代碼分享│生物信息分析之SCI熱門圖表-火山圖
【15】代碼分享│生物信息分析之SCI熱門圖表-箱型圖和小提琴圖
【16】代碼分享│深度學習-人工神經網絡(ANN)的構建
【17】代碼分享│R可視化:高分文章繪圖之基于RCircos包的多類型圈圖繪制
【18】代碼分享│R可視化:基因與功能之間的關系--GO功能富集網絡圖繪制
【19】代碼分享│生物信息分析之SCI熱門圖表—KM曲線和tROC曲線
【20】代碼分享│R可視化:腫瘤預后模型之Cox回歸分析后用R語言繪制森林圖
【21】代碼分享│生物信息分析之SCI熱門圖表—相關性熱圖和散點圖
【22】代碼分享│生信分析之R語言分析相關性及可視化的N種風格
【23】代碼分享│TCGA數據獲取有困難,不會預處理,學習起來
【24】代碼分享│機器學習-支持向量機遞歸特征消除(SVM-RFE)的構建
【25】代碼分享│R可視化:對兩個矩陣進行相關性可視化分析
【26】GEO數據庫多數據集差異分析整合利器RRA,再也不用糾結去除批次效應
【27】你與生信大佬的距離,只差2分鐘搞定預后模型構建和性能評估
【28】9+SCI純生信,模型構建中的“流量明星”,你不得不知的LASSO
【29】手把手教你畫美觀大氣的lasso回歸模型圖,為你的SCI增磚添瓦
【30】R可視化:clusterProfiler包做組間比較GO富集圖
【31】代碼分享|R可視化:復雜熱圖繪制技巧之熱圖中添加柱狀圖
【32】代碼分享——基于基因突變信息分析腫瘤突變負荷
【33】代碼分享│富集不到想要的通路?別放棄呀,試試GSEA
【34】代碼分享│還在用PCA做降維聚類嗎?最強降維模型tSNE--你值得擁有
【35】代碼分享│GSVA:原來功能通路也能做差異分析!
【36】代碼分享│Slingshot:你不知道的單細胞擬時序分析還有它
【37】基于基因功能注釋信息挖掘關鍵作用基因
【38】基于癌癥分類預測的標志物特征提取的SVM-RFE分析代碼
【39】依據表型數據基于無監(jiān)督聚類算法對研究群體進行分層聚類分析
【40】基于穩(wěn)健排序整合算法對多數據集進行整合及可視化
【41】基于基因表達譜估算樣本免疫基質評分和腫瘤純度
【42】自動化繪制LASSO算法回歸模型圖
【43】用于臨床診斷和臨床決策影響的DCA分析
【44】基于樣本預后生存信息和臨床因素用于評價不同模型的一致性指數軟件
【45】用于探索、解釋和評估模型的DALEX殘差分析軟件
【46】基于細菌群落功能豐度結果進行差異功能分析及可視化
【47】基于基因差異分析結果繪制其在染色體上的分布
【48】利用逐步回歸法篩選特征基因構建Cox風險模型分析
【49】基于Immune Subtype Classifier進行腫瘤免疫亞型分類
【50】不同物種之間的同源基因名稱轉換分析
【51】基于逐步多因素cox回歸篩選預后標記基因并構建風險評分模型
【52】基于表達信息挖掘與關注基因密切相關的基因
【53】基因組學基因名稱修正分析
【54】基于Spearman算法構建關聯網絡
【55】基于線性建模方法對代謝組和轉錄組數據整合分析
【56】基于lasso回歸模型方法篩選特征基因
【57】基于線性建模方法對代謝組和轉錄組數據整合分析
【58】基于參數型經驗貝葉斯算法和支持向量機(SVM)篩選疾病亞型特征基因
【59】基于LDA(線性判別分析)算法的微生物biomarker的篩選
【60】基于R包xCell計算64種免疫細胞相對含量及下游可視化
【61】基于甲基化數據評估腫瘤純度及下游可視化
【62】基于DiffCorr包識別不同表型下的差異共表達關系對
【63】基于逆累計分布函數識別顯著偏差通路
【64】基于差異基因對通路的影響挖掘關鍵通路
【65】基于高通量數據的樣本相似性分析
需要以上代碼私信小果哦!

“生信果”,生信入門、R語言、生信圖解讀與繪制、軟件操作、代碼復現、生信硬核知識技能、服務器、生物信息學的教程,以及基于R的分析和可視化等原創(chuàng)內容,一起見證小白和大佬的成長。