爾云間生信代碼│GSVA:原來功能通路也能做差異分析!
科研有捷徑,輸入代碼,一鍵獲取科研成果!就是這么省事,來具體看下有多方便!
搜索http://985.so/a9kb查看全部代碼(目前共計50+持續(xù)新增中),也可以點擊右側【目錄】,可以看到更多有趣的代碼;真香提示:文末可以知道如何獲取代碼~??
GSVA(Gene?set?variation?analysis)即基因集變異分析,是一種非參數(shù)的無監(jiān)督分析方法,主要用來評估芯片和轉錄組的基因集富集結果。通過將基因在不同樣品間的表達量矩陣轉化成基因集在樣品間的表達量矩陣,從而來評估不同的代謝通路在不同樣品間是否富集。簡單來說就是研究這些感興趣的基因集在不同樣品間的差異,或者尋找比較重要的基因集。
下面讓我們一起來看下GSVA到底怎么做的。代碼相關文件見如下3個文件夾,可在文末付費后領取。
加載相應R依賴包
library(GSVA)
library(limma)
library(GSEABase)
library(clusterProfiler)
library(org.Mm.eg.db)
library(ggplot2)
library(enrichplot)
library(dplyr)
library(msigdbr)
數(shù)據導入
輸入文件有2個,一個矩陣文件,行為基因,列是樣本名稱,一個分組信息文件,共兩列,包含樣品名稱和組名,具體見下圖。


基因集準備
我們利用msigdbr函數(shù)下載需要的基因集,這里用小鼠作為例子,category=”C2”””表示選擇MSigDB數(shù)據庫中8個數(shù)據集中的C2,該基因集是專家共識基因集合,基于通路、文獻等,包括我們熟悉的KEGG信號通路等。

開始分析
首先將表達量數(shù)據轉成矩陣形式,然后用gsva函數(shù)結合準備好的基因集進行分析。輸入矩陣為log轉化后的表達矩陣指定kcdf參數(shù)為"Caussion",如果是counts矩陣則指定kcdf="Poisson"。method參數(shù)可以設置為"gsva"或者"zscore",數(shù)據量大的指定method="zscore"會快很多。

輸出結果
對每一個基因根據分組信息計算通路在各個組的富集得分均值,然后畫熱圖。這里我們取前15個通路作為例子,大家可以根據自己的需要選擇通路然后作圖。


利用limma包進行組間通路的差異分析即可得到通路在組間的logFC,p值等。

如需代碼及示例數(shù)據等文件,請掃碼聊天框回復 “B35”領?。?/span>

寫在文末:
如果您近期想做生信方面的文章而苦于沒有思路,或者不知道如何來入手生信分析,或者兌具體的某一個圖有作圖需求,都可以掃碼咨詢小云,我們有專業(yè)的技術團隊,生信熱點思路設計、生信分析、熱點方向生信挖掘等,如有需要,可掃碼下方二維碼了解詳情:?
