GSEA與GSVA傻傻分不清楚?一文幫你搞定!/SCI論文/科研/研究生/生信分析熱點思路

生信分析的文章中一般都會做“富集分析”
大家最常見到的、也是最基礎(chǔ)的就是GO和KEGG富集分析,除了它倆,我們還可以見到GSEA和GSVA ~ ~
GSEA和GSVA長得如此像,你知道它倆分別都是干啥的嗎?能分清楚怎么用這兩個分析嗎?

跟著小云一起來學(xué)習(xí)啦,爭取看完這篇就搞清楚它!
p?基本概念
l?GSEA(Gene Set Enrichment Analysis,基因集富集分析):用來評估一個預(yù)先定義的基因集的基因在與表型相關(guān)度排序的基因表中的分布趨勢,從而判斷其對表型的貢獻;
l?GSVA(Gene Set Variation Analysis,基因集變異分析):是一種非參數(shù)的無監(jiān)督分析方法,主要用來評估芯片和轉(zhuǎn)錄組的基因集富集結(jié)果。簡單來說,就是將分析對象由基因換成了基因集,進行基因集(通路)級別的差異分析。
p?分析原理
n?GSEA:給定一個排序的基因表L(基因表達矩陣)和一個預(yù)先定義的基因集S (可以是GO注釋、MsigDB的注釋或其它符合格式的基因集定義),GSEA的目的是判斷S里面的成員s在L里面是隨機分布還是主要聚集在L的頂部或底部。這些基因排序的依據(jù)是其在不同表型狀態(tài)下的表達差異,若研究的基因集S的成員顯著聚集在L的頂部或底部,則說明此基因集成員對表型的差異有貢獻,也是我們關(guān)注的基因集。

n?GSVA不需要預(yù)先進行樣本之間的差異分析,它依據(jù)表達矩陣就可以計算每個樣本中特定基因集的變異分數(shù)。通過將基因在不同樣品間的表達量矩陣轉(zhuǎn)化成基因集在樣品間的表達量矩陣,從而來評估不同的通路在不同樣品間是否富集。
其實就是研究這些感興趣的基因集在不同樣品間的差異,或者尋找比較重要的基因集,作為一種分析方法,主要是為了從生物信息學(xué)的角度去解釋導(dǎo)致表型差異的原因。

p?應(yīng)用背景
n?GSEA 應(yīng)用場景通常局限于 Case vs Control 的實驗設(shè)計。對于表型(分組)復(fù)雜的大樣本量研究,GSEA已不能滿足對大量異質(zhì)性樣本多樣化(如TCGA的多表型、多層次大隊列研究)的分析需求,GSVA分析在此種情況下應(yīng)運而生。

n?GSVA?是基因集富集分析的擴展,不需要預(yù)先進行樣本之間的差異分析,它依據(jù)表達矩陣就可以計算每個樣本中特定基因集(比如某個通路)的變異分數(shù)。

p?兩者異同
n?相同點:1、基因?qū)用娴交蚣瘜用娴姆治?/span>
????????2、輸入文件:基因表達矩陣+基因集
????????3、都可以通過R語言來實現(xiàn)
????????4、都可以找到表型間具有顯著意義的基因集。
n?不同點:1、GSVA不需要預(yù)先做樣本間差異基因分析 ???????
????????2、輸入基因表達矩陣文件格式不同
????????????3、需要的R包不一樣,GSVA可以用GSVA 包,GSEA可以用clusterProfiler包
????????????4、輸出結(jié)果不同,GSVA輸出基因集表達矩陣,可用作下游分析;GSEA直接輸出各個基因集的統(tǒng)計值和結(jié)果圖
如果您的時間和精力有限或者缺乏相關(guān)經(jīng)驗,并且對生信分析和思路設(shè)計有所需要的話,“生信鳥”非常樂意為您提供如下服務(wù):免費思路評估、付費生信分析和方案設(shè)計以及實驗項目實施等,有意向的小伙伴歡迎咨詢小云哦!
