ClusterProfiler在線基因集富集分析,支持自定義基因集、任意物種
為什么pathway富集分析結(jié)果沒(méi)有我感興趣的通路?
GO和KEGG富集分析使用差異基因(上調(diào)基因,下調(diào)基因,或者上下調(diào)合起來(lái)的基因)作為輸入,使用超幾何分布等算法計(jì)算顯著富集的GO term或者通路,然而,在實(shí)際數(shù)據(jù)處理中,這種使用p值和fold change進(jìn)行一刀切獲得差異基因,然后進(jìn)行富集分析的分析方法,往往富集不到我們感興趣的結(jié)果。這時(shí),可以試試基因集富集分析(Gene set enrichment analysis,GSEA),它使用全部基因作為輸入,找出具有協(xié)同差異 (concordant differences)的基因集,兼顧了差異較小的基因(因?yàn)樵谀承l件下,1.5倍的差異可能就算很大的了)。因此,Broad institute出品的GSEA在論文中應(yīng)用廣泛。圖1 GSEA原理(圖片來(lái)自plob.org)
GSEA分析原理
1,基因排序:
利用所有基因的表達(dá)值,計(jì)算每個(gè)基因在兩個(gè)表型(ClassA和ClassB)間的差異程度(GSEA提供了6種算法,默認(rèn)是signal2ratio),然后按照差異程度將基因從大到小排序。這里差異是有正有負(fù)的,正值越大表示在ClassA (vs ClassB)中表達(dá)越高,越負(fù)表示在ClassA中表達(dá)越低。
2,分析基因集是否富集:基因集(gene set)是一類具有相關(guān)功能(例如免疫相關(guān))或者符合某一標(biāo)準(zhǔn)(例如某個(gè)miRNA的200個(gè)靶基因)的基因構(gòu)成的一組基因。圖中GeneSet1(一個(gè)箭頭代表一個(gè)基因)里的基因在排序的基因列表里均勻分布(表明這個(gè)基因集不在這兩個(gè)表型中富集),GeneSet2里的基因主要分布在基因列表的頂部(表明在ClassA中富集),GeneSet3里面的基因主要分布在基因列表的底部(表明在ClassB中富集)。3,計(jì)算富集分?jǐn)?shù):計(jì)算每個(gè)基因集的富集分?jǐn)?shù)(enrichment score,ES),然后對(duì)ES分?jǐn)?shù)進(jìn)行顯著性檢驗(yàn)及多重假設(shè)檢驗(yàn),從而計(jì)算出顯著富集的基因集。
常見的GSEA分析軟件及評(píng)測(cè):
目前常見的gsea分析軟件包括:
官方Broad的GSEA;
R版的fgsea,clusterprofiler;
Python版的GSEApy等
Broad GSEA軟件分析的兩種模式1,常規(guī)模式:輸入表達(dá)矩陣,軟件自動(dòng)計(jì)算foldchange,由于要進(jìn)行顯著性檢驗(yàn),因此至少3vs3。2,Prerank模式:輸入排序后的基因列表,針對(duì)那些例如1vs1這種不能用常規(guī)模式計(jì)算的數(shù)據(jù)。我們使用同一套數(shù)據(jù)集測(cè)試了Broad GSEA prerank模式,ClusterProfiler,GSEApy發(fā)現(xiàn):
1,Broad GSEA最慢,ClusterProfiler最快,算法不太一樣
基于以上測(cè)試結(jié)果,經(jīng)過(guò)權(quán)衡,我們上線了基于ClusterProfiler的基因集富集分析頁(yè)面。
圖2. GSEA輸出示例
1 , 1,打開GSEA分析和繪圖頁(yè)面
首先,使用瀏覽器(推薦chrome或者edge)打開GSEA分析和繪圖頁(yè)面。左側(cè)為常見作圖導(dǎo)航,中間為數(shù)據(jù)輸入框和可選參數(shù),右側(cè)為描述和結(jié)果示例。也可以在主頁(yè)搜索框中搜索gsea,找到gsea分析和繪圖頁(yè)面。
https://www.bioinformatics.com.cn/plot_basic_gene_set_enrichment_analysis_gsea_analysis_193
圖3.GSEA分析頁(yè)面
2,示例數(shù)據(jù)
點(diǎn)擊右側(cè)“示例數(shù)據(jù)”鏈接下載excel格式的示例數(shù)據(jù)。
圖4. 輸入數(shù)據(jù)示例
示例數(shù)據(jù)(僅供參考)包括2列:
第1列是基因名(symbol)
第2列是倍數(shù)變化(從大到小排列,正的在頂部,負(fù)的在底部)
注意:這里是全部的基因(例如人的約2w個(gè)基因)
3,粘貼示例數(shù)據(jù)
直接復(fù)制示例數(shù)據(jù)中的AB兩列數(shù)據(jù),然后粘貼到輸入框。
注意:不是拷貝excel文件,是拷貝excel文件里邊的數(shù)據(jù)。另外粘貼到輸入框后,格式亂了沒(méi)關(guān)系,只要在excel中是整齊的就行。并且數(shù)據(jù)矩陣中不能有空的單元格,中文字符等。
圖5. 必需輸入
4,修改參數(shù),并提交
我們?cè)O(shè)置了圖片尺寸,文字大小,顏色等參數(shù),并內(nèi)置了GSEA官網(wǎng)(http://www.gsea-msigdb.org/gsea/msigdb/index.jsp)的多個(gè)基因集,包括最常用的:hallmark基因集,kegg基因集等(這些基因集僅支持human)
圖6.可調(diào)參數(shù)
5,提交分析
粘貼好輸入數(shù)據(jù),調(diào)整好參數(shù)(或者全部默認(rèn))后,點(diǎn)擊提交按鈕,約15秒后,會(huì)在頁(yè)面右側(cè)出現(xiàn)富集結(jié)果預(yù)覽圖和分析結(jié)果。我們提供了4種圖片格式供下載使用,兩種矢量圖(pdf,svg)和兩種標(biāo)量圖(600 dpi tiff和300 dpi png)。
圖7.預(yù)覽與下載
結(jié)果解析
該圖分為3塊:
最上方:Enrichment Score折線圖。橫坐標(biāo)是排序后的基因,縱坐標(biāo)是對(duì)應(yīng)的Running ES, 折線的峰值是這個(gè)基因集的富集分?jǐn)?shù)(Enrichment Score,ES)。正值說(shuō)明在ClassA中富集,峰值左邊的基因?yàn)楹诵幕?,?fù)值相反(見原理)
中間:基因集中基因在基因排序列表中所處的位置,也就是將圖1中的三個(gè)垂直數(shù)據(jù)集轉(zhuǎn)動(dòng)了90度擺放。如果所研究的基因集中的基因顯著聚集在左側(cè),則說(shuō)明該基因集與ClassA相關(guān),顯著富集在右側(cè),說(shuō)明與ClassB相關(guān)。
下方:每個(gè)基因?qū)?yīng)的ranked list metric,以灰色面積圖展示。
結(jié)果文件如下:
圖8. Gsea分析結(jié)果
各列說(shuō)明:
Geneset, ID,Description:基因集名字及描述
SetSize:富集到該基因集的基因個(gè)數(shù)
Enrichment score:富集分?jǐn)?shù)ES
NES:標(biāo)準(zhǔn)化的ES,normalized enrichment score
Pvalue:富集的p值
p.adjust:校正p值
qvalues:qvalue
rank:排名
core_enrichment:富集到該通路的核心基因列表
一般來(lái)說(shuō):NES絕對(duì)值越大,F(xiàn)DR值越小,說(shuō)明富集程度越高,結(jié)果越可靠。
重點(diǎn)來(lái)了,自定義數(shù)據(jù)集
常規(guī)的GSEA僅支持human物種,因此在對(duì)非human物種進(jìn)行GSEA分析時(shí),我們首先需要定義一個(gè)基因集,這個(gè)基因集可以來(lái)自文獻(xiàn),數(shù)據(jù)庫(kù)等。以細(xì)胞焦亡、銅死亡、鐵死亡等基因集為例,首先選擇自定義基因集按鈕,然后將相關(guān)基因按照自定義基因集示例格式貼到自定義輸入框:
一行一個(gè)基因集。第一列是名字,第二列是來(lái)源,后續(xù)列為該基因集里邊的基因,盡量避免使用特殊符號(hào),并且這些基因名必需在你輸入的全部基因里。
圖9. 自定義基因集
點(diǎn)擊提交按鈕,約15s后,會(huì)在右側(cè)出現(xiàn)自定義基因集的富集結(jié)果。
圖10. 自定義基因集輸出結(jié)果
想看你的數(shù)據(jù)是否跟最新的銅死亡,鐵死亡,鋅死亡,細(xì)胞焦亡等熱點(diǎn)相關(guān),可以先拿這些基因集跑個(gè)GSEA試試看,這就是自定義基因集的強(qiáng)大之處。
沒(méi)有預(yù)覽就是沒(méi)有出圖,這時(shí)請(qǐng)參考示例數(shù)據(jù),檢查自己輸入數(shù)據(jù)的格式。
遇到文字截?cái)?,需要修改字體、調(diào)整字體大小等,使用scape軟件。
微生信助力發(fā)文章,谷歌引用600+,知網(wǎng)引用450+