最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ClusterProfiler在線基因集富集分析,支持自定義基因集、任意物種

2022-09-05 17:51 作者:微生信課堂  | 我要投稿

為什么pathway富集分析結(jié)果沒(méi)有我感興趣的通路?

GO和KEGG富集分析使用差異基因(上調(diào)基因,下調(diào)基因,或者上下調(diào)合起來(lái)的基因)作為輸入,使用超幾何分布等算法計(jì)算顯著富集的GO term或者通路,然而,在實(shí)際數(shù)據(jù)處理中,這種使用p值和fold change進(jìn)行一刀切獲得差異基因,然后進(jìn)行富集分析的分析方法,往往富集不到我們感興趣的結(jié)果。這時(shí),可以試試基因集富集分析(Gene set enrichment analysis,GSEA),它使用全部基因作為輸入,找出具有協(xié)同差異 (concordant differences)的基因集,兼顧了差異較小的基因(因?yàn)樵谀承l件下,1.5倍的差異可能就算很大的了)。因此,Broad institute出品的GSEA在論文中應(yīng)用廣泛。


圖1 GSEA原理(圖片來(lái)自plob.org)


GSEA分析原理


1,基因排序:

利用所有基因的表達(dá)值,計(jì)算每個(gè)基因在兩個(gè)表型(ClassA和ClassB)間的差異程度(GSEA提供了6種算法,默認(rèn)是signal2ratio),然后按照差異程度將基因從大到小排序。這里差異是有正有負(fù)的,正值越大表示在ClassA (vs ClassB)中表達(dá)越高,越負(fù)表示在ClassA中表達(dá)越低。

2,分析基因集是否富集:基因集(gene set)是一類具有相關(guān)功能(例如免疫相關(guān))或者符合某一標(biāo)準(zhǔn)(例如某個(gè)miRNA的200個(gè)靶基因)的基因構(gòu)成的一組基因。圖中GeneSet1(一個(gè)箭頭代表一個(gè)基因)里的基因在排序的基因列表里均勻分布(表明這個(gè)基因集不在這兩個(gè)表型中富集),GeneSet2里的基因主要分布在基因列表的頂部(表明在ClassA中富集),GeneSet3里面的基因主要分布在基因列表的底部(表明在ClassB中富集)。
3,計(jì)算富集分?jǐn)?shù):計(jì)算每個(gè)基因集的富集分?jǐn)?shù)(enrichment score,ES),然后對(duì)ES分?jǐn)?shù)進(jìn)行顯著性檢驗(yàn)及多重假設(shè)檢驗(yàn),從而計(jì)算出顯著富集的基因集。

常見的GSEA分析軟件及評(píng)測(cè):

目前常見的gsea分析軟件包括:

官方Broad的GSEA;

R版的fgsea,clusterprofiler;

Python版的GSEApy等

Broad GSEA軟件分析的兩種模式1,常規(guī)模式:輸入表達(dá)矩陣,軟件自動(dòng)計(jì)算foldchange,由于要進(jìn)行顯著性檢驗(yàn),因此至少3vs3。2,Prerank模式:輸入排序后的基因列表,針對(duì)那些例如1vs1這種不能用常規(guī)模式計(jì)算的數(shù)據(jù)。
我們使用同一套數(shù)據(jù)集測(cè)試了Broad GSEA prerank模式,ClusterProfiler,GSEApy發(fā)現(xiàn):
1,Broad GSEA最慢,ClusterProfiler最快,算法不太一樣
2,Broad GSEA結(jié)果與GSEApy的結(jié)果重疊度最高,而與clusterProfiler結(jié)果重疊度最低。當(dāng)然三個(gè)結(jié)果總體上還是趨于一致的。
3,GSEApy占內(nèi)存最大,可以多線程
4,ClusterProfiler可以繪制多個(gè)富集結(jié)果,Broad GSEA和GSEApy不可以
5,GSEApy可以添加相關(guān)的NES,Pvalue值等,Broad GSEA和clusterProfiler不可以6,出圖美觀度:個(gè)人感覺GSEApy稍微好看些

基于以上測(cè)試結(jié)果,經(jīng)過(guò)權(quán)衡,我們上線了基于ClusterProfiler的基因集富集分析頁(yè)面。


圖2. GSEA輸出示例


1 , 1,打開GSEA分析和繪圖頁(yè)面

首先,使用瀏覽器(推薦chrome或者edge)打開GSEA分析和繪圖頁(yè)面。左側(cè)為常見作圖導(dǎo)航,中間為數(shù)據(jù)輸入框和可選參數(shù),右側(cè)為描述和結(jié)果示例。也可以在主頁(yè)搜索框中搜索gsea,找到gsea分析和繪圖頁(yè)面。

https://www.bioinformatics.com.cn/plot_basic_gene_set_enrichment_analysis_gsea_analysis_193



圖3.GSEA分析頁(yè)面


2,示例數(shù)據(jù)

點(diǎn)擊右側(cè)“示例數(shù)據(jù)”鏈接下載excel格式的示例數(shù)據(jù)。


圖4. 輸入數(shù)據(jù)示例


示例數(shù)據(jù)(僅供參考)包括2列:

第1列是基因名(symbol)

第2列是倍數(shù)變化(從大到小排列,正的在頂部,負(fù)的在底部)

注意:這里是全部的基因(例如人的約2w個(gè)基因)


3,粘貼示例數(shù)據(jù)

直接復(fù)制示例數(shù)據(jù)中的AB兩列數(shù)據(jù),然后粘貼到輸入框。

注意:不是拷貝excel文件,是拷貝excel文件里邊的數(shù)據(jù)。另外粘貼到輸入框后,格式亂了沒(méi)關(guān)系,只要在excel中是整齊的就行。并且數(shù)據(jù)矩陣中不能有空的單元格,中文字符等。


圖5. 必需輸入


4,修改參數(shù),并提交

我們?cè)O(shè)置了圖片尺寸,文字大小,顏色等參數(shù),并內(nèi)置了GSEA官網(wǎng)(http://www.gsea-msigdb.org/gsea/msigdb/index.jsp)的多個(gè)基因集,包括最常用的:hallmark基因集,kegg基因集等(這些基因集僅支持human)


圖6.可調(diào)參數(shù)


5,提交分析

粘貼好輸入數(shù)據(jù),調(diào)整好參數(shù)(或者全部默認(rèn))后,點(diǎn)擊提交按鈕,約15秒后,會(huì)在頁(yè)面右側(cè)出現(xiàn)富集結(jié)果預(yù)覽圖和分析結(jié)果。我們提供了4種圖片格式供下載使用,兩種矢量圖(pdf,svg)和兩種標(biāo)量圖(600 dpi tiff和300 dpi png)。



圖7.預(yù)覽與下載


結(jié)果解析

該圖分為3塊:

最上方:Enrichment Score折線圖。橫坐標(biāo)是排序后的基因,縱坐標(biāo)是對(duì)應(yīng)的Running ES, 折線的峰值是這個(gè)基因集的富集分?jǐn)?shù)(Enrichment Score,ES)。正值說(shuō)明在ClassA中富集,峰值左邊的基因?yàn)楹诵幕?,?fù)值相反(見原理)

中間:基因集中基因在基因排序列表中所處的位置,也就是將圖1中的三個(gè)垂直數(shù)據(jù)集轉(zhuǎn)動(dòng)了90度擺放。如果所研究的基因集中的基因顯著聚集在左側(cè),則說(shuō)明該基因集與ClassA相關(guān),顯著富集在右側(cè),說(shuō)明與ClassB相關(guān)。

下方:每個(gè)基因?qū)?yīng)的ranked list metric,以灰色面積圖展示。

結(jié)果文件如下:


圖8. Gsea分析結(jié)果

各列說(shuō)明:

Geneset, ID,Description:基因集名字及描述

SetSize:富集到該基因集的基因個(gè)數(shù)

Enrichment score:富集分?jǐn)?shù)ES

NES:標(biāo)準(zhǔn)化的ES,normalized enrichment score

Pvalue:富集的p值

p.adjust:校正p值

qvalues:qvalue

rank:排名

core_enrichment:富集到該通路的核心基因列表

一般來(lái)說(shuō):NES絕對(duì)值越大,F(xiàn)DR值越小,說(shuō)明富集程度越高,結(jié)果越可靠。


重點(diǎn)來(lái)了,自定義數(shù)據(jù)集

常規(guī)的GSEA僅支持human物種,因此在對(duì)非human物種進(jìn)行GSEA分析時(shí),我們首先需要定義一個(gè)基因集,這個(gè)基因集可以來(lái)自文獻(xiàn),數(shù)據(jù)庫(kù)等。以細(xì)胞焦亡、銅死亡、鐵死亡等基因集為例,首先選擇自定義基因集按鈕,然后將相關(guān)基因按照自定義基因集示例格式貼到自定義輸入框:

一行一個(gè)基因集。第一列是名字,第二列是來(lái)源,后續(xù)列為該基因集里邊的基因,盡量避免使用特殊符號(hào),并且這些基因名必需在你輸入的全部基因里。


圖9. 自定義基因集


點(diǎn)擊提交按鈕,約15s后,會(huì)在右側(cè)出現(xiàn)自定義基因集的富集結(jié)果。



圖10. 自定義基因集輸出結(jié)果


想看你的數(shù)據(jù)是否跟最新的銅死亡,鐵死亡,鋅死亡,細(xì)胞焦亡等熱點(diǎn)相關(guān),可以先拿這些基因集跑個(gè)GSEA試試看,這就是自定義基因集的強(qiáng)大之處。

沒(méi)有預(yù)覽就是沒(méi)有出圖,這時(shí)請(qǐng)參考示例數(shù)據(jù),檢查自己輸入數(shù)據(jù)的格式。

遇到文字截?cái)?,需要修改字體、調(diào)整字體大小等,使用scape軟件


微生信助力發(fā)文章,谷歌引用600+,知網(wǎng)引用450+


ClusterProfiler在線基因集富集分析,支持自定義基因集、任意物種的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
普陀区| 噶尔县| 巴东县| 建水县| 都匀市| 巢湖市| 台东市| 合水县| 大名县| 峨眉山市| 石台县| 阿克| 神农架林区| 洛浦县| 济源市| 改则县| 莎车县| 逊克县| 宝鸡市| 伊川县| 塘沽区| 灵山县| 交口县| 越西县| 萝北县| 青神县| 屯留县| 五华县| 晋州市| 宣恩县| 云梦县| 五峰| 泰和县| 余庆县| 河津市| 新余市| 中卫市| 固阳县| 石台县| 阿拉善右旗| 阳新县|