別不信!近4分的非腫瘤套路,我用一刻鐘零代碼就可以復(fù)現(xiàn)?。ǜ皆敿?xì)操作教程)
從小白的角度,一刻鐘復(fù)現(xiàn)生信套路。各位小伙伴大家好,這里是美麗專欄。經(jīng)過兩期的零代碼復(fù)現(xiàn)課,相信大家一定對腫瘤領(lǐng)域的單基因套路有一定的了解,最近也有小伙伴私聊美麗,希望掌握一些非腫瘤領(lǐng)域的生信文章,作為新一代寵粉達(dá)人,這樣的需求,美麗當(dāng)然是滿足啦。接下來,美麗帶大家康康如何在非腫瘤領(lǐng)域進(jìn)行省心研究,話不多說,開始今天的復(fù)現(xiàn)之旅吧。
?
文章復(fù)現(xiàn)是生信小白成長為大神的最佳路徑。在本篇文章中,美麗將會手把手教您3圖4表逐個(gè)步驟的文章復(fù)現(xiàn)。
今天為大家?guī)硪黄?020年3月份發(fā)表于Frontiers of endocrinology(影響因子:3.644)的單基因非腫瘤生信文章套路復(fù)現(xiàn)。
話不多說,我們開始吧!
?題目?
Bioinformatic Analysis Identifies Potential Key Genes in the Pathogenesis of Turner Syndrome

材料與方法一:患者數(shù)據(jù)收集情況

作者從GEO數(shù)據(jù)庫中找到GSE46687數(shù)據(jù)集,一共包括36例樣本,其中,有 16例TS患者被證實(shí)具有母系遺傳的X染色體(45,Xm),10例TS患者被證實(shí)具有父系遺傳的X染色體(45,Xp),10例正常女性(46,XX)。使用測序平臺GPL570。
材料與方法二:圖表結(jié)果及復(fù)現(xiàn)
01.使用工具
1)仙桃學(xué)術(shù)工具(https://www.xiantao.love/products),
2)BioGPS數(shù)據(jù)庫(http://biogps.org/#goto=genereport&id=177)
3)Cytoscape
4)拼圖工具,AI或仙桃。
02.復(fù)現(xiàn)任務(wù)
TABLE 1?| Differentially expressed genes of Turner Syndrome
表1?尋找TS的差異基因

TABLE 2?| Tissue-specific expressed genes identified by BioGPS
表2? 利用BioGPS數(shù)據(jù)庫查找組織特異性基因

TABLE 3?| The enriched terms for DEGs
表3??DEGs富集分析

TABLE 4?| Genes of interest.
表4?最終篩選的基因

FIGURE 1?| A heatmap of 85 differentially expressed genes between monosomy X TS patients and 46,XX normal individuals.
圖1?熱圖展示差異基因

FIGURE 2?| Bar graph of 11 representative enriched functional terms.
圖2?條形圖展示11個(gè)富集功能信息

FIGURE 3?|?尋找hub genes
圖3?尋找hub基因

03.復(fù)現(xiàn)步驟
圖1?熱圖展示差異基因

首先,打開仙桃學(xué)術(shù),點(diǎn)擊數(shù)據(jù)集檢索。

在檢索框中,輸入數(shù)據(jù)集GSE,隨后點(diǎn)擊檢索。

點(diǎn)擊選擇樣本,根據(jù)實(shí)驗(yàn)分組,選擇前十個(gè)樣本,設(shè)置為正常組Normal。

同樣的方式,設(shè)置實(shí)驗(yàn)1組Case1。

同樣的方式,設(shè)置實(shí)驗(yàn)2組Case2。

隨后點(diǎn)擊左側(cè)的進(jìn)入我的樣本庫。


依次選擇分組1(Case),分組2(Normal)。點(diǎn)擊右側(cè)提交分析

同樣的方法,將分組1改為Case2。提交分析。

稍等片刻,出現(xiàn)分析完成字樣,可以先把分析資料下載到本地,隨后在進(jìn)行后續(xù)操作。

打開壓縮包,點(diǎn)擊分析報(bào)告

包含多個(gè)模塊,主要結(jié)果部分,可以對分析的差異基因進(jìn)行篩選。
火山圖,熱圖可以對我們分析的差異基因進(jìn)行可視化展示。


?同樣,對于圖片中的細(xì)節(jié),可以點(diǎn)擊細(xì)節(jié)修改,進(jìn)行精細(xì)化調(diào)整,包括修改字體大小,顏色等。
同樣,在仙桃工具的高級版中,也有數(shù)據(jù)集分析模塊。

點(diǎn)擊火山圖,選中差異分析的分組,點(diǎn)擊確定。也可以獲得熱圖,并保存。

將結(jié)果命名為熱圖1。

同樣的操作步驟,將結(jié)果命名為熱圖2。

隨后,根據(jù)原文中的設(shè)置,尋找兩組的差異基因,即log>1,Padjust<0.05。
打開差異分析表格,Case1與正常樣本的比較,即為Xm-XX組:

點(diǎn)擊篩選,Padj,數(shù)字篩選

選擇小于0.05

隨后,點(diǎn)擊logFC,進(jìn)行數(shù)字篩選。

大于1或者小于-1的值

并按照logFC進(jìn)行降序排列。


取logFC大于1的gene列,另存為Xm-XX Up,

同理,取logFC小于1的gene列,另存為Xm-XX Down。
打開差異分析表格,Case2與正常樣本的比較,即為Xp-XX組:
點(diǎn)擊篩選,Padj,數(shù)字篩選

選擇小于0.05

隨后,點(diǎn)擊logFC,進(jìn)行數(shù)字篩選。

大于1或者小于-1的值

并按照logFC進(jìn)行降序排列。

取logFC大于1的gene列,另存為Xp-XX Up,

同理,取logFC小于1的gene列,另存為Xp-XX Down。

隨后,將上述四組基因,放在一個(gè)excel表格中,如下圖排序及命名。

選擇仙桃工具-基礎(chǔ)班-韋恩圖,并上傳excel文件

點(diǎn)擊確認(rèn)

保存結(jié)果。
隨后,打開拼圖工具,將上述的三張圖進(jìn)行圖片拼接。

最終圖1就拼好了。

表1?尋找TS的差異基因


閱讀原文表1,即可發(fā)現(xiàn),作者將兩組差異分析的結(jié)果,統(tǒng)一整理到一個(gè)表格中,然后只需要分別顯示上調(diào)or下調(diào)基因,這里忍不住再提一下,作者的表格制作方式,比較創(chuàng)新,并且非常精美,值得推薦參考~
我們只需要將韋恩圖中獲取的交集差異基因,按照這個(gè)方式進(jìn)行排列即可,本部分操作步驟略。
表2?利用BioGPS數(shù)據(jù)庫查找組織特異性基因

隨后,作者利用BioGPS數(shù)據(jù)庫,尋找基因的組織特異性表達(dá),作者使用BioGPS(http://biogps.org) 來分析DEGS的組織特異性表達(dá)。
篩選的標(biāo)準(zhǔn)為:(1)組織特異性表達(dá)水平>中位數(shù)的10倍,以及(2)第二高表達(dá)水平不到最高水平的三分之一。
具體演示步驟:打開BioGPS數(shù)據(jù)庫,分別將表1中的上調(diào)or下調(diào)基因輸入數(shù)據(jù)庫,然后查找在人體組織中,同樣出現(xiàn)特意表達(dá)的基因。我們以AGER為例。

輸入AGER點(diǎn)擊查詢。


可以看到,AGER在肺中高表達(dá)的。同樣的操作,將其他基因輸入,最終鑒定了23個(gè)在特定組織或器官系統(tǒng)中表達(dá)的基因。并整理成表2.

圖2?條形圖展示11個(gè)富集功能信息

這里,作者用Excel進(jìn)行富集分析,我們可以將基因輸入仙桃工具,獲取GO富集分析圖。
選擇仙桃工具-功能聚類-GO|KEGG富集分析,在分子列表中輸入基因名稱,點(diǎn)擊確認(rèn)。

點(diǎn)擊保存結(jié)果,在結(jié)果中顯示獲得的基因,隨后可以選擇GO|KEGG可視化模塊。

溫馨提示:這里面,美麗選擇其中一組up交集進(jìn)行的通路富集,與作者的分析略有出入,小伙伴學(xué)會分析方法即可,不需要太較真為何有的時(shí)候復(fù)現(xiàn)與原文不一致。我們學(xué)習(xí)復(fù)現(xiàn),只是為了學(xué)會分析思路,并不需要百分之百復(fù)現(xiàn)作者原圖,畢竟是作者已經(jīng)發(fā)表的文章,哪怕我們原文完整復(fù)現(xiàn),也不能拿來投稿喲。
表3?DEGs富集分析

根據(jù)上述GO、KEGG分析,作者最終選擇以下通路進(jìn)行展示。
我們可以直接將上面保存在仙桃工具中的GO|KEGG富集分析表下載,作為結(jié)果的展示。


當(dāng)然,也可以進(jìn)一步按照作者展示的模式,進(jìn)行修改。
圖3?尋找hub基因

將表1中的基因上傳到仙桃工具-交互網(wǎng)絡(luò)-PPI蛋白互作分析。復(fù)制基因至分子列表,基本參數(shù):互作分?jǐn)?shù)默認(rèn)0.4中可信度,與文中描述一致。點(diǎn)擊確認(rèn),獲取結(jié)果。

將基因?qū)?yīng)的上調(diào)or下調(diào)屬性列為一個(gè)屬性列表。

打開cytoscape軟件,將上述兩個(gè)文件分別導(dǎo)入。

導(dǎo)入互作關(guān)系列表。

點(diǎn)擊OK。

隨后,導(dǎo)入屬性關(guān)系列表。



修改展示風(fēng)格,按照屬性(attribute)進(jìn)行展示,上調(diào)為紅色,下調(diào)為綠色。保存為圖A。

選擇MCODE模式

獲得兩組展示模式。分別點(diǎn)擊每種模式下的基因,保存為圖B,圖C。

在AI或者仙桃工具中完成拼圖工作。最終獲得圖2如下。

表4?最終篩選的基因

根據(jù)上面MCODE獲取的Hub Gene,作者最終選擇上述6個(gè)上調(diào)基因,10個(gè)下調(diào)基因作為最終納入的Hub gene。
好了,以上是復(fù)現(xiàn)步驟。
全文總結(jié)
?最后一個(gè)模塊:根據(jù)本文的圖表進(jìn)行邏輯梳理?
挑TABLE 1 | Differentially expressed genes of Turner Syndrome(表1,尋找TS的差異基因)
挑&靠TABLE 2 | Tissue-specific expressed genes identified by BioGPS( 表2利用BioGPS數(shù)據(jù)庫查找組織特異性基因)
聯(lián)TABLE 3 | The enriched terms for DEGs(表3DEGs富集分析)
挑TABLE 4 | Genes of interest.(表4 最終篩選的基因)
挑FIGURE 1 | A heatmap of 85 differentially expressed genes between monosomy X TS patients and 46,XX normal individuals.(圖1 熱圖展示差異基因)
圈FIGURE 2 | Bar graph of 11 representative enriched functional terms.(圖2 條形圖展示11個(gè)富集功能信息)
聯(lián)FIGURE 3尋找hub genes(圖3 尋找hub基因)
作者利用GEO數(shù)據(jù)庫,特別是特納綜合征的數(shù)據(jù)集,包含表達(dá)譜數(shù)據(jù),雖然沒有臨床信息,但是作者巧妙的用了一個(gè)BiosGPS數(shù)據(jù)庫,用人體組織代替臨床信息,非常討巧的思路,值得借鑒。隨后,進(jìn)行多輪Hub gene的篩選,將挑圈聯(lián)靠應(yīng)用到極致,并最終獲得與特納綜合征相關(guān)的上下調(diào)分子。
本文的另一個(gè)亮點(diǎn)是對于數(shù)據(jù)信息的整理,條例邏輯非常清晰,雖然也是湊圖,但是湊得特別有逼格,非常值得借鑒。
可以說,雖然本文是非腫瘤生信文章,但是研究套路,總體上離不開挑圈聯(lián)靠四字真言。那么,非腫瘤分析的重中之重,在于數(shù)據(jù)的獲取。我們都知道,TCGA數(shù)據(jù)庫,只包含33種腫瘤信息,那么,對于非腫瘤的部分,需要從GEO或者專門的疾病數(shù)據(jù)庫種獲取,至于如何利用GEO數(shù)據(jù)庫分析?一般有R語言,以及GEO2R在線網(wǎng)站兩種方式,如今,有了仙桃工具,可以跨越科學(xué)上網(wǎng)的屏障,非常便利的獲取分析結(jié)果。雖然目前只上線GPL570一個(gè)平臺的數(shù)據(jù),但是這個(gè)平臺是目前測序數(shù)據(jù)量最大,應(yīng)用最廣泛的平臺,完全滿足我們?nèi)粘M诰蚍治觯送?,技術(shù)小哥哥還在加班加點(diǎn)進(jìn)行其他平臺的數(shù)據(jù)清洗,相信不久后,更多的GEO數(shù)據(jù)集可以在仙桃工具上進(jìn)行點(diǎn)點(diǎn)點(diǎn)式的分析。小伙伴們可以期待一下哦。
回顧一下,本文的復(fù)現(xiàn),只需要依靠一個(gè)仙桃工具,聯(lián)合一個(gè)互作軟件,就能完美收官,這一波操作,是不是很贊。
文末彩蛋
此外,文末彩蛋,給大家列一下單基因的分析流程

??怎么樣,經(jīng)過一系列的復(fù)現(xiàn),是否現(xiàn)在摩拳擦掌,迫不及待的想要開始學(xué)習(xí)起來了,期待大家的復(fù)現(xiàn)之旅,也希望大家可以把自己在復(fù)現(xiàn)過程中遇到的問題發(fā)出來,我們可以在討論區(qū)互動(dòng)哦~