平平無奇,8個數(shù)據(jù)庫湊一篇5+純生信?別猶豫了,趕緊上車!
今天我為大家?guī)硪黄l(fā)表在Frontiers in Oncology雜志上,影響因子為4.848的一篇分析基因家族的生信文章,之前我復現(xiàn)的一篇9分生信文章也是關于基因家族文獻,大家可以聯(lián)系起來學習,總結(jié)基因家族的生信文章所有花式湊數(shù)據(jù)的方法,爭取做到把該做的都做了,畢竟酸菜大大和雪球老師都說過如果把挑圈聯(lián)靠四個維度的數(shù)據(jù)都做滿,文章的影響因子就不會太差啦!
大家如果手上有合適的基因家族正在做濕實驗,看到本篇推文加上幾個生信圖,發(fā)到10分+還是非常有希望的。
今天復現(xiàn)的文章題目是:

要素拆解
題目:結(jié)直腸癌中CBX家族成員預后價值及免疫浸潤的綜合分析
疾病:結(jié)直腸癌
數(shù)據(jù)來源:TCGA
分析策略:基因家族+生信在線工具(表達+預后)+免疫浸潤等相關分析
思路框架
作者從CBX基因家族入手,通過表達差異分析,生存預后等分析,得到CBX3/5/6可能是CRC患者生存的潛在預后標志物,CBX5/6 mRNA高表達與直腸癌患者短總生存期(OS)相關,CBX3基因與CRC患者的臨床腫瘤分期和短無病生存期(DFS)顯著相關。
復現(xiàn)內(nèi)容
Results1: 結(jié)直腸癌患者CBXs的差異表達Results2:結(jié)直腸癌患者CBXs mRNA表達的預后價值Result 3:結(jié)直腸癌患者CBXs的基因改變、表達和相互作用分析Result 4:結(jié)直腸癌患者CBXs免疫細胞浸潤的研究
復現(xiàn)工具
◆?仙桃學術工具(https://www.xiantao.love/products)◆Oncomine數(shù)據(jù)庫(http://www.oncomine.org)◆?K-Mplotter數(shù)據(jù)庫
(http://kmplot.com/Analysis/index.php?p=background)
◆?GEPIA2數(shù)據(jù)庫
(http://gepia.cancer-pku.cn/)
◆?cBioportal數(shù)據(jù)庫(https://www.cbioportal.org/)◆?STRING數(shù)據(jù)庫(https://string-db.org/)◆?GeneMANIA(http://www.genemania.org)
◆?TIMER2數(shù)據(jù)庫(http://timer.comp-genomics.org/)
本文共7張大圖一張表,現(xiàn)在一切準備就緒,沒時間解釋了,快上車!跟著我一起開始復現(xiàn)之旅吧!
Figure 1
CBXs在不同癌癥中的差異表達
作者為了探討不同CBXs在結(jié)直腸癌患者中的不同表達,采用Oncomine數(shù)據(jù)庫分析mRNA表達。根據(jù)Oncomine的數(shù)據(jù),CRC組織中CBX1、CBX2、CBX3、CBX4、CBX5、CBX8的轉(zhuǎn)錄水平顯著升高,而CBX6、CBX7的轉(zhuǎn)錄水平較正常組織明顯降低

復現(xiàn)步驟:
登陸oncomine數(shù)據(jù)庫
?https://www.oncomine.org/resource/main.html

這個網(wǎng)站僅限非盈利機構郵箱可以免費注冊,免費功能一般就可滿足我們的需要,我們可以看到目前oncomine數(shù)據(jù)庫收錄了715個數(shù)據(jù)集,其中包含了86733個樣本的芯片數(shù)據(jù),支持幾乎所有的蛋白編碼基因,部分研究比較多的非編碼RNA也能搜索到,如明星的miRNA,let-7等。
1:首先,在【search】這一欄輸入CBX1,就會在右邊展示CBX1在各個癌種中的表達情況。
2:表格上方可以選擇數(shù)據(jù)篩選條件,包括p值,變化倍數(shù)等,不過一般默認就好~但是作者在這里將P值從默認的0.05改成了0.01,大家復現(xiàn)的時候注意一下。
3:數(shù)字代表了研究數(shù)量,紅藍色代表高低表達。我們可以看到復現(xiàn)出來的結(jié)果和原文一模一樣,按照同樣的步驟,將CBX2-8分別做出來,拼接到一起,即可得到Figure 1

接著,作者在這里列出了全文中唯一一張表,讓我們來看一下如何制作這張表吧
Supplemental Table?1
CBXs在不同類型的結(jié)直腸癌組織和正常組織中的表達?

我們這里依然用CBX1做示范。
復現(xiàn)步驟:
1:在oncomine數(shù)據(jù)庫中輸入CBX1
2: 選擇【Differential Analysis】再選擇其中癌VS癌旁的分析
3: 【Analysis Type】選擇Colorectal Cancer VS.Normal Analysis
4:這里P-VALUE根據(jù)個人情況選擇,作者在這里選擇了0.01
5:選擇來自TCGA的數(shù)據(jù)集之后,右邊出現(xiàn)了這個數(shù)據(jù)集具體信息,比如說Fold Change2.308,p為5.78E-04,將這些信息整理成表格即可得到Table1

Figure 2
CBXs 在結(jié)直腸癌中的表達
本張圖由GEPIA在線數(shù)據(jù)庫(http://gepia.cancer-pku.cn/)得到,GEPIA2于2020年5月份正式開放使用,是GEPIA的升級版。GEPIA2上線了多個GEPIA版本沒有的功能,在很大程度上豐富了網(wǎng)站的功能,可以幫助我們做出更多的可視化結(jié)果。比如說GEPIA2提供了自定義上傳數(shù)據(jù)分析的功能,為用戶提供個性化服務。GEPIA是唯一一個整合了TCGA和GTEx數(shù)據(jù)的在線工具,解決了TCGA數(shù)據(jù)庫的局限性(很多腫瘤類型的正常匹配樣品很少)現(xiàn)在讓我們一步一步來復現(xiàn)這張圖吧:

復現(xiàn)步驟:
1:打開GEPIA網(wǎng)址,,在【enter gene name】輸入CBX1

2:在菜單欄【Expression DIY】中選擇【profile】

3:選擇文章中研究的COAD癌種,點擊plot,即可得到文章中的圖

同樣的步驟,將CBX2-8用GEPIA畫出來,下載拼接即可得到Figure2

Figure1和Figure2是結(jié)果一里面的兩張圖,主要都是為了顯示CBX家族在結(jié)直腸癌病人中的表達情況。
那研究基因家族在腫瘤中的表達大家不要忘了還有一個神器~
那就是學的永遠沒有更新快的,地表最強【仙桃工具】啦
現(xiàn)在我們來用仙桃學術看一下如何復現(xiàn)本張圖:
這里我們依然用CBX1做示范
1:在高級版中選擇【表達差異】,再選擇【非配對樣本】
2:選擇【TCGA-COAD】數(shù)據(jù)集
3:輸入目標基因【CBX1】
4:按需選擇可視化方式,這里我們選擇默認的【箱式圖/柱狀圖】
5:點擊【確認】

即可出圖,點擊下載圖片。同樣的對CBX2-8進行分析,拼接起來?,F(xiàn)在我們有3種方法可以展示基因在結(jié)直腸癌中的表達量,分別是oncomine,GEPIA,仙桃學術工具,很明顯,用工具做出來的圖形個性化程度更高,也更加好看,小伙伴們學會了嗎?當然做表達量分析遠不止這3種方法,以后我們再根據(jù)文獻進行具體介紹。
Figure?3
CBX表達與結(jié)直腸癌腫瘤分期的相關性

對于這張圖有些小伙伴可能有些覺得不知道作者想表達什么意思,現(xiàn)在讓我們先對每個參數(shù)都進行講解,再教大家如何用2種方法進行復現(xiàn),首先我們還是用CBX1作為示例
1:看Pr值,小于0.05有意義
2:看中心點(白點),代表基因的表達均值
3:可以對COAD進行分期

方法一GEPIA復現(xiàn):
1:在Gene列中輸入【CBX1】
2:【Expression DIY】中選擇【Stage plot】
3:【Cancer name】選擇【COAD】
4:Plot color按照個人喜好選擇,作者這里選了紅色
5:點擊【plot】出圖,然后下載。

這個小提琴圖告訴我們,在腫瘤發(fā)展的不同時期,該基因表達無明顯差異,可以推測,該基因?qū)δ[瘤預后意義不大。同樣的方法,可以將CBX2-8補齊,拼接成Figure3。
方法二仙桃學術復現(xiàn):
1:高級版仙桃學術,選擇【臨床意義(靠)】
2:選擇【臨床相關性】
3:癌種選擇【結(jié)腸癌】
4:選擇【臨床-Pathologic.stage】分成Stage I,Stage II,StageIII,StageIV四組
5:基因輸入【CBX1】
6:點擊確認。

得到的結(jié)果和GEPIA結(jié)果類似,證明了在腫瘤發(fā)展的不同時期,該基因表達無明顯差異。和GEPIA得到結(jié)果一致。

Figure 4
結(jié)直腸癌中CBXs表達的預后價值
現(xiàn)在,我們來看一下Figure4:作者探究了CBX家族基因和生存之間的關系。

本圖依然是由GEPIA在線數(shù)據(jù)庫(http://gepia.cancer-pku.cn/)得到,我們一步一步來復現(xiàn):這里依然用CBX1為例
方法一GEPIA:
1:菜單欄選擇【Survival】
2:Gene輸入【CBX1】
3:【Methods】選擇【Overall Survival】,或者選擇【Disease Free Survical即RFS】就可得到原文中關于CBX1的兩張生存圖。
3: Datasets Selection輸入【COAD】
4:點擊【Plot】

Logrank是經(jīng)典的比較生存曲線差異的算法,一般認為P<0.05有顯著差異,這里p=0.85,不顯著,說明CBX1和生存無關。
方法二仙桃學術:
1:仙桃學術選擇【臨床意義(靠)】
2:下拉菜單選擇【預后分析】--【KM曲線圖】
3:選擇【COAD結(jié)腸癌】
4:輸入基因【CBX1】
5:【預后類型】這里先選擇OS,隨后選擇RFS
5:點擊確認,同樣的步驟得到CBX2-8拼接起來即可得到Figure4
Figure 5
CBXs在直腸癌中的預后價值
接著,我們來復現(xiàn)Figure5,本圖作者依然是為了證明CBX家族和生存之間是否有相關性。

作者用了Kaplan-Meier plotter在線數(shù)據(jù)庫。這個數(shù)據(jù)庫是一個生存分析的在線工具,最初是設計用來對肝癌中的miRNA進行生存分析,后來在此基礎上進一步拓展,目前支持21種腫瘤類型,包括miRNA和mRNA的生存分析,用法很簡單,我們這里還用CBX1舉例,復現(xiàn)步驟具體如下
1:因為Kaplan-Meier plotter分析gene chip只包括【Breast cancer】,【Ovarian cancer】,【Lung cancer】,【gastric cancer】,而作者研究的是COAD,所以需要選擇RNA-seq的泛癌數(shù)據(jù)。

2:Gene symbol輸入【CBX1】
3:這里選擇【OS】
4:選擇癌種【Rectum adenocarcinoma】
5:【Draw Kaplan-Meier plot】即可出圖

結(jié)果和原文一模一樣。至此,我們現(xiàn)在學會了用3種方法做基因生存分析,小伙伴在做自己課題的時候記得每種做生存分析的方法都試一遍,選取自己想要的結(jié)果放在文章里。

Figure 6
結(jié)直腸癌中CBX的基因突變和表達分析
接下來我們來復現(xiàn)Figure6: 結(jié)直腸癌患者CBXs的基因改變、表達和相互作用分析

本張圖作者用到了cBioportal分析工具(http://www.cbioportal.org/),String數(shù)據(jù)庫,GeneMANIA數(shù)據(jù)庫,我們先來簡單介紹一下cBioportal數(shù)據(jù)庫,這是探索腫瘤的基因組學特征的一個數(shù)據(jù)庫,是在DNA水平進行的,可對機制進一步研究,本數(shù)據(jù)庫不用注冊,可免費使用。這個網(wǎng)站目前存儲DNA拷貝數(shù)數(shù)據(jù),mRNA,miRNA表達數(shù)據(jù),非同義突變,蛋白質(zhì)水平和磷蛋白水平數(shù)據(jù),DNA甲基化數(shù)據(jù)和一些有限的臨床數(shù)據(jù)等。
具體復現(xiàn)步驟如下:
A圖:

1,2:我們先看一下A圖包含了Rectal Adenocarcinoma,Colon Adenocarcinoma,Colorectal Adenocarcinoma三種數(shù)據(jù)集,所以我們進入cBioportal網(wǎng)站后,選取相對應的數(shù)據(jù)集,7個數(shù)據(jù)集加在一起正好1949個samples
3:【Select Molecular Profiles】選取Mutations、Copy number alterations
4: 輸入我們文章中的基因家族名稱
5:點擊【Submit Query】

6:菜單欄中選取【Cancer Types Summary】即可得到A圖

B圖:

7:菜單欄我們選擇【OncoPrint】,即可得到B圖,
8:我們來細看一下下圖框框里的突變比例,CBX1-8分別為0.6%,1.3%,1%,2.6%,0.8%,1%,1%,1.6%,和原文比較之后發(fā)現(xiàn)一模一樣,復現(xiàn)非常有操作性。

接著我們來復現(xiàn)Figure6C,利用String數(shù)據(jù)庫分析得到

具體步驟如下:
1:左邊菜單欄里選擇【Multiple proteins】
2:將需要研究的基因/蛋白輸進去
3:Organism選擇【Homo sapiens】
4:點擊【Search】

5:點擊【Continue】即可得到Figure6C

我們現(xiàn)在來看一下Figure6D,該圖由GeneMANIA得到。

GeneMANIA(http://www.genemania.org)的開發(fā)者來自加拿大的多倫多大學,最開始數(shù)據(jù)庫相關文章(PMID:20576703)于2010.7月發(fā)表在Nucleic Acids Research雜志上(IF=11.501),截止到2021.3.12該文章已被引用1042次,之后開發(fā)者于2013年和2018年對該數(shù)據(jù)庫進行了兩次大更新,每次更新的文章也都發(fā)表在了Nucleic Acids Research雜志上。



該數(shù)據(jù)庫用于生成有關基因功能的假設,分析基因列表和為功能分析確定基因的優(yōu)先級,給定一個查詢基因列表,GeneMANIA使用大量的基因組學和蛋白質(zhì)組學數(shù)據(jù)發(fā)現(xiàn)功能相似的基因。在這種模式下,它根據(jù)查詢的預測值對每個功能基因組數(shù)據(jù)集進行加權(以上關于GeneMANIA資料引用自解螺旋—阿波沒有羅)
復現(xiàn)步驟:
1:如圖所示,我們以網(wǎng)站默認選擇物種和網(wǎng)絡,基因列表我們輸入CBX1-8基因名,點擊后面的放大鏡進行檢索(因為回車是繼續(xù)輸入下一個基因名),

2:點擊最右邊網(wǎng)頁,第一個圈圈標出來的按鈕,加載完成就會得到和文章一模一樣的結(jié)果,即Figure6D。這個數(shù)據(jù)庫功能與string數(shù)據(jù)庫類似,但和string相比,GeneMANIA圖更加炫酷好看一些,可能更受審稿人青睞,大家可根據(jù)需要自行選擇。

Figure 7
差異表達的CBX與免疫細胞浸潤之間的相關性
下面我們來復現(xiàn)最后一張圖Figure7:在結(jié)腸癌患者中,CBX家族的免疫細胞浸潤研究。

作者是利用了TIMER數(shù)據(jù)庫分析(http://timer.cistrome.org/)
復現(xiàn)步驟:
1:在最上方菜單欄中選擇【Immune】
2:Gene Expression中輸入我們需要研究的基因名【CBX1】
3:Immune Infiltrates依次選擇【B cell,CD8+T cell, CD4+T cell,Macrophage,Neutrophil,Dendritic Cell】
4:點擊【Submit】

5:這時候出來的是泛癌,我們在【Search】欄輸入COAD,可以點進去我們想要的圖形,拼接起來即可得到Figure7

至此,本文復現(xiàn)結(jié)束,本篇文章一個非常大的優(yōu)勢在于復現(xiàn)過程中結(jié)果和作者原圖結(jié)果幾乎一致,不像大部分生信文章重復不出來一模一樣的結(jié)果,很適合新手小白進行復現(xiàn)哦。如果在復現(xiàn)過程有疑惑,歡迎大家一起討論哦!