如此簡(jiǎn)單嗎?一文拿捏GEO數(shù)據(jù)庫(kù)芯片數(shù)據(jù)下載及差異分析
爾云間? 一個(gè)專門做科研的團(tuán)隊(duì)
歡迎點(diǎn)贊+收藏+關(guān)注
生信人R語(yǔ)言學(xué)習(xí)必備
立刻擁有一個(gè)Rstudio賬號(hào)
開(kāi)啟升級(jí)模式吧
(56線程,256G內(nèi)存,個(gè)人存儲(chǔ)1T)
通過(guò)該推文,你將完全掌握GEO公共數(shù)據(jù)下載和差異分析,非常非常適合小白,如果你有數(shù)據(jù)挖掘的想法,接下來(lái)馬上跟著小果開(kāi)始今天的學(xué)習(xí)之旅,相信你會(huì)收獲滿滿。
1.?如何獲得相關(guān)疾病的GEO數(shù)據(jù)庫(kù)ID
在進(jìn)行實(shí)操之前,最重要的是要獲得相關(guān)疾病的GEO數(shù)據(jù)庫(kù)ID,如何獲得呢?不慌!小果為大家介紹兩種常用的方法。第一種方法是通過(guò)NCBI GEO DataSets 數(shù)據(jù)庫(kù)下載,可以直接輸入想查詢的疾病名稱就可以進(jìn)行搜索獲得相應(yīng)的數(shù)據(jù),網(wǎng)址為:https://www.ncbi.nlm.nih.gov/gds/?term=GSE70494

第二種方法是通過(guò)以發(fā)表的文獻(xiàn)來(lái)查詢相關(guān)疾病的GEO ID,小果是通過(guò)PubMed來(lái)查詢,只需要輸入相關(guān)疾病關(guān)鍵字和GEO就可以搜索到相關(guān)文章和GEO ID,該網(wǎng)址為:https://pubmed.ncbi.nlm.nih.gov/?term=gene+family
?

一般通過(guò)這兩種方法就可以獲取自己想要的GEO ID,通過(guò)小果的方法獲得ID后,就可以跟著小果開(kāi)始今天的實(shí)操分析啦,其實(shí)就是這么簡(jiǎn)單?。?!哈哈哈哈哈。。。。。。。。
2.?導(dǎo)入需要的R包
3.?從GEO下載表達(dá)矩陣和芯片注釋注釋文件



#小果來(lái)畫重點(diǎn)啦!不同的測(cè)序平臺(tái)芯片注釋信息可能有差異奧,在提取注釋信息的時(shí)候要根據(jù)不同平臺(tái)格式靈活處理,本實(shí)例數(shù)據(jù)測(cè)序平臺(tái)為GPL3912,可以點(diǎn)擊查看注釋信息內(nèi)容。
點(diǎn)擊GPL3912,就可以看到芯片完整注釋信息:


?4.把表達(dá)矩陣的探針I(yè)D換成Gene Symbol



5.按照實(shí)驗(yàn)設(shè)計(jì)整理分組信息

#分組矩陣(design)已構(gòu)建好
6.利用limma 包進(jìn)行差異分析



?
#把全部基因的limma分析結(jié)果保存到文件
7.結(jié)果文件
1.?gplTOgene.csv
該結(jié)果文件為探針id對(duì)應(yīng)的Gene symbol和entrez_id,第一列為探針I(yè)D,第二列為Gene symbol,第三列為entrez_id。

2.?easy_input_expr.csv
該結(jié)果文件為處理好的表達(dá)矩陣文件,行名為Gene symbol,列名為對(duì)應(yīng)的樣本名。

?3.?easy_input_pheno.txt
該結(jié)果文件為提取的樣本分組文件。

?4.?easy_input_limma.csv
該結(jié)果文件為通過(guò)limma包進(jìn)行差異分析結(jié)果文件,行名為Gene symbol,第一列為log2FC,第四列為Pvalue值,第五列為矯正后的Pvalue值。

今天小果的分享就到這里啦!如果小伙伴有其他數(shù)據(jù)分析需求,可以嘗試本公司新開(kāi)發(fā)的生信分析小工具云平臺(tái),零代碼完成分析,非常方便奧,
云平臺(tái)網(wǎng)址為:http://www.biocloudservice.com/home.html,
包括了GEO數(shù)據(jù)下載(http://www.biocloudservice.com/371/371.php),limma+gsva(http://www.biocloudservice.com/371/371.php)等小工具,歡迎大家和小果一起討論學(xué)習(xí)哈?。。?!

“生信果”,生信入門、R語(yǔ)言、生信圖解讀與繪制、軟件操作、代碼復(fù)現(xiàn)、生信硬核知識(shí)技能、服務(wù)器、生物信息學(xué)的教程,以及基于R的分析和可視化等原創(chuàng)內(nèi)容,一起見(jiàn)證小白和大佬的成長(zhǎng)。