從geo數(shù)據(jù)庫(kù)下載數(shù)據(jù)的幾種方法
爾云間? 一個(gè)專門(mén)做科研的團(tuán)隊(duì)
? ?

對(duì)于從事生物醫(yī)學(xué)及生物信息學(xué)的人員來(lái)說(shuō),GEO(Gene Expression Omnibus database)數(shù)據(jù)庫(kù)的重要性大家一定不陌生了吧,GEO數(shù)據(jù)庫(kù)收集了大量表達(dá)譜、甲基化、LncRNA、miRNA、拷貝數(shù)變異(CNV)等各種芯片數(shù)據(jù),并且還存儲(chǔ)了一些二代數(shù)據(jù)和其他高通量測(cè)序數(shù)據(jù)。
今天小果將帶大家學(xué)習(xí)如何從GEO數(shù)據(jù)庫(kù)下載你所需要的數(shù)據(jù),讓GEO數(shù)據(jù)庫(kù)成為你科研路上重要的助力。
GEO數(shù)據(jù)庫(kù)所包含的信息
1) GEO Platform (GPL) 芯片平臺(tái)
2) GEO Sample (GSM) 樣本ID號(hào)
3) GEO Series (GSE) study的ID號(hào)
4) GEO Dataset (GDS) 數(shù)據(jù)集的ID號(hào)

注:文獻(xiàn)中會(huì)提到所用數(shù)據(jù)集
數(shù)據(jù)下載
1、方法一
打開(kāi)GEO官網(wǎng):Home - GEO - NCBI (nih.gov),輸入GSE編號(hào),點(diǎn)擊Search


下拉,選擇Series Matrix File(s)

下載matrix文件 ,可以下載到本地,也可以通過(guò)文件傳輸?shù)姆绞皆诜?wù)器進(jìn)行傳輸 wget
https://ftp.ncbi.nlm.nih.gov/geo/series/GSE102nnn/GSE102031/matrix/GSE102031_series_matrix.txt.gz(42M)
如果想要下載原始數(shù)據(jù),可以點(diǎn)擊Download下面的下載鏈接進(jìn)行下載

還可以通過(guò)直接查找SRA編號(hào)—Send to—File—Runinfo下載csv表格,打開(kāi)后有一個(gè)下載鏈接可以直接下載


下載完成后您可能有些疑問(wèn),我們會(huì)得到一個(gè).sra結(jié)尾的數(shù)據(jù),SRA是壓縮文件,我們只要使用fastq-dump進(jìn)行解壓就能得到原始文件。
也可以打開(kāi)網(wǎng)址:Index of / (nih.go11111v):

?選擇geo—seris—要選的系列—GSE編號(hào):

2、方法二
通過(guò)加裝GEOquery包,使用GEOquery包可以得到對(duì)應(yīng)GEO的表達(dá)矩陣,注釋信息,樣本信息等。
options()$repos #翻墻
options("repos" c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))#選擇鏡像
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
library(GEOquery)
gset <- getGEO('GSE102031', ##GSE編號(hào)
destdir=".",
?????????????? AnnotGPL = T,???? ## 注釋文件
?????????????? getGPL = T)?????? ## 平臺(tái)文件

推薦閱讀
關(guān)注小果,小果將會(huì)持續(xù)為你帶來(lái)更多生信干貨哦。

生信果
生信入門(mén)、R語(yǔ)言、生信圖解讀與繪制、軟件操作、代碼復(fù)現(xiàn)、生信硬核知識(shí)技能、服務(wù)器等