GEO數(shù)據(jù)庫使用和數(shù)據(jù)下載
?歡迎點贊+收藏+關注

網(wǎng)址為https://www.ncbi.nlm.nih.gov/

在搜索框前面的All Databases處有個下拉箭頭,可以選擇不同的數(shù)據(jù)庫,這里我們選擇GEO Dataset數(shù)據(jù)庫,這里面就是我們要找的數(shù)據(jù)了。
在搜索框里打上關鍵字,一般是疾病的名字,這里以Stanford A型主動脈夾層(Type A Aortic Dissection,TAAD)為例:輸入關鍵字后,點擊搜索就可以了

上面這個圖就是搜索結果了,我們選擇數(shù)據(jù)集一般有一下幾個考量:
第一是物種,一般常用到的就是人,大鼠和小鼠。右邊可以選擇物種,縮小范圍。
第二是測序類型,常見的是Expression profiling by array和Expression profiling by high throughput sequencing,這個一般就是mRNA的表達量了,此外還有單細胞,非編碼RNA,甲基化等類型,可以根據(jù)需要選擇。
第三是樣本量,一般來講,樣本越多越好,很多分析都對樣本量有要求,比如WGCNA就要大于15,雙疾病要求每組至少6個樣本。
第四還需要留意樣本組成,一般疾病最好要有患病和正常樣本的分組,癌癥樣本最好要有預后信息。
我們點進一個樣本集,看一下下面這個:

可以先看一下樣本的基本信息,數(shù)據(jù)集的標號是GSE開頭的。

然后我們看一下樣本構成,患病和正常樣本分的很清楚,樣本的編號是GSM開頭,重點關注一下測序平臺,這個是RNA測序數(shù)據(jù),這樣的數(shù)據(jù)庫一般會提供一個表達矩陣放在補充材料里,如果沒有的話,一般就不選擇這個數(shù)據(jù)集了,不過我們這個是有的,就在最下面的Supplementary file里,直接下載就可以了。

這個表達矩陣就算是整理的比較好的,有基因名,表達數(shù)據(jù)是count值,可以根據(jù)需要進行標準化。
接下來小云再給大家找一個芯片數(shù)據(jù)集,它的下載方式和測序數(shù)據(jù)不太一樣。

上面這個是結直腸癌的,GSE39582,測序平臺GPL570,這也是一個常見的芯片測序平臺,芯片數(shù)據(jù)要從Series Matrix Files處下載,點進去,界面如下:

點擊就可以下載了。
芯片數(shù)據(jù)下載之后需要做一個轉換,因為芯片數(shù)據(jù)的行名是探針編號,需要轉換為基因名,探針和基因名的對應關系可以點擊測序平臺,也就是GPL570這個位置,根據(jù)下面這個表進行ID轉換。

推薦閱讀
“生信果”,生信入門、R語言、生信圖解讀與繪制、軟件操作、代碼復現(xiàn)、生信硬核知識技能、服務器、生物信息學的教程,以及基于R的分析和可視化等原創(chuàng)內容,一起見證小白和大佬的成長。