GEO數(shù)據(jù)庫使用和數(shù)據(jù)下載

2023-05-25 09:11 作者:小云愛生信 0人讀過 | 我要投稿

?小果?生信果?? 原創(chuàng)不易?? 歡迎點贊+收藏+關注

網(wǎng)址為https://www.ncbi.nlm.nih.gov/

在搜索框前面的All Databases處有個下拉箭頭，可以選擇不同的數(shù)據(jù)庫，這里我們選擇GEO Dataset數(shù)據(jù)庫，這里面就是我們要找的數(shù)據(jù)了。

在搜索框里打上關鍵字，一般是疾病的名字，這里以Stanford A型主動脈夾層（Type A Aortic Dissection，TAAD）為例：輸入關鍵字后，點擊搜索就可以了

上面這個圖就是搜索結果了，我們選擇數(shù)據(jù)集一般有一下幾個考量：

第一是物種，一般常用到的就是人，大鼠和小鼠。右邊可以選擇物種，縮小范圍。

第二是測序類型，常見的是Expression profiling by array和Expression profiling by high throughput sequencing，這個一般就是mRNA的表達量了，此外還有單細胞，非編碼RNA，甲基化等類型，可以根據(jù)需要選擇。

第三是樣本量，一般來講，樣本越多越好，很多分析都對樣本量有要求，比如WGCNA就要大于15，雙疾病要求每組至少6個樣本。

第四還需要留意樣本組成，一般疾病最好要有患病和正常樣本的分組，癌癥樣本最好要有預后信息。

我們點進一個樣本集，看一下下面這個：

可以先看一下樣本的基本信息，數(shù)據(jù)集的標號是GSE開頭的。

然后我們看一下樣本構成，患病和正常樣本分的很清楚，樣本的編號是GSM開頭，重點關注一下測序平臺，這個是RNA測序數(shù)據(jù)，這樣的數(shù)據(jù)庫一般會提供一個表達矩陣放在補充材料里，如果沒有的話，一般就不選擇這個數(shù)據(jù)集了，不過我們這個是有的，就在最下面的Supplementary file里，直接下載就可以了。