可能是我寫過最好懂的的GEO數(shù)據(jù)庫入門教程
我們今天為什么要講GEO?不少小伙伴打開前,腦子里可能充滿了問號(hào)。
那這里就告訴你GEO有多好:
拿別人的數(shù)據(jù),發(fā)自己的文章!
無論是腫瘤、非腫瘤、芯片、NGS、差異分析,還是分子驗(yàn)證……
你能想到的數(shù)據(jù),這里幾乎都有,
還可以做一些在線分析。
你會(huì)想?這也可以?!
當(dāng)然可以!發(fā)了文章要公開數(shù)據(jù)的!你用的就是這些數(shù)據(jù)!
互聯(lián)網(wǎng)的精神就是公開。
呃,扯遠(yuǎn)了……下面開始說正題,把這個(gè)好用的數(shù)據(jù)庫的基本操作介紹給大家!
一、GEO數(shù)據(jù)庫介紹
1、GEO數(shù)據(jù)庫概況
首先我們來了解一下GEO數(shù)據(jù)庫:
GEO,全稱Gene Expression Omnibus?(基因表達(dá)綜合數(shù)據(jù)庫),網(wǎng)址∶https∶/ww.ncbinlm.nih.gov/geo/,是由美國國立生物技術(shù)信息中心 (National Center for Biotechnology?Information,NCBD于2000年創(chuàng)建并維護(hù)至今的高通量基因表達(dá)數(shù)據(jù)庫。GEO是一個(gè)國際公共存儲(chǔ)庫,收錄并整理了全球范圍內(nèi)研究工作者上傳的微陣列芯片、二代測(cè)序以及其他形式的高通量基因組數(shù)據(jù),并提供免費(fèi)下載。

【先領(lǐng)再看】
從課題設(shè)計(jì)到數(shù)據(jù)挖掘,從文章復(fù)現(xiàn)到寫作投稿,輕松入門GEO數(shù)據(jù)庫,零代碼搞定5+生信文章!還等什么?趕緊加入我們的免費(fèi)geo數(shù)據(jù)庫訓(xùn)練營~
https://m.helixlife.cn/trainings/d1a65e2e-bc8d-4649-a1d3-18a85556a6de/channel?c=b29a79fd-c4ab-471a-a5e4-97accc3941c9
這就是以后我們做課題和寫論文幾乎天天都要打交道的GEO數(shù)據(jù)庫了。
GEO數(shù)據(jù)庫最有價(jià)值的部分是存儲(chǔ)了大量芯片數(shù)據(jù),包括原始數(shù)據(jù)和處理后數(shù)據(jù)。
GEO數(shù)據(jù)有兩種存儲(chǔ)形式,其中:
GEO DataSets 以數(shù)據(jù)集為單位,存儲(chǔ)同一個(gè)實(shí)驗(yàn)中的數(shù)據(jù);
GEO Profiles 以基因?yàn)閱挝?,存?chǔ)基因在數(shù)據(jù)集中的表達(dá)譜。
不同的存儲(chǔ)形式涉及兩種不同的數(shù)據(jù)檢索方式。
2、GEO數(shù)據(jù)組織結(jié)構(gòu)
GEO數(shù)據(jù)庫中海量的數(shù)據(jù)自然不能雜亂無章地堆積,
嚴(yán)密的數(shù)據(jù)組織結(jié)構(gòu)就是十分必須的。
GEO數(shù)據(jù)庫的數(shù)據(jù)就依據(jù)不同的等級(jí),從大到小,組成了如下所示的層次嚴(yán)密的組織結(jié)構(gòu):
Platforms?
高通量實(shí)驗(yàn)檢測(cè)所用工具(哪個(gè)公司哪款產(chǎn)品),編號(hào)GPL開頭,例如?GPL570
Series?
構(gòu)成某個(gè)實(shí)驗(yàn)的相關(guān)樣本,組成一個(gè)有生物意義的數(shù)據(jù)集,
包括樣本信息和方案設(shè)計(jì)等信息,可以看做一套完整的實(shí)驗(yàn)方案,實(shí)際上每個(gè)Series基本對(duì)應(yīng)一篇完整的論文,
Series 在科研工作中是最為常用的數(shù)據(jù)層級(jí)!?
編號(hào)GSE開頭,例如GSE5764。
Datasets?&?Profiles
一些高質(zhì)量的GSE數(shù)據(jù)集還會(huì)被GEO官方工作者整理為Datasets和Profiles。
Datasets 是分析好的Series,編號(hào)以GDS開頭。
Profiles?則以基因?yàn)閱挝淮鎯?chǔ)數(shù)據(jù),是Datasets?各分組中的表達(dá)譜,分配的是流水號(hào),例如33759453。
但并不是所有上傳的數(shù)據(jù)都會(huì)被整理,甚至只有少數(shù)會(huì)被整理,因?yàn)楹芏?/span>GSE數(shù)據(jù)集沒有進(jìn)一步被拆分的必要。
Sample?
實(shí)驗(yàn)中的樣本。每一個(gè)樣本都會(huì)分配一個(gè)號(hào)碼。編號(hào)以GSM開頭,例如GSM134584
在GEO首頁,我們就可以根據(jù)不同的數(shù)據(jù)組織結(jié)構(gòu),查找數(shù)據(jù)。

研究者上傳數(shù)據(jù)時(shí)填寫信息,GEO官方根據(jù)填寫的信息分配編號(hào)。
3、GEO的研究數(shù)據(jù)類型
GEO數(shù)據(jù)庫的數(shù)據(jù)類型有9種,以芯片為主,例如RNA、甲基化和SNP芯片數(shù)據(jù)等。
也包括很多高通量測(cè)序數(shù)據(jù)。
高通量測(cè)序數(shù)據(jù),原始數(shù)據(jù)存儲(chǔ)在SRA,處理后數(shù)據(jù)則存儲(chǔ)在GEO中。
在一份GSE數(shù)據(jù)集詳情頁面,我們就可以看到清晰的說明

在使用GEO數(shù)據(jù)時(shí),千萬不要忘記注明引用該數(shù)據(jù)文獻(xiàn)的PMID編號(hào)!
2、GEO數(shù)據(jù)庫的檢索
1、GEO官網(wǎng)簡(jiǎn)單檢索
在官網(wǎng)首頁,我們可以輕松地根據(jù)數(shù)據(jù)集等級(jí)或編號(hào)輕松搜索瀏覽數(shù)據(jù)

下面是以lung?cancer為關(guān)鍵詞的檢索結(jié)果

但這樣,往往只能簡(jiǎn)單搜到一些完全匹配的數(shù)據(jù),需要作者在Title里正好用了你使用的關(guān)鍵詞。
點(diǎn)擊鏈接,最后的頁面也會(huì)回到GEO DataSets和GEO Profiles?兩種檢索方式。
所以,下面我們分別演示這兩種不同的數(shù)據(jù)檢索方式。
2、Entrez的GEO?Profiles檢索
還是以lung cancer為例,我們檢索一下lung cancer的abcc1基因,我們?cè)贕EO首頁檢索框的下拉列表里選擇GEO?Profiles

可以得到如下結(jié)果,各種詳細(xì)信息都很清楚地展示出來。
這里特別強(qiáng)調(diào)一下黃框中兩個(gè)有用的信息,檢索語言和數(shù)據(jù)信息圖示。

在Search Details中可以清晰看出不同關(guān)鍵詞之間用布爾運(yùn)算符表示的邏輯關(guān)系。
特別要注意的是“l(fā)ung cancer”是作為一個(gè)完整的詞組進(jìn)行檢索;
如果要分別檢索“l(fā)ung”和“cancer”,
在“l(fā)ung cancer”中間加上“AND”就可以了。
每條明細(xì)后面的示意圖展示了數(shù)據(jù)集中不同分組的表達(dá)水平
點(diǎn)擊示意圖,可以查閱詳細(xì)的分組信息、表達(dá)水平和3樣本的具體信息。

3、Entrez的GEO Datasets檢索和分析
首先,我們?cè)谙吕蛑羞x擇Datasets。這個(gè)檢索框可檢索GPL、GSE、GDS、GSM,但實(shí)際應(yīng)用中,多數(shù)場(chǎng)景下只檢索GSE數(shù)據(jù)集。

我們輸入lung cancer cisplatin cisplatin resistant,關(guān)于肺癌抗性的關(guān)鍵詞,每個(gè)條目都列出了數(shù)據(jù)集明細(xì)。兩邊分別有根據(jù)數(shù)據(jù)集類型和來源的歸類整理。

例如,我們選擇DataSets數(shù)據(jù)集,就只顯示DataSets結(jié)果

點(diǎn)擊數(shù)據(jù)集標(biāo)題可以進(jìn)入詳情頁面,有數(shù)據(jù)集的各類信息明細(xì),
我們可以先點(diǎn)擊查看熱圖

選擇熱圖指定區(qū)域,點(diǎn)擊查看Profiles


選擇Clustering,可以改變熱圖的分類方法和表現(xiàn)形式

回到詳情頁面,點(diǎn)擊Expression Profiles,我們可以查看所有該DataSets下所有Profiles


Data?Analysis?Tools則是一組在線分析小工具

首先是查看Profiles(也就是基因)
如果什么都不填,那和點(diǎn)擊點(diǎn)擊Expression Profiles的結(jié)果是一樣的,也就是查看所有的Profiles


如果填寫具體基因,就只看到該基因的結(jié)果


接下來,依次點(diǎn)擊不同小工具選項(xiàng),按照需求選擇分析要求,可分別做差異分析、聚類和中位分布。



點(diǎn)擊Sample?Subset可獲得樣本信息

點(diǎn)擊DataSets所屬的GPL,可獲得GPL的詳細(xì)信息



點(diǎn)擊DataSets所屬的GSE,可獲得GSE的詳細(xì)信息



在GSE的詳情頁面,我們也可以訪問GSE中每一個(gè)GSM的詳情


三、GEO數(shù)據(jù)的下載和解讀
GEO數(shù)據(jù)庫提供了兩種數(shù)據(jù):
原始數(shù)據(jù):芯片掃描儀直接讀取的原始熒光信號(hào)數(shù)據(jù)
歸一化數(shù)據(jù):芯片整體熒光信號(hào)背景校正,對(duì)所有表達(dá)情況做標(biāo)準(zhǔn)化和平衡,對(duì)異常值做處理,對(duì)熒光信號(hào)做計(jì)算轉(zhuǎn)化為數(shù)值變量。
在GSE中,我們可以看到這兩種數(shù)據(jù)

通常我們下載SOFT文件和Series Matrix文件。
但也不是所有歸一化后的文件都可用,我們要去GSM的詳細(xì)信息頁面中去找
一般,如下圖所示,RAM歸一化后的數(shù)據(jù)是可以直接用的,因?yàn)檫@樣的數(shù)據(jù)經(jīng)過log2處理,相差不大,分析計(jì)算結(jié)果比較可靠。

在下載原始數(shù)據(jù)時(shí),有些GSE數(shù)據(jù)集可能體積很大,幾百M(fèi)甚至上G,NCBI因?yàn)槭敲绹W(wǎng)絡(luò),服務(wù)器不穩(wěn)定,瀏覽器下載很容易中斷重來,建議使用迅雷下載。
別忘了加入免費(fèi)geo數(shù)據(jù)庫訓(xùn)練營~
從課題設(shè)計(jì)到數(shù)據(jù)挖掘,從文章復(fù)現(xiàn)到寫作投稿,輕松入門GEO數(shù)據(jù)庫,零代碼搞定5+生信文章!
https://m.helixlife.cn/trainings/d1a65e2e-bc8d-4649-a1d3-18a85556a6de/channel?c=b29a79fd-c4ab-471a-a5e4-97accc3941c9