GEO數(shù)據(jù)庫(kù)保姆級(jí)入門實(shí)操教學(xué),建議收藏
最近一直在給大家分享優(yōu)秀的文獻(xiàn)思路解讀,相信大家看了這么多idea,一定也有了自己文章的想法吧~
但是呢,有想法是一方面,而能不能實(shí)現(xiàn)又是另一方面。
?
今天喵學(xué)姐就來(lái)手把手教教大家生信分析如何邁出第一步——數(shù)據(jù)獲取。
看完這篇教程,你也可以開(kāi)始動(dòng)手下載和整理自己想要的數(shù)據(jù),接著做出屬于自己的精美結(jié)果圖啦!
?

這次就用之前講過(guò)的一篇非腫瘤思路文獻(xiàn)來(lái)舉例,
新來(lái)滴寶寶們可以點(diǎn)下面的鏈接先看一下整體思路解讀,看過(guò)的老朋友們也可以來(lái)復(fù)習(xí)一下:4分+非腫瘤純生信,GEO數(shù)據(jù)集+鐵死亡+cytoscape調(diào)控網(wǎng)絡(luò)+miRNA+轉(zhuǎn)錄因子,這思路我都想抄作業(yè)了
Title: Identification of Ferroptosis-Related Genes in Schizophrenia Based on Bioinformatic Analysis
標(biāo)題:基于生物信息學(xué)分析的精神分裂癥鐵死亡相關(guān)基因鑒定
期刊:Genes? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

此篇文獻(xiàn)是精神分裂癥相關(guān)的非腫瘤疾病生信分析。
>>接下來(lái)一起跟著我看看該如何下載作者的數(shù)據(jù)吧<<

作者使用的是GEO數(shù)據(jù)庫(kù)中GSE27383數(shù)據(jù)集和GSE21138數(shù)據(jù)集的表達(dá)譜+臨床數(shù)據(jù)。
?

數(shù)據(jù)庫(kù)的使用

GEO數(shù)據(jù)庫(kù)(Gene Expression Omnibus,基因表達(dá)綜合數(shù)據(jù)庫(kù))
網(wǎng)址:https://www.ncbi.nlm.nih.gov/geo/
?是由美國(guó)國(guó)立生物技術(shù)信息中心 (National Center for Biotechnology Information,NCBD于2000年創(chuàng)建并維護(hù)至今的高通量基因表達(dá)數(shù)據(jù)庫(kù)。
?是一個(gè)國(guó)際公共存儲(chǔ)庫(kù),收錄并整理了全球范圍內(nèi)研究工作者上傳的微陣列芯片、二代測(cè)序以及其他形式的高通量基因組數(shù)據(jù),并提供免費(fèi)下載。
你想要的數(shù)據(jù),這里幾乎都有!
?
Step 1. 搜索關(guān)鍵詞

我們可以直接在GEO數(shù)據(jù)檢索界面鍵入關(guān)鍵詞,也可以點(diǎn)擊圖中1和2處進(jìn)行數(shù)據(jù)檢索。
這里以“Schizophrenia”為例,直接在搜索框中進(jìn)行輸入,出現(xiàn)如下結(jié)果:

第一行為GEO DataSets數(shù)據(jù),第2行為GEO Profiles數(shù)據(jù)。
?
這是兩種GEO數(shù)據(jù)的存儲(chǔ)形式:
1.???? GEO DataSets :以數(shù)據(jù)集為單位,存儲(chǔ)同一個(gè)實(shí)驗(yàn)中所有樣本的數(shù)據(jù)。
(我們所需要的大部分?jǐn)?shù)據(jù)集通常都使用這種)
2.GEO Profiles :以基因?yàn)閱挝?,存?chǔ)基因在數(shù)據(jù)集中的表達(dá)譜。
(使用較少)
此處我們需要一次實(shí)驗(yàn)中所有的數(shù)據(jù),因此點(diǎn)擊5284可直接進(jìn)入GEO數(shù)據(jù)檢索界面。

Step 2. 定義數(shù)據(jù)集屬性:
1.Series:科研工作中是最為常用的數(shù)據(jù)層級(jí)。
2.Platforms:高通量實(shí)驗(yàn)檢測(cè)所用工具(哪個(gè)公司哪款產(chǎn)品),編號(hào)GPL開(kāi)頭,例如GPL55188。

?
Step 3. 篩選所需數(shù)據(jù)集
根據(jù)關(guān)鍵詞搜索,會(huì)有很多數(shù)據(jù)集被檢索到,建立有效的篩選機(jī)制,能夠幫助我們縮小搜尋范圍。
一般通用的篩選條目有如下三個(gè),可依次選中。
1處是數(shù)據(jù)集類型,選Series。
2處是數(shù)據(jù)類型,限定為基因表達(dá)譜數(shù)據(jù)集。
3處是組織來(lái)源,一般選擇人類。
?
通過(guò)關(guān)鍵詞檢索出來(lái)的數(shù)據(jù)集數(shù)量龐大,我們也可以設(shè)定一些“條件”,過(guò)濾掉一些無(wú)效數(shù)據(jù)集。
數(shù)據(jù)集選擇原則:
1、題名:符合所研究主題
2、樣本量:不宜過(guò)小
?
Step 4. 數(shù)據(jù)集里包含的信息:

1.研究設(shè)計(jì):可判斷該數(shù)據(jù)集中樣本是否適合本研究使用(分組信息、臨床特征、樣本量等)
2.PMID編號(hào):在使用GEO數(shù)據(jù)時(shí),需要注明引用該數(shù)據(jù)文獻(xiàn)的PMID編號(hào)!
3.平臺(tái)文件:數(shù)據(jù)檢測(cè)平臺(tái),含有探針及基因名的注釋文件(需下載)
Sample:實(shí)驗(yàn)中的樣本分組信息,每一個(gè)樣本都會(huì)分配一個(gè)號(hào)碼。編號(hào)以GSM開(kāi)頭
4.GEO2R:GEO自帶的分析工具
5.矩陣文件:含有患者臨床信息、基因表達(dá)譜(需下載,分析所需)
原始數(shù)據(jù)存儲(chǔ)在附錄,處理后數(shù)據(jù)則存儲(chǔ)在GEO中
?

數(shù)據(jù)下載
Step 5.下載及查看GEO數(shù)據(jù)集信息
確定了數(shù)據(jù)集后,就可以開(kāi)始下載了。
我們這一步需要下載兩個(gè)文件:
(1)GPL平臺(tái)注釋文件(2)表達(dá)矩陣“series matrix”文件。
PS:下載平臺(tái)注釋文件之前,我們需要點(diǎn)擊該GPL文件,瀏覽里面的信息,查看是否有Gene Symbol標(biāo)識(shí);若無(wú)Gene Symbol標(biāo)識(shí),則表示該平臺(tái)無(wú)基因的ID注解,我們無(wú)法對(duì)ID進(jìn)行基因名的轉(zhuǎn)換。

因此,查找數(shù)據(jù)集時(shí)除了樣本信息要符合我們的需求外,還要確保能得到我們的數(shù)據(jù)。
?
平臺(tái)在線注釋文件(下載):

矩陣文件(下載):


以文獻(xiàn)所用數(shù)據(jù)集GSE27383和GSE21138為例
GSE27383
Marked Reduction of AKT1 Expression and Deregulation of AKT1-associated Pathways in Peripheral Blood Mononuclear Cells of Schizophrenia Patients
該數(shù)據(jù)集包含樣本:
30例:正常對(duì)照組
22例:急性入院,嚴(yán)重精神病性精神分裂癥患者
21例:緩解期精神分裂癥患者

GSE21138
Gene Expression Profiles in BA46 of Subjects with Schizophrenia and Matched Controls
該數(shù)據(jù)集包含樣本:
30例:精神分裂癥患者
29例:年齡、性別匹配的對(duì)照組

?
Step 6. 分析所用數(shù)據(jù)整合
利用GEO數(shù)據(jù)分析時(shí),需要準(zhǔn)備好兩個(gè)文件:臨床數(shù)據(jù)表+基因表達(dá)譜
?
準(zhǔn)備基因表達(dá)譜,需要下載2個(gè)文件:平臺(tái)文件+矩陣文件
平臺(tái)文件:探針名+對(duì)應(yīng)的基因名

該文件中第1列為基因的ID,文件也包含了相關(guān)ID的基因名,即Gene Symbol。
?
矩陣文件:臨床特征數(shù)據(jù)+探針名的表達(dá)譜

PS:紅框以上數(shù)據(jù)為數(shù)據(jù)集的臨床特征資料,因此這部分?jǐn)?shù)據(jù)需單獨(dú)提取出來(lái)進(jìn)行保存,并進(jìn)行轉(zhuǎn)置,使得文件內(nèi)容格式為行為樣本名,列為變量,作為后續(xù)分析使用的臨床數(shù)據(jù)表。
?
紅框以下數(shù)據(jù)為數(shù)據(jù)集的基因表達(dá)譜。所示內(nèi)容為基因的ID名稱,可以看出,在基因表達(dá)譜部分,“行”是基因的樣本ID編號(hào),“列”是表達(dá)數(shù)據(jù)的矩陣。但矩陣不含基因名,不方便我們進(jìn)行后續(xù)分析。
?
因此,我們需要對(duì)紅框所列數(shù)據(jù)進(jìn)行替換,將基因ID替換為我們熟悉的基因名。紅框內(nèi)的文件需轉(zhuǎn)換成基因名。
?
Step 7. 平臺(tái)文件+矩陣文件結(jié)合
后續(xù)操作,我們需要利用平臺(tái)文件中的ID與矩陣文件中的ID進(jìn)行匹配,將Gene Symbol列提取至矩陣文件,替換探針名,準(zhǔn)備基因表達(dá)譜。
匹配后,即可得到“行”是基因名,“列”是表達(dá)值的基因表達(dá)譜啦。
從這個(gè)表達(dá)譜中,就可以提取自己感興趣的基因表達(dá)值做后續(xù)分析。


在矩陣文件中,探針名A列后插入一列B,作為基因名匹配列。
點(diǎn)擊B1單元格,使用Vlookup函數(shù)進(jìn)行匹配:
第1行:選定共同的變量,進(jìn)行匹配
此處2個(gè)文件中共同變量為ID探針名,因此此處選擇探針的格子A65
第2行:要用共同變量匹配的含基因名的文件,在哪個(gè)區(qū)域
此處帶基因名的文件在GPL570-55999平臺(tái)文件中,共同變量在A列,基因名在K列,都需要列入,因此選定A-K區(qū)域
第3行:基因名所在列數(shù)
此處基因名在K列,為第11列,填11
第4行:是否精確匹配,0:精確匹配;1:模糊匹配
此處我們?yōu)榫_匹配,填0
?
按共同變量ID探針名匹配好的基因表達(dá)譜如下,可看出每個(gè)探針I(yè)D均已匹配好相應(yīng)的基因名。

?
Step 8. 可實(shí)現(xiàn)的生信分析
準(zhǔn)備好這兩個(gè)GEO文件,就可以用來(lái)做后續(xù)的生信分析了。
利用GEO數(shù)據(jù)分析所需文件:臨床數(shù)據(jù)表+基因表達(dá)譜
可以做差異基因分析、火山圖、熱圖、臨床特征分析等……

但GEO原始數(shù)據(jù)在使用時(shí)非常不便,需要進(jìn)行后續(xù)處理:
1、 需要取出矩陣文件中的臨床數(shù)據(jù),轉(zhuǎn)置處理;
2、 需提取出矩陣文件中的表達(dá)譜(探針名),隨后通過(guò)與平臺(tái)文件中的探針名進(jìn)行匹配,將矩陣文件中的探針名轉(zhuǎn)換為基因名。
?
所以喵學(xué)姐想給大家推薦一個(gè)非常好用的數(shù)據(jù)下載平臺(tái)——桑格助手(http://sangerbox.com/Tool),可以直接下載GEO數(shù)據(jù),并且數(shù)據(jù)文件都是已經(jīng)處理好的,后續(xù)也可以直接在桑格助手平臺(tái)在線分析生成結(jié)果圖,非常方便,我們團(tuán)隊(duì)的大佬們?nèi)粘R苍谟脋

桑格助手的數(shù)據(jù)下載步驟:
1.打開(kāi)桑格助手后在左側(cè)?數(shù)據(jù)下載?欄目中的?GEO?,直接在搜索欄搜索數(shù)據(jù)集。

2.數(shù)據(jù)下載界面
下載臨床數(shù)據(jù)表:

下載基因表達(dá)譜:

3.桑格助手下載好的文件:
都是已經(jīng)成型的表達(dá)譜,非常整潔,可直接使用,不需要自己再去進(jìn)行拆分或者匹配。

數(shù)據(jù)下載到這里就結(jié)束咯,將其轉(zhuǎn)換成數(shù)據(jù)分析軟件能夠識(shí)別的信息,之后就可以制作出精美的分析圖,開(kāi)始妙手著文章了。
如果有小伙伴想跟著喵學(xué)姐繼續(xù)復(fù)現(xiàn)結(jié)果圖,記得蹲住我的下一篇教學(xué)~

參考文獻(xiàn):Feng S, Chen J, Qu C, Yang L, Wu X, Wang S, Yang T, Liu H, Fang Y, Sun P. Identification of Ferroptosis-Related Genes in Schizophrenia Based on Bioinformatic Analysis. Genes (Basel). 2022 Nov 20;13(11):2168. doi: 10.3390/genes13112168. PMID: 36421842; PMCID: PMC9690569.
>>本期學(xué)習(xí)福利<< 不想等待的同學(xué)們也可以報(bào)名我們的“生信訓(xùn)練營(yíng)”直播課!由我們團(tuán)隊(duì)的生信大佬來(lái)手把手帶教實(shí)操+課后答疑,感興趣的同學(xué)們快來(lái)滴滴我!
?? ??
