最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

GEO數(shù)據(jù)庫(kù)保姆級(jí)入門實(shí)操教學(xué),建議收藏

2023-06-07 19:38 作者:善木科研  | 我要投稿

最近一直在給大家分享優(yōu)秀的文獻(xiàn)思路解讀,相信大家看了這么多idea,一定也有了自己文章的想法吧~

但是呢,有想法是一方面,而能不能實(shí)現(xiàn)又是另一方面。

?

今天喵學(xué)姐就來(lái)手把手教教大家生信分析如何邁出第一步——數(shù)據(jù)獲取。

看完這篇教程,你也可以開(kāi)始動(dòng)手下載和整理自己想要的數(shù)據(jù),接著做出屬于自己的精美結(jié)果圖啦!

?

這次就用之前講過(guò)的一篇非腫瘤思路文獻(xiàn)來(lái)舉例,

新來(lái)滴寶寶們可以點(diǎn)下面的鏈接先看一下整體思路解讀,看過(guò)的老朋友們也可以來(lái)復(fù)習(xí)一下:4分+非腫瘤純生信,GEO數(shù)據(jù)集+鐵死亡+cytoscape調(diào)控網(wǎng)絡(luò)+miRNA+轉(zhuǎn)錄因子,這思路我都想抄作業(yè)了

Title: Identification of Ferroptosis-Related Genes in Schizophrenia Based on Bioinformatic Analysis

標(biāo)題:基于生物信息學(xué)分析的精神分裂癥鐵死亡相關(guān)基因鑒定

期刊:Genes? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

此篇文獻(xiàn)是精神分裂癥相關(guān)的非腫瘤疾病生信分析。

>>接下來(lái)一起跟著我看看該如何下載作者的數(shù)據(jù)吧<<

▲數(shù)據(jù)來(lái)源

作者使用的是GEO數(shù)據(jù)庫(kù)中GSE27383數(shù)據(jù)集和GSE21138數(shù)據(jù)集的表達(dá)譜+臨床數(shù)據(jù)。

?

數(shù)據(jù)庫(kù)的使用

GEO數(shù)據(jù)庫(kù)(Gene Expression Omnibus,基因表達(dá)綜合數(shù)據(jù)庫(kù))

網(wǎng)址:https://www.ncbi.nlm.nih.gov/geo/

?是由美國(guó)國(guó)立生物技術(shù)信息中心 (National Center for Biotechnology Information,NCBD于2000年創(chuàng)建并維護(hù)至今的高通量基因表達(dá)數(shù)據(jù)庫(kù)。

?是一個(gè)國(guó)際公共存儲(chǔ)庫(kù),收錄并整理了全球范圍內(nèi)研究工作者上傳的微陣列芯片、二代測(cè)序以及其他形式的高通量基因組數(shù)據(jù),并提供免費(fèi)下載。

你想要的數(shù)據(jù),這里幾乎都有!

?

Step 1. 搜索關(guān)鍵詞

我們可以直接在GEO數(shù)據(jù)檢索界面鍵入關(guān)鍵詞,也可以點(diǎn)擊圖中1和2處進(jìn)行數(shù)據(jù)檢索。

這里以“Schizophrenia”為例,直接在搜索框中進(jìn)行輸入,出現(xiàn)如下結(jié)果:

第一行為GEO DataSets數(shù)據(jù),第2行為GEO Profiles數(shù)據(jù)。

?

這是兩種GEO數(shù)據(jù)的存儲(chǔ)形式

1.???? GEO DataSets :以數(shù)據(jù)集為單位,存儲(chǔ)同一個(gè)實(shí)驗(yàn)中所有樣本的數(shù)據(jù)。

(我們所需要的大部分?jǐn)?shù)據(jù)集通常都使用這種)

2.GEO Profiles :以基因?yàn)閱挝?,存?chǔ)基因在數(shù)據(jù)集中的表達(dá)譜。

(使用較少)

此處我們需要一次實(shí)驗(yàn)中所有的數(shù)據(jù),因此點(diǎn)擊5284可直接進(jìn)入GEO數(shù)據(jù)檢索界面。


Step 2. 定義數(shù)據(jù)集屬性:

1.Series:科研工作中是最為常用的數(shù)據(jù)層級(jí)。

2.Platforms:高通量實(shí)驗(yàn)檢測(cè)所用工具(哪個(gè)公司哪款產(chǎn)品),編號(hào)GPL開(kāi)頭,例如GPL55188。

?

Step 3. 篩選所需數(shù)據(jù)集

根據(jù)關(guān)鍵詞搜索,會(huì)有很多數(shù)據(jù)集被檢索到,建立有效的篩選機(jī)制,能夠幫助我們縮小搜尋范圍。

一般通用的篩選條目有如下三個(gè),可依次選中。

1處是數(shù)據(jù)集類型,選Series

2處是數(shù)據(jù)類型,限定為基因表達(dá)譜數(shù)據(jù)集。

3處是組織來(lái)源,一般選擇人類。

?

通過(guò)關(guān)鍵詞檢索出來(lái)的數(shù)據(jù)集數(shù)量龐大,我們也可以設(shè)定一些“條件”,過(guò)濾掉一些無(wú)效數(shù)據(jù)集。

數(shù)據(jù)集選擇原則:

1、題名:符合所研究主題

2、樣本量:不宜過(guò)小

?

Step 4. 數(shù)據(jù)集里包含的信息:

1.研究設(shè)計(jì):可判斷該數(shù)據(jù)集中樣本是否適合本研究使用(分組信息、臨床特征、樣本量等)

2.PMID編號(hào):在使用GEO數(shù)據(jù)時(shí),需要注明引用該數(shù)據(jù)文獻(xiàn)的PMID編號(hào)!

3.平臺(tái)文件:數(shù)據(jù)檢測(cè)平臺(tái),含有探針及基因名的注釋文件(需下載)

Sample:實(shí)驗(yàn)中的樣本分組信息,每一個(gè)樣本都會(huì)分配一個(gè)號(hào)碼。編號(hào)以GSM開(kāi)頭

4.GEO2RGEO自帶的分析工具

5.矩陣文件:含有患者臨床信息、基因表達(dá)譜(需下載,分析所需)

原始數(shù)據(jù)存儲(chǔ)在附錄,處理后數(shù)據(jù)則存儲(chǔ)在GEO中

?

數(shù)據(jù)下載

Step 5.下載及查看GEO數(shù)據(jù)集信息

確定了數(shù)據(jù)集后,就可以開(kāi)始下載了。

我們這一步需要下載兩個(gè)文件:

(1)GPL平臺(tái)注釋文件(2)表達(dá)矩陣“series matrix”文件。


PS:下載平臺(tái)注釋文件之前,我們需要點(diǎn)擊該GPL文件,瀏覽里面的信息,查看是否有Gene Symbol標(biāo)識(shí);若無(wú)Gene Symbol標(biāo)識(shí),則表示該平臺(tái)無(wú)基因的ID注解,我們無(wú)法對(duì)ID進(jìn)行基因名的轉(zhuǎn)換。

因此,查找數(shù)據(jù)集時(shí)除了樣本信息要符合我們的需求外,還要確保能得到我們的數(shù)據(jù)。

?

平臺(tái)在線注釋文件(下載):

矩陣文件(下載):

以文獻(xiàn)所用數(shù)據(jù)集GSE27383和GSE21138為例

GSE27383

Marked Reduction of AKT1 Expression and Deregulation of AKT1-associated Pathways in Peripheral Blood Mononuclear Cells of Schizophrenia Patients

該數(shù)據(jù)集包含樣本:

30例:正常對(duì)照組

22例:急性入院,嚴(yán)重精神病性精神分裂癥患者

21例:緩解期精神分裂癥患者

GSE21138

Gene Expression Profiles in BA46 of Subjects with Schizophrenia and Matched Controls

該數(shù)據(jù)集包含樣本:

30例:精神分裂癥患者

29例:年齡、性別匹配的對(duì)照組

?

Step 6. 分析所用數(shù)據(jù)整合

利用GEO數(shù)據(jù)分析時(shí),需要準(zhǔn)備好兩個(gè)文件:臨床數(shù)據(jù)表+基因表達(dá)譜

?

準(zhǔn)備基因表達(dá)譜,需要下載2個(gè)文件:平臺(tái)文件+矩陣文件

平臺(tái)文件:探針名+對(duì)應(yīng)的基因名

該文件中第1列為基因的ID,文件也包含了相關(guān)ID的基因名,即Gene Symbol。

?

矩陣文件:臨床特征數(shù)據(jù)+探針名的表達(dá)譜

PS:紅框以上數(shù)據(jù)為數(shù)據(jù)集的臨床特征資料,因此這部分?jǐn)?shù)據(jù)需單獨(dú)提取出來(lái)進(jìn)行保存,并進(jìn)行轉(zhuǎn)置,使得文件內(nèi)容格式為行為樣本名,列為變量,作為后續(xù)分析使用的臨床數(shù)據(jù)表。

?

紅框以下數(shù)據(jù)為數(shù)據(jù)集的基因表達(dá)譜。所示內(nèi)容為基因的ID名稱,可以看出,在基因表達(dá)譜部分,“行”是基因的樣本ID編號(hào),“列”是表達(dá)數(shù)據(jù)的矩陣。但矩陣不含基因名,不方便我們進(jìn)行后續(xù)分析。

?

因此,我們需要對(duì)紅框所列數(shù)據(jù)進(jìn)行替換,將基因ID替換為我們熟悉的基因名。紅框內(nèi)的文件需轉(zhuǎn)換成基因名。

?

Step 7. 平臺(tái)文件+矩陣文件結(jié)合

后續(xù)操作,我們需要利用平臺(tái)文件中的ID與矩陣文件中的ID進(jìn)行匹配,將Gene Symbol列提取至矩陣文件,替換探針名,準(zhǔn)備基因表達(dá)譜。

匹配后,即可得到“行”是基因名,“列”是表達(dá)值的基因表達(dá)譜啦。

從這個(gè)表達(dá)譜中,就可以提取自己感興趣的基因表達(dá)值做后續(xù)分析。

在矩陣文件中,探針名A列后插入一列B,作為基因名匹配列。

點(diǎn)擊B1單元格,使用Vlookup函數(shù)進(jìn)行匹配:

第1行:選定共同的變量,進(jìn)行匹配

此處2個(gè)文件中共同變量為ID探針名,因此此處選擇探針的格子A65

第2行:要用共同變量匹配的含基因名的文件,在哪個(gè)區(qū)域

此處帶基因名的文件在GPL570-55999平臺(tái)文件中,共同變量在A列,基因名在K列,都需要列入,因此選定A-K區(qū)域

第3行:基因名所在列數(shù)

此處基因名在K列,為第11列,填11

第4行:是否精確匹配,0:精確匹配;1:模糊匹配

此處我們?yōu)榫_匹配,填0

?

按共同變量ID探針名匹配好的基因表達(dá)譜如下,可看出每個(gè)探針I(yè)D均已匹配好相應(yīng)的基因名。

?

Step 8. 可實(shí)現(xiàn)的生信分析

準(zhǔn)備好這兩個(gè)GEO文件,就可以用來(lái)做后續(xù)的生信分析了。

利用GEO數(shù)據(jù)分析所需文件:臨床數(shù)據(jù)表+基因表達(dá)譜

可以做差異基因分析、火山圖、熱圖、臨床特征分析等……

但GEO原始數(shù)據(jù)在使用時(shí)非常不便,需要進(jìn)行后續(xù)處理

1、 需要取出矩陣文件中的臨床數(shù)據(jù),轉(zhuǎn)置處理;

2、 需提取出矩陣文件中的表達(dá)譜(探針名),隨后通過(guò)與平臺(tái)文件中的探針名進(jìn)行匹配,將矩陣文件中的探針名轉(zhuǎn)換為基因名。

?

所以喵學(xué)姐想給大家推薦一個(gè)非常好用的數(shù)據(jù)下載平臺(tái)——桑格助手(http://sangerbox.com/Tool),可以直接下載GEO數(shù)據(jù),并且數(shù)據(jù)文件都是已經(jīng)處理好的,后續(xù)也可以直接在桑格助手平臺(tái)在線分析生成結(jié)果圖,非常方便,我們團(tuán)隊(duì)的大佬們?nèi)粘R苍谟脋


桑格助手的數(shù)據(jù)下載步驟:

1.打開(kāi)桑格助手后在左側(cè)?數(shù)據(jù)下載?欄目中的?GEO?,直接在搜索欄搜索數(shù)據(jù)集。

2.數(shù)據(jù)下載界面

下載臨床數(shù)據(jù)表:

下載基因表達(dá)譜:

3.桑格助手下載好的文件:

都是已經(jīng)成型的表達(dá)譜,非常整潔,可直接使用,不需要自己再去進(jìn)行拆分或者匹配。

數(shù)據(jù)下載到這里就結(jié)束咯,將其轉(zhuǎn)換成數(shù)據(jù)分析軟件能夠識(shí)別的信息,之后就可以制作出精美的分析圖,開(kāi)始妙手著文章了。

如果有小伙伴想跟著喵學(xué)姐繼續(xù)復(fù)現(xiàn)結(jié)果圖,記得蹲住我的下一篇教學(xué)~


參考文獻(xiàn):Feng S, Chen J, Qu C, Yang L, Wu X, Wang S, Yang T, Liu H, Fang Y, Sun P. Identification of Ferroptosis-Related Genes in Schizophrenia Based on Bioinformatic Analysis. Genes (Basel). 2022 Nov 20;13(11):2168. doi: 10.3390/genes13112168. PMID: 36421842; PMCID: PMC9690569.

>>本期學(xué)習(xí)福利<< 不想等待的同學(xué)們也可以報(bào)名我們的“生信訓(xùn)練營(yíng)”直播課!由我們團(tuán)隊(duì)的生信大佬來(lái)手把手帶教實(shí)操+課后答疑,感興趣的同學(xué)們快來(lái)滴滴我!

?? ??

咨詢或報(bào)名請(qǐng)?zhí)砑有≈諤善木喵


GEO數(shù)據(jù)庫(kù)保姆級(jí)入門實(shí)操教學(xué),建議收藏的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
瓦房店市| 龙海市| 抚顺市| 浦北县| 南部县| 德庆县| 泽普县| 永吉县| 新田县| 千阳县| 永济市| 武陟县| 锦屏县| 布尔津县| 奉化市| 安化县| 凤冈县| 丰原市| 丰台区| 壶关县| 宁德市| 青岛市| 宜春市| 罗源县| 如皋市| 黄浦区| 英超| 景谷| 大港区| 兴宁市| 南和县| 苏州市| 札达县| 涿州市| 昔阳县| 亳州市| 凭祥市| 弋阳县| 依兰县| 武胜县| 尚志市|