最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

可能是我寫過最好懂的的GEO數(shù)據(jù)庫入門教程

2022-09-11 16:58 作者:酸談講科研  | 我要投稿

我們今天為什么要講GEO?不少小伙伴打開前,腦子里可能充滿了問號(hào)。

那這里就告訴你GEO有多好:

別人的數(shù)據(jù),發(fā)自己的文章!

無論是腫瘤、非腫瘤、芯片、NGS、差異分析,還是分子驗(yàn)證……

你能想到的數(shù)據(jù),這里幾乎都有,

還可以做一些在線分析。

你會(huì)想?這也可以?!

當(dāng)然可以!發(fā)了文章要公開數(shù)據(jù)的!你用的就是這些數(shù)據(jù)!

互聯(lián)網(wǎng)的精神就是公開。

呃,扯遠(yuǎn)了……下面開始說正題,把這個(gè)好用的數(shù)據(jù)庫的基本操作介紹給大家!

一、GEO數(shù)據(jù)庫介紹

1、GEO數(shù)據(jù)庫概況

首先我們來了解一下GEO數(shù)據(jù)庫:

GEO,全稱Gene Expression Omnibus?(基因表達(dá)綜合數(shù)據(jù)庫),網(wǎng)址∶https∶/ww.ncbinlm.nih.gov/geo/,是由美國國立生物技術(shù)信息中心 (National Center for Biotechnology?Information,NCBD于2000年創(chuàng)建并維護(hù)至今的高通量基因表達(dá)數(shù)據(jù)庫。GEO是一個(gè)國際公共存儲(chǔ)庫,收錄并整理了全球范圍內(nèi)研究工作者上傳的微陣列芯片、二代測(cè)序以及其他形式的高通量基因組數(shù)據(jù),并提供免費(fèi)下載。

【先領(lǐng)再看】

課題設(shè)計(jì)數(shù)據(jù)挖掘,從文章復(fù)現(xiàn)寫作投稿,輕松入門GEO數(shù)據(jù)庫,零代碼搞定5+生信文章!還等什么?趕緊加入我們的免費(fèi)geo數(shù)據(jù)庫訓(xùn)練營~

https://m.helixlife.cn/trainings/d1a65e2e-bc8d-4649-a1d3-18a85556a6de/channel?c=b29a79fd-c4ab-471a-a5e4-97accc3941c9

這就是以后我們做課題和寫論文幾乎天天都要打交道的GEO數(shù)據(jù)庫了。

GEO數(shù)據(jù)庫最有價(jià)值的部分是存儲(chǔ)了大量芯片數(shù)據(jù),包括原始數(shù)據(jù)和處理后數(shù)據(jù)。

GEO數(shù)據(jù)有兩種存儲(chǔ)形式,其中:

GEO DataSets 以數(shù)據(jù)集為單位,存儲(chǔ)同一個(gè)實(shí)驗(yàn)中的數(shù)據(jù);

GEO Profiles 以基因?yàn)閱挝?,存?chǔ)基因在數(shù)據(jù)集中的表達(dá)譜。

不同的存儲(chǔ)形式涉及兩種不同的數(shù)據(jù)檢索方式。

2、GEO數(shù)據(jù)組織結(jié)構(gòu)

GEO數(shù)據(jù)庫中海量的數(shù)據(jù)自然不能雜亂無章地堆積,

嚴(yán)密的數(shù)據(jù)組織結(jié)構(gòu)就是十分必須的。

GEO數(shù)據(jù)庫的數(shù)據(jù)就依據(jù)不同的等級(jí),從大到小,組成了如下所示的層次嚴(yán)密的組織結(jié)構(gòu):

Platforms?

高通量實(shí)驗(yàn)檢測(cè)所用工具(哪個(gè)公司哪款產(chǎn)品),編號(hào)GPL開頭,例如?GPL570

Series?

構(gòu)成某個(gè)實(shí)驗(yàn)的相關(guān)樣本,組成一個(gè)有生物意義的數(shù)據(jù)集,

包括樣本信息和方案設(shè)計(jì)等信息,可以看做一套完整的實(shí)驗(yàn)方案,實(shí)際上每個(gè)Series基本對(duì)應(yīng)一篇完整的論文,

Series 在科研工作中是最為常用的數(shù)據(jù)層級(jí)!?

編號(hào)GSE開頭,例如GSE5764。

Datasets?&?Profiles

一些高質(zhì)量的GSE數(shù)據(jù)集還會(huì)被GEO官方工作者整理為Datasets和Profiles。

Datasets 是分析好的Series,編號(hào)以GDS開頭。

Profiles?則以基因?yàn)閱挝淮鎯?chǔ)數(shù)據(jù),是Datasets?各分組中的表達(dá)譜,分配的是流水號(hào),例如33759453。

但并不是所有上傳的數(shù)據(jù)都會(huì)被整理,甚至只有少數(shù)會(huì)被整理,因?yàn)楹芏?/span>GSE數(shù)據(jù)集沒有進(jìn)一步被拆分的必要。

Sample?

實(shí)驗(yàn)中的樣本。每一個(gè)樣本都會(huì)分配一個(gè)號(hào)碼。編號(hào)以GSM開頭,例如GSM134584

在GEO首頁,我們就可以根據(jù)不同的數(shù)據(jù)組織結(jié)構(gòu),查找數(shù)據(jù)。

研究者上傳數(shù)據(jù)時(shí)填寫信息,GEO官方根據(jù)填寫的信息分配編號(hào)。

3、GEO的研究數(shù)據(jù)類型

GEO數(shù)據(jù)庫的數(shù)據(jù)類型有9種,以芯片為主,例如RNA、甲基化和SNP芯片數(shù)據(jù)等。

也包括很多高通量測(cè)序數(shù)據(jù)。

高通量測(cè)序數(shù)據(jù),原始數(shù)據(jù)存儲(chǔ)在SRA,處理后數(shù)據(jù)則存儲(chǔ)在GEO中。

在一份GSE數(shù)據(jù)集詳情頁面,我們就可以看到清晰的說明

使用GEO數(shù)據(jù)時(shí),千萬不要忘記注明引用該數(shù)據(jù)文獻(xiàn)的PMID編號(hào)!

2、GEO數(shù)據(jù)庫的檢索

1、GEO官網(wǎng)簡(jiǎn)單檢索

在官網(wǎng)首頁,我們可以輕松地根據(jù)數(shù)據(jù)集等級(jí)或編號(hào)輕松搜索瀏覽數(shù)據(jù)

下面是以lung?cancer為關(guān)鍵詞的檢索結(jié)果

但這樣,往往只能簡(jiǎn)單搜到一些完全匹配的數(shù)據(jù),需要作者在Title里正好用了你使用的關(guān)鍵詞。

點(diǎn)擊鏈接,最后的頁面也會(huì)回到GEO DataSetsGEO Profiles?兩種檢索方式。

所以,下面我們分別演示這兩種不同的數(shù)據(jù)檢索方式。

2、Entrez的GEO?Profiles檢索

還是以lung cancer為例,我們檢索一下lung cancer的abcc1基因,我們?cè)贕EO首頁檢索框的下拉列表里選擇GEO?Profiles

可以得到如下結(jié)果,各種詳細(xì)信息都很清楚地展示出來。

這里特別強(qiáng)調(diào)一下黃框中兩個(gè)有用的信息,檢索語言和數(shù)據(jù)信息圖示。

在Search Details中可以清晰看出不同關(guān)鍵詞之間用布爾運(yùn)算符表示的邏輯關(guān)系。

特別要注意的是“l(fā)ung cancer”是作為一個(gè)完整的詞組進(jìn)行檢索;

如果要分別檢索“l(fā)ung”和“cancer”,

在“l(fā)ung cancer”中間加上“AND”就可以了。

每條明細(xì)后面的示意圖展示了數(shù)據(jù)集中不同分組的表達(dá)水平

點(diǎn)擊示意圖,可以查閱詳細(xì)的分組信息、表達(dá)水平和3樣本的具體信息。

3、Entrez的GEO Datasets檢索和分析

首先,我們?cè)谙吕蛑羞x擇Datasets。這個(gè)檢索框可檢索GPL、GSE、GDS、GSM,但實(shí)際應(yīng)用中,多數(shù)場(chǎng)景下只檢索GSE數(shù)據(jù)集。

我們輸入lung cancer cisplatin cisplatin resistant,關(guān)于肺癌抗性的關(guān)鍵詞,每個(gè)條目都列出了數(shù)據(jù)集明細(xì)。兩邊分別有根據(jù)數(shù)據(jù)集類型和來源的歸類整理。

例如,我們選擇DataSets數(shù)據(jù)集,就只顯示DataSets結(jié)果

點(diǎn)擊數(shù)據(jù)集標(biāo)題可以進(jìn)入詳情頁面,有數(shù)據(jù)集的各類信息明細(xì),

我們可以先點(diǎn)擊查看熱圖

選擇熱圖指定區(qū)域,點(diǎn)擊查看Profiles

選擇Clustering,可以改變熱圖的分類方法和表現(xiàn)形式

回到詳情頁面,點(diǎn)擊Expression Profiles,我們可以查看所有該DataSets下所有Profiles

Data?Analysis?Tools則是一組在線分析小工具

首先是查看Profiles(也就是基因)

如果什么都不填,那和點(diǎn)擊點(diǎn)擊Expression Profiles的結(jié)果是一樣的,也就是查看所有的Profiles

如果填寫具體基因,就只看到該基因的結(jié)果

接下來,依次點(diǎn)擊不同小工具選項(xiàng),按照需求選擇分析要求,可分別做差異分析、聚類和中位分布。

點(diǎn)擊Sample?Subset可獲得樣本信息

點(diǎn)擊DataSets所屬的GPL,可獲得GPL的詳細(xì)信息

點(diǎn)擊DataSets所屬的GSE,可獲得GSE的詳細(xì)信息

在GSE的詳情頁面,我們也可以訪問GSE中每一個(gè)GSM的詳情

三、GEO數(shù)據(jù)的下載和解讀

GEO數(shù)據(jù)庫提供了兩種數(shù)據(jù):

原始數(shù)據(jù):芯片掃描儀直接讀取的原始熒光信號(hào)數(shù)據(jù)

歸一化數(shù)據(jù):芯片整體熒光信號(hào)背景校正,對(duì)所有表達(dá)情況做標(biāo)準(zhǔn)化和平衡,對(duì)異常值做處理,對(duì)熒光信號(hào)做計(jì)算轉(zhuǎn)化為數(shù)值變量。

在GSE中,我們可以看到這兩種數(shù)據(jù)

通常我們下載SOFT文件和Series Matrix文件。

但也不是所有歸一化后的文件都可用,我們要去GSM的詳細(xì)信息頁面中去找

一般,如下圖所示,RAM歸一化后的數(shù)據(jù)是可以直接用的,因?yàn)檫@樣的數(shù)據(jù)經(jīng)過log2處理,相差不大,分析計(jì)算結(jié)果比較可靠。

在下載原始數(shù)據(jù)時(shí),有些GSE數(shù)據(jù)集可能體積很大,幾百M(fèi)甚至上G,NCBI因?yàn)槭敲绹W(wǎng)絡(luò),服務(wù)器不穩(wěn)定,瀏覽器下載很容易中斷重來,建議使用迅雷下載。

別忘了加入免費(fèi)geo數(shù)據(jù)庫訓(xùn)練營~

課題設(shè)計(jì)數(shù)據(jù)挖掘,從文章復(fù)現(xiàn)寫作投稿,輕松入門GEO數(shù)據(jù)庫,零代碼搞定5+生信文章!

https://m.helixlife.cn/trainings/d1a65e2e-bc8d-4649-a1d3-18a85556a6de/channel?c=b29a79fd-c4ab-471a-a5e4-97accc3941c9




可能是我寫過最好懂的的GEO數(shù)據(jù)庫入門教程的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
道真| 满城县| 江源县| 洱源县| 昌乐县| 道真| 昭平县| 青铜峡市| 麟游县| 盐山县| 芦溪县| 梨树县| 大兴区| 白水县| 丹东市| 温泉县| 九寨沟县| 汕头市| 龙游县| 淮南市| 台东市| 古蔺县| 铜鼓县| 深水埗区| 汝城县| 长治市| 龙里县| 宁化县| 阿合奇县| 揭西县| 搜索| 枣阳市| 西和县| 平阳县| 奉节县| 松桃| 伽师县| 天长市| 阳西县| 健康| 富裕县|