TCGA和GEO數(shù)據(jù)滿足不了?快來試試組學數(shù)據(jù)百科全書NODE數(shù)據(jù)庫吧
小編最近總會收到好多私信,說想要做某種腫瘤相關的生信分析,但是一檢索文獻,發(fā)現(xiàn)大部分研究都是基于TCGA數(shù)據(jù)庫,總擔心分析不出來新穎的結果,于是轉站去NCBI GEO,可是好多數(shù)據(jù)要么樣本量不行,要么樣本信息不全,最崩潰的是啥信息都有,就是沒有預后信息。確實,TCGA和GEO是目前最常用的公共數(shù)據(jù)庫資源,里邊的數(shù)據(jù)信息非常豐富,然而隨著近幾年組學數(shù)據(jù)研究迅速發(fā)展,純生信數(shù)據(jù)庫挖掘火熱,該利用的數(shù)據(jù)基本都利用了,也成為好多研究的一大難題。今天,小編給大家介紹一個組學數(shù)據(jù)百科全書—NODE((National Omics Data Encyclopedia database))數(shù)據(jù)庫,該數(shù)據(jù)庫網(wǎng)址如下:
https://www.biosino.org/node
打開首頁,可以看到該數(shù)據(jù)庫是有5大元數(shù)據(jù)模塊組成:Project、Experiment、Sample、Run、Analysis.

點開Project,可以看到目前數(shù)據(jù)庫里共有576個公開項目和233個受限項目,該模塊主要是對一個研究的總體描述,包括項目名稱、項目文本描述、項目地址、相關項目等信息。一個Project下關聯(lián)有多個實驗。每一個項目都有一個OEP編號。用戶可以根據(jù)自己的研究目的選取合適的項目數(shù)據(jù)進行二次挖掘。

Experiment主要記錄了實驗相關的信息,包括建庫策略、測序平臺文庫構建等信息。一個Experiment只對應一個Project。右側還提供了具體實驗類型,用戶可以根據(jù)需要進行瀏覽。

Sample:描述樣本的資料信息,包括樣本的物種、組織、細胞系、數(shù)據(jù)類型、上傳者信息等。Sample與Project、Experiment沒有直接關聯(lián)關系。

Run:描述了使用某種測序方法對某一個樣本測序生成測序文件的記錄。點開每一個run,會得到如下界面,其中在Data information欄下提供了下載選項。

Analysis:主要是對原始數(shù)據(jù)進行研究分析產生的一些中間結果文件,例如SNP calling得到的vcf過程文件,RNA-seq分析中定量好的count值文件等等,但并不是所有實驗樣本都有過程文件。這里是小編最常用的一個模塊,如果有中間文件的數(shù)據(jù),進行二次挖掘真是再友好不過了!!

需要提醒大家的是,所有的數(shù)據(jù)下載有的數(shù)據(jù)必須進行登錄,因此提前注冊一個賬號是必不可少的,注冊也很簡單,只需一個新的郵箱即可,點擊頁面右上方注冊按鈕,根據(jù)提示一步步填寫信息即可,最后通過郵箱收到的激活郵件進行激活即可~

另外有些數(shù)據(jù)并不是公開的,數(shù)據(jù)狀態(tài)為Restricted時,需向數(shù)據(jù)上傳者發(fā)出申請,通過申請后方可訪問,狀態(tài)如果是私有數(shù)據(jù)(Private),那么很遺憾,用戶無法檢索及訪問到此類數(shù)據(jù),可能是因為原作者的文章還未接收,試著過段時間再來試試吧~
今天的數(shù)據(jù)庫介紹就到這里了,快打開數(shù)據(jù)庫檢索看看有沒有你感興趣的數(shù)據(jù)集呢?
如果檢索到了數(shù)據(jù)不知道如何下手,快來咨詢我們吧,我們會提供一對一的個性化方案設計服務,而且是免費的喲?。〈_認方案后,我們有專業(yè)的數(shù)據(jù)分析人員提供全套的分析,并進行詳細的售后解答,如果你還是不知道如何利用公共數(shù)據(jù)庫進行二次挖掘,只需要提供疾病方向,物種,海量數(shù)據(jù)的檢索交給我們!!方案設計交給我們!數(shù)據(jù)挖掘交給我們!
