吐血整理的GEO數(shù)據(jù)庫知識(shí),生信小白你確定不看看?
Gene Expression Omnibus (GEO) 數(shù)據(jù)庫作為一個(gè)提供免費(fèi)高通量測序數(shù)據(jù)的數(shù)據(jù)庫,在科研圈中無人不知,無人不曉。每年利用這些公共數(shù)據(jù)發(fā)的文章不計(jì)其數(shù)。
但是作為一個(gè)生信小白你是否對GEO還是滿腦袋問號,不知道該怎們用呢?
今天小編就吐血整理了關(guān)于GEO數(shù)據(jù)庫的相關(guān)問題,都是你可能會(huì)遇到的哦,希望對你有幫助。
下面我們具體看一下相關(guān)問題吧:
01
我為什么要向GEO提交數(shù)據(jù)?不提交可以嗎?
一般情況下發(fā)表研究的期刊會(huì)要求作者將微陣列或序列數(shù)據(jù)存儲(chǔ)到符合MIAME或MINSEQE的公共存儲(chǔ)庫,這其中就包括了GEO數(shù)據(jù)庫。(當(dāng)然也可以不提交給GEO,而提交給其他數(shù)據(jù)庫)
把數(shù)據(jù)提交給GEO當(dāng)然還是好處多多的,比如你提交之后,數(shù)據(jù)不但可以得到長期存檔,而且還可以與其他NCBI資源整合,從而提高數(shù)據(jù)的可用性和可見性。在提交的內(nèi)容中還可以包含你自己的項(xiàng)目網(wǎng)站的鏈接,進(jìn)而可以提高自己研究的知名度。
02
我如何將我的數(shù)據(jù)提交給GEO?
首先通過NCBI帳戶登錄。(如果您沒有NCBI帳戶,可以創(chuàng)建一個(gè)新的。然后按要求填寫“我的GEO個(gè)人資料”表格)

但是自從2021年6月1日之后,NCBI就不提供直接的注冊頁面(即之前只需要提供用戶名和密碼)的形式,開始提供需要第三方賬號登錄的形式,包括下面這幾種:

選擇其中一種點(diǎn)擊進(jìn)入之后就可以到達(dá)注冊賬號的頁面。按照要求注冊即可。
03
我應(yīng)該什么時(shí)候向GEO提交我的數(shù)據(jù)?提交之后多久可以收到登錄號?
GEO處理時(shí)間大約是提交完成后的5個(gè)工作日。一旦通過審核,就會(huì)收到一封審核人的信息確認(rèn)電子郵件。(如果提交后的5個(gè)工作日內(nèi)沒有收到電子郵件,那就需要檢查一下垃圾郵件了,郵件可能被自動(dòng)歸類為垃圾郵件了)
04
什么類型的數(shù)據(jù)可以提交給GEO?
多種類型的數(shù)據(jù)都可以提交給GEO,包括但不限于下面幾種:
通過微陣列或下一代測序進(jìn)行基因表達(dá)譜分析(還包括非編碼RNA分析、染色質(zhì)免疫沉淀(ChIP)分析、基因組甲基化分析);
高通量RT-PCR;
按陣列(arrayCGH)進(jìn)行基因組變異分析;
SNP陣列;
基因表達(dá)系列分析(SAGE);
蛋白質(zhì)陣列。

05
我測序做的數(shù)據(jù)只用了一次,下篇文章還想用,我可以只提交部分嗎?
NO。應(yīng)提供完整的、未經(jīng)過濾的數(shù)據(jù)集。
06
在我的手稿準(zhǔn)備或?qū)徍似陂g,我可以將我的數(shù)據(jù)保密嗎?手稿發(fā)表后呢?
在向公眾提供引用GEO登錄號的手稿之前,GEO記錄可以保持私密狀態(tài)。(在提交過程中,系統(tǒng)會(huì)提示你指定記錄的發(fā)布日期。雖然最長允許期限為三年,但該日期可以隨時(shí)提前或推遲 )手稿表發(fā)之后數(shù)據(jù)則必須公開。
07
GEO中可以進(jìn)行哪些類型的檢索?
獲取GEO數(shù)據(jù)的方法有多種。這些方法包括對GEO數(shù)據(jù)集和GEO剖面數(shù)據(jù)庫執(zhí)行簡單或復(fù)雜的查詢、在Accession Display欄中輸入有效的GEO登錄號、瀏覽當(dāng)前GEO存儲(chǔ)庫內(nèi)容的列表或從GEO FTP站點(diǎn)下載數(shù)據(jù)。

08
如何查詢和分析GEO數(shù)據(jù)?
一旦確定了感興趣的基因表達(dá)譜圖,Profile記錄上有幾種類型的鏈接有助于識(shí)別相關(guān)的感興趣的基因。
如果沒有可用的精選數(shù)據(jù)集,則可使用GEO2R分析系列,因?yàn)镚EO2R可以比較樣本組并識(shí)別差異表達(dá)的基因。
可以使用自己喜歡的軟件包進(jìn)行分析。
使用track[filter]搜索可以檢索到所有帶有標(biāo)記的記錄;這些記錄上的“查看基因組數(shù)據(jù)查看器”按鈕鏈接到NCBI的基因組數(shù)據(jù)查看器上的相應(yīng)文件。


09
我的研究重點(diǎn)是一種疾病,怎樣進(jìn)行相關(guān)檢索?
我們以肝癌(liver cancer)為例進(jìn)行說明,首先在檢索框輸入liver cancer,隨后就會(huì)出現(xiàn)以下界面,可以進(jìn)一步點(diǎn)擊自己感興趣的地方進(jìn)行深入搜索。

10
我對一個(gè)數(shù)據(jù)集很感興趣,但是查詢之后的頁面看不懂具體信息怎么辦?
我們以GSE52903為例進(jìn)行說明。


11
DataSet、Platform、Samples、Series分別代表什么?

GEO Series (GSExxx)是原始提交者提供的總結(jié)研究的記錄。這些數(shù)據(jù)由GEO工作人員重新組合成精選的GEO DataSet (GDSxxx)。
DataSet表示使用同一平臺(tái)處理的生物學(xué)和統(tǒng)計(jì)學(xué)上可比較的樣本集合。反映實(shí)驗(yàn)變量的信息通過DataSet子集提供。Series和DataSet都可以使用GEO數(shù)據(jù)集界面進(jìn)行搜索,但只有DataSet構(gòu)成了GEO高級數(shù)據(jù)顯示和分析工具的基礎(chǔ),包括基因表達(dá)譜圖和數(shù)據(jù)集集群。
Platform是用來提交關(guān)于測序平臺(tái)相關(guān)描述的;
Sample則是用來提交相關(guān)樣本的處理?xiàng)l件的。




以上就是今天分享的關(guān)于GEO數(shù)據(jù)庫的內(nèi)容。滿滿的干貨,趕快學(xué)起來吧。還有什么關(guān)于GEO數(shù)據(jù)庫使用方面的問題歡迎聯(lián)系我們。
