【實(shí)用貼】手把手教您上傳GEO數(shù)據(jù)庫
高通量組學(xué)相關(guān)實(shí)驗(yàn)完成后,需要將數(shù)據(jù)上傳到GEO。但是GEO數(shù)據(jù)上傳過程中,需要提交各種類型的數(shù)據(jù)、表格和資料,過程比較繁瑣,今天的實(shí)用貼,手把手教您上傳GEO數(shù)據(jù)庫。
背景知識:GEO數(shù)據(jù)庫
GEO數(shù)據(jù)庫全稱GENE EXPRESSION OMNIBUS,成立于2000年,是由美國國立生物技術(shù)信息中心NCBI創(chuàng)建并維護(hù)的基因表達(dá)數(shù)據(jù)庫,主要收錄高通量基因表達(dá)數(shù)據(jù)。除SRA數(shù)據(jù)庫之外,GEO數(shù)據(jù)庫也是目前文章投遞數(shù)據(jù)上傳的數(shù)據(jù)庫之一。
接受數(shù)據(jù)類型:原始數(shù)據(jù)或者經(jīng)過處理的數(shù)據(jù)(符合“有關(guān)芯片試驗(yàn)的最小信息(minimum information about a microarray experiment,MIAME)”標(biāo)準(zhǔn))
存儲(chǔ)數(shù)據(jù)格式:web格式、spreadsheets格式、XML格式和純文本格式
一、注冊帳號
首先需要注冊一個(gè)NCBI(https://www.ncbi.nlm.nih.gov/geo/submitter/),GEO賬號,如果已經(jīng)有賬號,可以直接點(diǎn)擊登錄。https://www.ncbi.nlm.nih.gov/geo/info/submission.html

二、文件準(zhǔn)備
需要準(zhǔn)備如下幾個(gè)文件:1. metadata spreadsheet,2. processed data files,3. raw data files。
1. metadata spreadsheet:Excel表格形式,該文件是填寫關(guān)于整個(gè)研究中樣本和實(shí)驗(yàn)的相關(guān)信息。
具體的欄目的填寫參考:
SERIES這一塊是一些跟您的實(shí)驗(yàn)相關(guān)的信息介紹,summary這一欄可以采用分段的模式來寫,也可以采用一段式的模式來寫,類似于科研論文中的摘要。

SAMPLES這一塊是具體的實(shí)驗(yàn)分組信息,以及每一個(gè)組別里面的樣品名稱的填寫。

PROTOCOLS這一塊主要是樣品的處理方式以及測序建庫的方式,一般服務(wù)商的結(jié)果報(bào)告中都會(huì)提供,也可通過與合作服務(wù)商伙伴的溝通來獲得該部分的信息。

?DATA PROCESSING PIPELINE主要是原始數(shù)據(jù)的處理步驟,以及基因組信息的填寫,其中要注意的問題是process data files的輸出通常為tab-delimited text files,也就是需要存儲(chǔ)為制表符分隔的txt文件。

2.processed data files:一個(gè)至多個(gè)文件,是根據(jù)你的原始文件進(jìn)行分析所提取得到的一些數(shù)據(jù);該部分經(jīng)過處理的數(shù)據(jù)是GEO提交的必要部分,GEO會(huì)審核客戶上傳的處理過的數(shù)據(jù),以此來檢驗(yàn)相關(guān)文章結(jié)論的真實(shí)可靠性。比如RNA-seq可以上傳基因表達(dá)量文件,ChIP-seq可以上傳WIG, bigWig, bedGraph等,不過由于是中間文件,該部分內(nèi)容沒有完全固定的格式。
3.?raw data files:一個(gè)至多個(gè)文件,這是你測序或芯片獲得的原始文件。測序的原始數(shù)據(jù)一般采用FASTQ格式,另外SRA數(shù)據(jù)庫接受的其他格式也是可以的(https://www.ncbi.nlm.nih.gov/sra/docs/submitformats/)。
三、數(shù)據(jù)上傳
推薦GEO官網(wǎng)推薦的軟件FileZilla。(下載傳送:https://filezilla-project.org)。打開FileZilla,主機(jī)(H) 框填寫上圖中host對應(yīng)的內(nèi)容ftp-private.ncbi.nlm.nih.gov,用戶名(U)填寫geoftp,密碼填寫rebUzyi1(此項(xiàng)可能不定期更新),端口號可不填,全部填好后,點(diǎn)擊快速連接按鈕。

TIPs:在根目錄下建立一個(gè)文件夾,文件夾的名稱和你的NCBI賬戶名稱相同即可,雙擊進(jìn)入該文件夾,建立如下三個(gè)子文件夾:1. metadata spreadsheet,2. processed data files,3. raw data files。然后將對應(yīng)的文件上傳至該文件夾即可。注意,由于raw data files很大,上傳時(shí)需要耐心等待。
四.?通知GEO數(shù)據(jù)上傳完成
上傳結(jié)束后,可點(diǎn)擊Notify GEO,提醒GEO后臺人員上傳完成,可以進(jìn)行審核。

點(diǎn)Notify GEO進(jìn)去之后就是這樣的界面,需要填寫你建立的文件夾名稱,期望數(shù)據(jù)公開的時(shí)間,以及更進(jìn)一步的說明等。
上傳成功或者數(shù)據(jù)有問題GEO都會(huì)以郵件的形式進(jìn)行通知。一般約2,3個(gè)工作日,經(jīng)審核數(shù)據(jù)沒有問題,GEO會(huì)以郵件形式通知數(shù)據(jù)的GSM(實(shí)驗(yàn)樣本編號)、GSE(研究項(xiàng)目編號)。
你也可以給GEO(geo@ncbi.nlm.nih.gov)發(fā)送郵件,郵件內(nèi)容可以參考下方:
郵件主題:Submitting high-throughput sequence data to GEO
郵件正文:
Dear sir,
We had finished the raw data uploading .
Please check according to the following information :
GEO account username: GEO帳號
Names of the directory and files deposited: ABC(存放數(shù)據(jù)的路徑)
Public release date :數(shù)據(jù)釋放日期
Our raw files were named as follows: XXX.fq.gz
Our Processed data files were named as follows: XXX.txt
Metadata spreadsheet were named as follows: Metadata_spreadsheet.xls
Thank you again for your time!
一般GEO第二天就會(huì)回復(fù)郵件,5個(gè)工作日以內(nèi)會(huì)告知具體的GEO號。?
五、其它備注
提交了該數(shù)據(jù)之后,就會(huì)收到來自GEO數(shù)據(jù)庫的郵件。(郵箱為NCBI注冊時(shí)留下的郵箱)如果你的數(shù)據(jù)有問題,會(huì)通知你去再次上傳或者是修改,這個(gè)時(shí)候你會(huì)發(fā)現(xiàn)自己在根目錄下建立的文件夾空了,不要驚慌,那是因?yàn)槟愕奈募还ぷ魅藛T轉(zhuǎn)移到了另外一個(gè)工作目錄,在這個(gè)空的文件夾中再次上傳正確的文件就行了。
等你的文件全部上傳完成后,5個(gè)工作日內(nèi)就會(huì)收到GEO給你發(fā)來的郵件,這時(shí)會(huì)給你一個(gè)GEO號,類似于GSEXXX。等你收到這封郵件后意味著你的數(shù)據(jù)正式上傳成功了,寫文章的時(shí)候把這個(gè)號附上就大功告成。