小云帶你學(xué)生信之SRA文件的下載
SRA數(shù)據(jù)庫(kù):Sequence Read Archive,是NCBI網(wǎng)站下用于保存測(cè)序數(shù)據(jù)的數(shù)據(jù)庫(kù),大部分發(fā)表paper的測(cè)序數(shù)據(jù)都會(huì)上傳至SRA數(shù)據(jù)庫(kù),SRA則會(huì)將原始數(shù)據(jù)壓縮為.sra格式的文件方便大家下載。
ENA數(shù)據(jù)庫(kù):是歐洲生物信息研究所EBI旗下保存測(cè)序數(shù)據(jù)的數(shù)據(jù)庫(kù),與SRA功能類(lèi)似,相較于SRA數(shù)據(jù)庫(kù)只提供.sra格式的文件,ENA還支持直接下載fastq和bam,是生信小白入門(mén)的不二之選。
當(dāng)我們?cè)趐aper中獲得測(cè)序數(shù)據(jù)的SRR號(hào)后,可以現(xiàn)在ENA數(shù)據(jù)庫(kù)上搜索(ENA下載速度比SRA快不少),如果沒(méi)有再去SRA上查詢。
復(fù)現(xiàn)paper當(dāng)然少不了將高通量測(cè)序數(shù)據(jù)down至本地服務(wù)器,目前從數(shù)據(jù)庫(kù)down文件的方法主要有兩種:其一為使用wget或者curl等命令從FTP上下載文件(一定要加上-c開(kāi)啟斷點(diǎn)續(xù)傳,別問(wèn)為什么,誰(shuí)明白down了一晚的文件不能用的苦),其二就是NCBI官網(wǎng)的sratoolkit工具中的prefetch,prefetch還支持SRR號(hào)下載,測(cè)序文件自動(dòng)按照SRR號(hào)歸檔。當(dāng)然,土豪也可以用瀏覽器、迅雷下載了再上傳至服務(wù)器,下載速度也都不慢。
首先當(dāng)然是NCBI SRA Toolkit,作為懶癌星人,不要跟我說(shuō)什么源碼變異、環(huán)境路徑,沒(méi)有什么是conda解決不了的,如果有,那就上bioconda。
當(dāng)然該面對(duì)的問(wèn)題還得面對(duì),conda默認(rèn)的sratools版本號(hào)太低,SRA數(shù)據(jù)庫(kù)都該https了,sratools還是http,不過(guò)沒(méi)關(guān)系,bioconda里的sratools2.10版本還能用,縫縫補(bǔ)補(bǔ)接著用吧,還能上源碼咋滴。
接下來(lái)就是實(shí)操環(huán)節(jié)了,給朕上conda


無(wú)腦y,依賴什么的對(duì)于conda都是撒撒水啦。
接下來(lái)上實(shí)戰(zhàn),以SRP193866為例


Sratools默默開(kāi)始工作了,當(dāng)然,服務(wù)器也不能一直放著下載,愛(ài)妃還是去后臺(tái)呆著吧

在最后加個(gè)&就能讓命令后臺(tái)候著了。

可以看到sratools自動(dòng)生成SRR號(hào)文件夾,并將測(cè)序數(shù)據(jù).sra下載至文件夾中。
好啦,今天就到這吧,欲知后事(sra2fastq)如何,歡迎關(guān)注小云,以免錯(cuò)過(guò)更新喲。

