如何使用最小的存儲(chǔ)空間跑完轉(zhuǎn)錄組數(shù)據(jù)分析(超500G的測(cè)序數(shù)據(jù))

其實(shí)這一篇只是基于最近做轉(zhuǎn)錄組分析時(shí)的一個(gè)經(jīng)驗(yàn)而總結(jié)出來(lái)的經(jīng)驗(yàn),相信大家看完都會(huì)有所體會(huì)(大佬應(yīng)該想到過(guò),所以除外,哈哈)。下面,話不多說(shuō),簡(jiǎn)單講一下如何分析超多轉(zhuǎn)錄本樣本(超500G的測(cè)序數(shù)據(jù))時(shí)還能夠有效的節(jié)省空間。
一小空間大計(jì)算的轉(zhuǎn)錄組分析方案

上圖是一個(gè)常規(guī)分析流程:測(cè)序文件>比對(duì)結(jié)果>第一次定量結(jié)果>合并第一次定量結(jié)果>第二次定量結(jié)果>抽提并整合定量結(jié)果。但是,這一步驟中如果放任每個(gè)文件產(chǎn)生sam/bam文件,則會(huì)占用大量的存儲(chǔ)空間。因此,當(dāng)有計(jì)算資源而無(wú)存儲(chǔ)空間空間時(shí),大家可以像下面這樣做。

其實(shí)很簡(jiǎn)單,就是將生成的sam和bam文件當(dāng)做臨時(shí)文件,每次調(diào)用前使用原始測(cè)序文件進(jìn)行比對(duì)得出,并用于下一步的分析,這樣就可以節(jié)省掉大量因?yàn)槊總€(gè)測(cè)序文件產(chǎn)生的sam和bam文件而占用的空間了。其實(shí),其他類似的分析也可以采用這種方法,即將需要占用大量空間且可以被制作成臨時(shí)文件的步驟采用本文的方法替代,雖然可能要花費(fèi)較多的計(jì)算空間,但是這樣在完成分析的同時(shí)能夠節(jié)省必要的空間,也算是一種折中的解決方案吧。
三慣例小結(jié)
當(dāng)然,希望大家都能夠有無(wú)限量的計(jì)算空間和計(jì)算性能,這樣就不用采取本文所提到的非常規(guī)的分析手段啦。最后,進(jìn)一步推廣一下我開發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件。這兩個(gè)軟件可以幫助用戶快速實(shí)現(xiàn)數(shù)據(jù)分析,完成數(shù)據(jù)可視化工作,并且其中Multi-omics Visual是基于python開發(fā)的可視化工具,這也意味著其具有很廣闊的擴(kuò)展的空間。因此,如果后續(xù)用戶有較好的反饋,本人也將繼續(xù)維護(hù)。當(dāng)然,如果大家使用了我的軟件快速完成生信分析,可以考慮在發(fā)文章的時(shí)候添加相關(guān)引用(非常感謝啦)。如果讀者覺(jué)得還有什么功能需要實(shí)現(xiàn),也可直接通過(guò)公眾號(hào)留言。
本公眾號(hào)開發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號(hào)在其他平臺(tái)的賬戶,也歡迎大家關(guān)注并多提意見(jiàn)。
簡(jiǎn)書:WJ的生信小院
公眾號(hào):生信小院
博客園:生信小院
最后,也歡迎各位大佬能夠在本平臺(tái)上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對(duì)某一科研領(lǐng)域的看法;3:想要達(dá)成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機(jī)會(huì);5:博導(dǎo)提供博后工作或者博士攻讀機(jī)會(huì),都可以后臺(tái)給筆者留言。希望本平臺(tái)在進(jìn)行生信知識(shí)分享的同時(shí),能夠成為生信分析者的交流平臺(tái),能夠?qū)崿F(xiàn)相應(yīng)的利益互補(bǔ)和雙贏(不一定能實(shí)現(xiàn),但是夢(mèng)想總得是有的吧)。
另外,怎么說(shuō)呢,投幣也可,不強(qiáng)求,但奢求。


