序列比對金標準BWA·真保姆級教程
隨著illumina為主的NGS測序技術(shù)的流行,測序成本在短短十年內(nèi)飛速下降,現(xiàn)在測序的成本僅僅是十年前的零頭,越來越多課題組選擇基因組學開展研究。
其中,短序列比對(mapping)是NGS分析的重中之重,目前流行的外顯子、WGS、GBS都需要用到短序列比對。在眾多短序列比對中,BWA和bowtie2是其中的佼佼者,隨著三代測序long?read的興起,BWA也及時跟進了算法,增加了split?reads和RNAseq的比對,讓BWA隱隱有成為金標準的趨勢。
目前BWA支持三種算法,分別是bwa-backtrack,bwa-sw和bwa-mem,其中backtrack主要用于100bp以下的reads,目前較少應(yīng)用。sw和mem算法都支持long?read和split比對,支持70bp到1M的reads,其中mem算法更新、更快、更強,可用于illumina、454、sanger等多個平臺,是官方流程推薦的算法,很明顯,跟著官方workflow走就對了。接下來跟著小云進入實操環(huán)節(jié)吧。
首先當然是軟件安裝環(huán)節(jié),小云作為資深的生信狗,不要跟我提conda,什么bioconda,什么一鍵安裝。不可能,絕對不可能,我小云就是累死,所有頭發(fā)都薅禿,也不會用你一次conda。
咳咳,首先讓我們打開conda,安裝bwa


參數(shù)如圖所示,在bwa工作流程中,序列比對分為兩步,首先需要使用bwa?index建立索引,其中-a可以指定索引的算法,其中包括bwtsw、is和rb2,is適合用于參考基因組較小的物種,如細菌,人類基因組則需要使用bwtsw。位于中間的基因組選哪個都行。

人家說可以加-a,也沒說一定要加呀。?
構(gòu)建完index后就可以進行序列比對了,bwa?mem同時支持單端測序和雙端測序序列比對代碼如下所示。

其中-R里的內(nèi)容非常重要,不同lane、文庫、樣本依賴RG進行區(qū)分后續(xù)gatk進行snp?calling時會檢查-R是否缺失,-t是指計算的線程數(shù),reads1和reads2指雙端測序的兩條reads,單端測序也可以只填一個,輸出的result支持sam和bam兩種格式。
至此,fastq已經(jīng)轉(zhuǎn)化為bam文件了,欲知后續(xù)分析如何進行,歡迎關(guān)注小云。

