利用gatk進(jìn)行變異檢測的n步走戰(zhàn)略之二
爾云間? 一個(gè)專門做科研的團(tuán)隊(duì)
歡迎點(diǎn)贊+收藏+關(guān)注
生信人R語言學(xué)習(xí)必備
立刻擁有一個(gè)Rstudio賬號
開啟升級模式吧
(56線程,256G內(nèi)存,個(gè)人存儲(chǔ)1T)

hello!小果又來啦!
前情回顧:上期我們利用gatk生成了索引文件并對sam文件進(jìn)行了排序,折起我們接著往下走。
一個(gè)小tip:索引文件最好要和參考基因組的fasta文放到同一個(gè)目錄哦!不然后面會(huì)出錯(cuò)的,小果的血淚教訓(xùn)!

好了我們繼續(xù)吧,現(xiàn)在我們需要利用GATK的MarkDuplicates工具去除PCR重復(fù),并將結(jié)果存儲(chǔ)到指定的輸出文件中。
其中,${sample}代表sample.txt文件中每一行所存儲(chǔ)的樣本名稱。
-I選項(xiàng)用于指定輸入的BAM文件,-M選項(xiàng)指定輸出重復(fù)信息的文件,--CREATE_INDEX選項(xiàng)指定輸出文件的同時(shí)也創(chuàng)建其對應(yīng)的索引文件,-O選項(xiàng)指定輸出文件名。
--java-options "-Xmx16g -Djava.io.tmpdir=./tmp"選項(xiàng)則是在運(yùn)行GATK時(shí)為Java虛擬機(jī)指定參數(shù),其中-Xmx16g指定了最大堆內(nèi)存為16GB,-Djava.io.tmpdir=./tmp指定了臨時(shí)文件的目錄為當(dāng)前工作目錄下的tmp文件夾。
?
接下來我們對每個(gè)樣本進(jìn)行HaplotypeCaller變異檢測,并生成GVCF格式的文件,注意替換自己的文件路徑:
其中:REF 指定參考基因組文件路徑
查看日志cat?gvcf.log
?
小果這邊放一下運(yùn)行過程中的結(jié)果,可以看到其他結(jié)果還沒有出來。
?
好啦,今天的內(nèi)容暫時(shí)就到這里了,我們下期繼續(xù)!

歡迎使用:云生信??- 學(xué)生物信息學(xué)?(biocloudservice.com)
如果想用服務(wù)器私信小果哦

“生信果”,生信入門、R語言、生信圖解讀與繪制、軟件操作、代碼復(fù)現(xiàn)、生信硬核知識技能、服務(wù)器、生物信息學(xué)的教程,以及基于R的分析和可視化等原創(chuàng)內(nèi)容,一起見證小白和大佬的成長。