小果帶你探索GATK-HaplotypeCaller 變異檢測(cè)原理
爾云間? 一個(gè)專(zhuān)門(mén)做科研的團(tuán)隊(duì)
歡迎點(diǎn)贊+收藏+關(guān)注
生信人R語(yǔ)言學(xué)習(xí)必備
立刻擁有一個(gè)Rstudio賬號(hào)
開(kāi)啟升級(jí)模式吧
(56線程,256G內(nèi)存,個(gè)人存儲(chǔ)1T)

Hello,這里是小果,我們將持續(xù)不斷為大家?guī)?lái)生物信息軟件和分析的系列講解,歡迎大家關(guān)注我們,這樣才能更及時(shí)看到我們的文章哦。
GATK-HaplotypeCaller簡(jiǎn)介
眾所周知,基因組學(xué)最重要的內(nèi)容之一就是變異檢測(cè),一般測(cè)序公司會(huì)完成snp calling的工作,但是作為一個(gè)合格的生信狗,怎能不了解snp calling的原理呢。
目前snp calling主流的方法有bcftools call和GATK HaplotypeCaller,二者原理相近,一般測(cè)序公司會(huì)同時(shí)進(jìn)行,取snp的交集,今天小果就帶大家了解一下GATK HaplotypeCaller的原理。
GATK-HaplotypeCaller的變異檢測(cè)的基本原理
當(dāng)HaplotypeCaller運(yùn)行時(shí),程序會(huì)從頭開(kāi)始組裝短序列,并進(jìn)行比對(duì),當(dāng)序列余參考基因組存在差異時(shí),它可能時(shí)測(cè)序錯(cuò)誤、軟件精確度不夠、抽樣誤差等原因,當(dāng)組裝當(dāng)變異活躍的區(qū)域時(shí),HaplotypeCaller會(huì)局部重新組裝區(qū)域來(lái)確定基因型,假設(shè)一共由30條read比對(duì)到這個(gè)位點(diǎn)上,其中有20條read都和參考基因組不同,那么很大概率上他就是一個(gè)真實(shí)變異位點(diǎn)。

SNP?calling策略的選擇
當(dāng)你有多個(gè)樣本時(shí),是應(yīng)該將所有樣本進(jìn)行snp calling后再merge vcf文件。還是將所有樣本作為input文件進(jìn)行snp calling呢?GATK提供了多個(gè)snp calling的策略。
single sample calling:每一個(gè)樣本單獨(dú)進(jìn)行snp calling,然后將每個(gè)樣本snp calling結(jié)果再合成一個(gè)總的vcf文件。
batch calling:將樣本分組進(jìn)行snp calling,然后再merge在一起
joint calling:所有樣本的bam一起call 出一個(gè)包含所有樣本變異信息的vcf文件。
通常來(lái)說(shuō),如果條件允許(服務(wù)器:你閉嘴)的話,使用joint calling是較優(yōu)的選擇。因?yàn)樵趈oint calling中,所有樣本同時(shí)進(jìn)行snp calling,對(duì)于低頻位點(diǎn)具有更好的calling效果,因?yàn)椴煌瑯颖镜臏y(cè)序深度、覆蓋率不同,單樣本進(jìn)行snp calling很容易由遺漏,當(dāng)所有樣本同時(shí)進(jìn)行calling時(shí),低頻位點(diǎn)可能在別的樣本中頻率較高,從而更全面的call基因組的變異位點(diǎn)。

好啦,這期就講到這里,下期咱們繼續(xù)討論變異位點(diǎn)的篩選條件。

“生信果”,生信入門(mén)、R語(yǔ)言、生信圖解讀與繪制、軟件操作、代碼復(fù)現(xiàn)、生信硬核知識(shí)技能、服務(wù)器、生物信息學(xué)的教程,以及基于R的分析和可視化等原創(chuàng)內(nèi)容,一起見(jiàn)證小白和大佬的成長(zhǎng)。