利用Rsamtools subset bam file以及edit distance的計(jì)算
Rsamtools是一個(gè)方便的R包,能過(guò)對(duì)bam文件操作,查看read sequence,提取或者過(guò)濾掉一些不想要的reads,之后生成新的bam file。以下是一些我所應(yīng)用過(guò)的操作流程。
一:定義想要從bam中讀取的header,然后提取出來(lái):
二,接著就可以對(duì)anab中的read進(jìn)行查看了。
三,利用CIGAR string和nM標(biāo)簽計(jì)算Edit distance:
參考這篇文章中的做法

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2353-5
10X的bam文件中沒(méi)有NM header, 我覺(jué)得應(yīng)該是用nM標(biāo)簽對(duì)應(yīng)的數(shù)字計(jì)算Edit distance。
代碼如下(參考https://github.com/NKI-GCF/XenofilteR/blob/cf6165a22d64462d544e11a789299bbff904f1ca/R/XenofilteR.R#L205):
四,如何過(guò)濾掉/選取符合自定義條件的一些reads:
我一開(kāi)始應(yīng)用的場(chǎng)景比較復(fù)雜,參考的是https://support.bioconductor.org/p/119592/#119629, 能琢磨透這個(gè)基本上就能搞懂Rsamtool這一塊的功能了。