Hisat2安裝及比對
Hisat2和STAR是目前轉(zhuǎn)錄組分析過程中用來做比對的兩款主要工具,記得有一篇好像是2017年的文章專門比較了幾款轉(zhuǎn)錄組比對工具對結(jié)果的影響,結(jié)論中認為兩款軟件在實際使用過程中對結(jié)果影響及耗時區(qū)別不大,我認為選一款就可以,之前總是用STAR,今天試一下Hisat2。
一、官網(wǎng)下載軟件及安裝:
https://daehwankimlab.github.io/hisat2/
在Download頁面,可以看到Hisat2非常友好地提供了二進制的程序及Index(比對時的索引文件),省去了后續(xù)的一些小麻煩。
下載完后unzip進行解壓,一開始報錯:

原來依賴的libstdc++.so.6需要高版本的庫,我沒有root權(quán)限,更新的話會很麻煩,果斷降版本,下載的hisat2-2.1.0后,解壓,嘗試了一下,安裝成功:

二、構(gòu)建索引Index
Hisat2和STAR在比對時都需要索引文件,對于人及小鼠及常用模式生物,Hisat2官網(wǎng)提供了相應(yīng)的索引文件,下載后就能用,對于非模式生物,需要自己建立索引文件。
區(qū)別于bowtie2的索引只有基因組序列信息,Hisat2建立索引時,應(yīng)該把轉(zhuǎn)錄組信息加進去,此外,Hisat2還支持將SNP信息加入到索引中,這樣比對的時候就可以考慮SNP的情況,需要通過下面命令將SNP文件轉(zhuǎn)換成hisat2-build能使用的文件:
extract_snps.py snp142Common.txt >genome.snp
因為我研究的物種還沒有集合SNP信息的文件,我只能建立涵蓋基因組+轉(zhuǎn)錄組的索引:
Hisat2提供兩個Python腳本將GTF文件轉(zhuǎn)換成hisat2-build能使用的文件,依次運行下面三個命令:
extract_exons.py *.gtf > genome.exon
extract_splice_sites.py *.gtf > genome.ss
hisat2-build genome.fa -p 10 --ss genome.ss--exon genome.exon /path/to/genome_snp_tran
最終生成的8個*.ht是我們比對時需要的索引文件:

三、Hisat2比對:

-x? 指定索引文件所在路徑及前綴
-p? 線程數(shù)
hisat2輸出文件為sam格式,sam文件格式比較大,通常會直接通過“|”傳輸給samtools轉(zhuǎn)為bam文件,并對bam文件進行sort排序,以便后面處理(此步驟通過生信技能樹-健明老師帖子進行改進,在此致謝)。
四、結(jié)果
?????? 結(jié)果會生成bam文件,為二進制格式,無法直接查看,可以導(dǎo)入IGV進行可視化,一般后面結(jié)果沒有異常時,我不會去用IGV去看看比對結(jié)果去。而比對過程中的日志結(jié)果需要我們記錄一下:

我的總體比對率是73.19%,是比較低的,人的話得90%以上才認為是比較好,我的是非模式生物,目前也只能先接受這個結(jié)果了,后面得想辦法再優(yōu)化。
參考
Kim, D., Paggi,J.M., Park, C.?et al.?Graph-based genome alignment andgenotyping with HISAT2 and HISAT-genotype.?Nat Biotechnol?37,907–915 (2019).?https://doi.org/10.1038/s41587-019-0201-4
http://www.360doc.com/content/21/0714/12/76149697_986501798.shtml
本文使用 文章同步助手 同步