最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

單倍體組裝工具Hifiasm簡(jiǎn)介及基本運(yùn)行命令(一)

2022-09-25 16:56 作者:笨笨熊愛吃肉  | 我要投稿

隨著測(cè)序技術(shù)的發(fā)展及新的組裝工具的不斷開發(fā)應(yīng)用,基因組denovo測(cè)序及組裝進(jìn)入了Genomic2.0時(shí)代,我認(rèn)為Genomic2.0時(shí)代的標(biāo)志有兩點(diǎn):1. 三代長(zhǎng)讀長(zhǎng)測(cè)序及Hi-C測(cè)序技術(shù)在基因組denovo測(cè)序上的用;2.組裝方法上,Canu和Hifisam等工具不斷被開發(fā)應(yīng)用出來,有的工具極大的降低了算力要求,有的工具能夠?qū)⒒蚪M組裝到單體型水平,也就是將同源或非同源的兩套多套染色體分別組裝出來,因此,最近幾年,不僅很多物種的基因組被公布,而早些年間即使被公布了的基因組,也都利用新的測(cè)序及組裝策略進(jìn)行了更新。今天我先學(xué)習(xí)Hifiasm工具。

一.Hifiasm工具簡(jiǎn)介:

Hifiasm是哈佛大學(xué)李恒團(tuán)隊(duì)提出的一種全新的單倍體基因組組裝算法, 2021年2月份發(fā)表在Nature Methods上[ref1]。它可以多線程運(yùn)行,對(duì)計(jì)算資源消耗教少,組裝快,結(jié)果準(zhǔn)確性和連續(xù)性較高。Hifiasm (Hi-C) 針對(duì)PacBio HiFi (High-Fidelity) 長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)和Hi-C (High-Throughput Chromatin Confirmation Capture) 測(cè)序技術(shù)進(jìn)行了全新的設(shè)計(jì)。該算法結(jié)合了HiFi數(shù)據(jù)中精確的局部單倍型信息和Hi-C數(shù)據(jù)中的長(zhǎng)距離互作用信息以達(dá)到全局定相 (phasing),從而獲得不依賴親本信息的染色體級(jí)別的單倍型組裝結(jié)果。為了進(jìn)一步提高組裝質(zhì)量,作者充分利用了組裝圖中的結(jié)構(gòu)信息,以及其前期研究中的Graph-binning等策略。

二.算法簡(jiǎn)介

Hifiasm組裝主要分為三步。

Step1: 測(cè)序錯(cuò)誤堿基糾錯(cuò)

盡管Hifi reads準(zhǔn)確性已經(jīng)很高,但仍然會(huì)有部分測(cè)序(<1%)錯(cuò)誤,Hifiasm會(huì)先通過所有序列的相互比對(duì)(all vs all),對(duì)測(cè)序錯(cuò)誤進(jìn)行糾正。在比對(duì)中,基于reads間的overlap關(guān)系,如果同一個(gè)位置的reads出現(xiàn)兩種堿基類型,且每個(gè)堿基類型至少有3條reads支持,那么這個(gè)位置會(huì)被當(dāng)作雜合位點(diǎn),即一個(gè)SNP被保留,否則,視作測(cè)序錯(cuò)誤,將被糾正(默認(rèn)三輪糾錯(cuò))。值得注意的是,Hifiasm只使用相同單倍型的數(shù)據(jù)進(jìn)行糾錯(cuò),從而避免過度校正,保留來自不同單倍型的雜合變異信息。在這一步,Hifiasm可以對(duì)雜合SNP進(jìn)行定相(phasing)。

Step2: 構(gòu)建分型字符串圖(phased string graph)

根據(jù)序列之間的重疊關(guān)系,構(gòu)建分型字符串圖string-graph。Hifiasm以reads作為頂點(diǎn),一致overlap重疊區(qū)域作為邊,保留全部的氣泡(bubble)即保留了所有的雜合位點(diǎn)(圖1),因而可以保留下來基因組上全部的單倍型信息,以便后續(xù)對(duì)于單倍型的處理。

圖1. Hifiasm組裝算法示意圖

Step3: 單倍體分型組裝

如果沒有額外的信息,Hifiasm在輸出序列時(shí)會(huì)任意選擇氣泡的一側(cè)構(gòu)建初級(jí)組裝,刪除多余的單倍體,輸出結(jié)果類似Falcon unzip和HiCanu的主要組裝結(jié)果(primary contigs)。優(yōu)于HiCanu需要依賴第三方工具去除dups序列,Hifiasm內(nèi)部實(shí)現(xiàn)了去除dups的算法優(yōu)化,簡(jiǎn)化了流程。如果有來自父母本的測(cè)序數(shù)據(jù),Hifiasam可以利用親本特有的Kmer在圖上識(shí)別出了父母本的序列,從而得到來自父母本的單倍體基因組序列。

在基于父母本特有Kmer時(shí),區(qū)別于TrioCanu軟件trio-binning策略,先將三代reads區(qū)分為來自父本、母本以及部分無法區(qū)分的reads后對(duì)區(qū)分后的reads分別組裝獲得了子代的兩套單倍體序列,Hifiasm使用了graph-binning的策略對(duì)此進(jìn)行了改進(jìn)。它不預(yù)先劃分reads,而是在string-graph中對(duì)reads進(jìn)行標(biāo)記。因此在一個(gè)較長(zhǎng)的bubble中,即使只有一小部分reads被正確標(biāo)記,hifiasm也可以正確地將其定相。通過這種方式,可以避免因?yàn)閞eads劃分錯(cuò)誤而引入的錯(cuò)誤位點(diǎn)和組裝斷裂,從而獲得更完整和更準(zhǔn)確的單倍體組裝結(jié)果[ref2]。

三.軟件使用

1.軟件及測(cè)試數(shù)據(jù)下載

Github鏈接:https://github.com/chhylp123/hifiasm;

下載后make編譯;

下載測(cè)試數(shù)據(jù):

wget https://github.com/chhylp123/hifiasm/releases/download/v0.7/chr11-2M.fa.gz

2.運(yùn)行程序;

hifiasm使用時(shí)根據(jù)已有的數(shù)據(jù)分為三種模式: 2.1.只有HiFi數(shù)據(jù)(基本)模式; 2.2.有Hi-C數(shù)據(jù)的Hi-C模式;2.3.有雙親二代測(cè)序的Trio-binning模式。

2.1# Run on test data,基本模式,

./hifiasm -o test -t4 -f0 chr11-2M.fa.gz 2> test.log

awk '/^S/{print ">"$2;print $3}' test.bp.p_ctg.gfa > test.p_ctg.fa? # get primary contigs in FASTA

參數(shù)解釋:-o 輸出文件前綴, -f0 小數(shù)據(jù)使用,-t 線程數(shù)

awk提取主要的contig,這句話意思是對(duì)S開頭行處理,提取序列名稱$2和序列$3,獲得超長(zhǎng)的contig序列;

可選參數(shù)--primary: 不組裝分型,只有primary和alternate的組裝結(jié)果

運(yùn)行完成后需要關(guān)注的結(jié)果?(prefix表示前綴)

運(yùn)行結(jié)果

test.bp.hap1.p_ctg.gfa: haplotype1的部分分型的contig graph;

test.bp.hap2.p_ctg.gfa: haplotype2的部分分型的contig graph;

test.bp.p_ctg.gfa (Primary assembly contig graph):主要contig的assembly graph, 對(duì)于低雜合度物種來說,優(yōu)先選擇該文件;對(duì)于高雜合度物種,該結(jié)果代表其中一個(gè)單倍型;

test.bp.p_utg.gfa(Haplotype-resolved processed unitig graph without small bubbles): 無小氣泡的單倍型解析, 在raw unitig graph基礎(chǔ)上過濾小的bubble,去掉由于體細(xì)胞突變和數(shù)據(jù)背景噪音引起的small bubbles(這個(gè)并不是真正的單體型信息),對(duì)于高度雜合基因組物種優(yōu)先選擇這個(gè)結(jié)果;

test.bp.r_utg.gfa(haplotype-resolved raw unitig graph in GFA format): 保留了所有的單倍型信息,包括體細(xì)胞突變和重復(fù)測(cè)序錯(cuò)誤;

*.bin文件:運(yùn)行時(shí)糾錯(cuò)和相互比對(duì)的結(jié)果

其它結(jié)果:有的網(wǎng)友還提到了一個(gè)結(jié)果,我這次沒有生成:

prefix.a_ctg.gfa(Alternate assembly contig graph):組裝出來的另一套單體型基因組結(jié)果。

對(duì)于2.2.有Hi-C數(shù)據(jù)的Hi-C模式;2.3.有雙親二代測(cè)序的Trio-binning模式,過段時(shí)間我再跑。


四.日志信息及參數(shù)調(diào)整


通常使用默認(rèn)參數(shù)就可以,要根據(jù)日志信息判斷是否需要進(jìn)行參數(shù)調(diào)整,最主要的日志信息是Kmer圖,從而判斷hifiasm是否能夠正確的找到純合峰,雜合峰的所在位置。如果hifiasm沒有找對(duì)純合峰所在的位置,會(huì)導(dǎo)致基因組大小不符合預(yù)期,

對(duì)于雜合率高的樣本,一個(gè)常見的問題是分型的結(jié)果兩套基因組差別較大,需要為-s設(shè)置更小的值(默認(rèn)值:0.55)。

還有其它參數(shù)引用ref3,xuzhougeng的分享:

如果序列不夠長(zhǎng),片段化明顯,則可以嘗試增加 -D 和 -N, 雖然會(huì)增加運(yùn)行時(shí)間,但是會(huì)提高重復(fù)區(qū)域的分辨率。如果后續(xù)的Hi-C,或者BioNano發(fā)現(xiàn)hifiasm組裝結(jié)果有比較多錯(cuò)誤組裝,則可以適當(dāng)降低 --purge-max, -s和 -O。或者設(shè)置 -u 關(guān)閉post-join 步驟,hifiasm通過該步驟提高組裝的連續(xù)性。


五.參考:

Ref1:Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm

Ref2: https://zhuanlan.zhihu.com/p/283131167

Ref3https://www.jianshu.com/p/6d79690dce5d?ivk_sa=1025883j

Ref4: https://hifiasm.readthedocs.io/en/latest/trio-assembly.html

本文使用 文章同步助手 同步


單倍體組裝工具Hifiasm簡(jiǎn)介及基本運(yùn)行命令(一)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
大洼县| 北碚区| 云龙县| 广州市| 仁化县| 綦江县| 龙州县| 洛宁县| 蚌埠市| 阿拉善左旗| 舟山市| 襄垣县| 陇西县| 黔西县| 通山县| 兴城市| 合水县| 大石桥市| 确山县| 调兵山市| 青铜峡市| 正安县| 衡南县| 册亨县| 贡嘎县| 平罗县| 望都县| 岳阳县| 滁州市| 屯留县| 郓城县| 阿坝| 县级市| 土默特右旗| 巫山县| 龙胜| 增城市| 翁源县| 通化市| 南城县| 山西省|