RepeatMasker注釋重復(fù)序列二
RepeatMasker二.再次學(xué)習(xí)
2023年3月16日
9:28
?
近期通過(guò)看文獻(xiàn)和接觸到的新的重復(fù)序列注釋工具,對(duì)RepeatMasker的使用理解加深了一點(diǎn)點(diǎn),對(duì)重復(fù)序列的注釋過(guò)程也更清晰了些。我下面說(shuō)的重復(fù)序列注釋都是針對(duì)的轉(zhuǎn)座子重復(fù)序列注釋的,也就說(shuō)LTR和non-LTR注釋結(jié)果。串聯(lián)重復(fù)序列使用TRF就行了。
先看文獻(xiàn)一ref1的內(nèi)容:
? ? ? ? ?

第一步是先使用EDTA和Repeatmodeler構(gòu)建TE library。具體來(lái)說(shuō)是因?yàn)镋DTA對(duì)LTR注釋效果好,使用其做LTR的注釋,Repeatmodeler來(lái)注釋non-LTR,然后把這兩個(gè)結(jié)果合并作為Repeatmodeler的TE library。第二步使用RepeatMasker做注釋,得到的結(jié)果就是最終的TEs結(jié)果。
當(dāng)然,具體怎么合并EDTA和Repeatmodeler結(jié)果的,還需要進(jìn)一步學(xué)習(xí)。
文獻(xiàn)二ref2注釋的方法:

然后你會(huì)發(fā)現(xiàn),和上一篇文獻(xiàn)類似,先用不同工具確定重復(fù)序列的,然后合并結(jié)果構(gòu)建TE Library,最后還是用RepeatMasker進(jìn)行注釋。
文獻(xiàn)三ref南極磷蝦的重復(fù)序列注釋方法:? ?
南極磷蝦基因組有很大篇幅對(duì)重復(fù)序列進(jìn)行了研究,因此它的重復(fù)序列注釋辦法很值得參考,也和我合作的公司用的注釋辦法最為接近,這個(gè)工作本身也是由華大來(lái)做的注釋。兩種策略,同源注釋和de novo注釋,Ref1和Ref2我理解都是de novo注釋過(guò)程,如果不是單門做重復(fù)序列的研究,我覺(jué)得選擇de nono注釋方法就可以了,畢竟這個(gè)同源注釋你的參考物種基因組質(zhì)量咋樣也不好說(shuō)。

先用RepeatMasker和RepeatProteinMask(運(yùn)行超級(jí)慢的一個(gè)工具)做同源預(yù)測(cè)。然后RepetModerl和LTR-Finder做de novo預(yù)測(cè)并為Tes Library提供給RepeatMasker進(jìn)行注釋。
同源測(cè)序和de novo預(yù)測(cè)的結(jié)果怎么整合的作者并沒(méi)有說(shuō),等著我做完這兩部分工作的時(shí)候再寫(xiě)一篇學(xué)習(xí)記錄。
在EDTA的學(xué)習(xí)記錄中我發(fā)現(xiàn)有人提出EDTA在注釋non-LTR時(shí)效果不好,需要和RepeatMasker結(jié)合,方法見(jiàn)下面:
https://github.com/oushujun/EDTA/issues/231
文獻(xiàn)Ref4:22年NG上荔枝基因組的注釋更簡(jiǎn)單,只注釋了LTR區(qū)域。

Ref5:22年NG上甘蔗基因組:

作者利用了de novo 和 homology的策略,首先用RepeatModeler做de novo預(yù)測(cè),RepeatMasker做homology,最終由RepeatMasker確定類型和統(tǒng)計(jì)。
RepeatModeler補(bǔ)充說(shuō)明:從頭預(yù)測(cè)transposable element (TE)的軟件,它的核心是結(jié)合了三大預(yù)測(cè)軟件(RECON, RepeatScout and LtrHarvest/Ltr_retriever)來(lái)共同預(yù)測(cè)TE序列,其通過(guò)重復(fù)序列的結(jié)構(gòu)特征來(lái)進(jìn)行從頭注釋,因此可以尋找一些物種特有的重復(fù)序列。在給定基因組數(shù)據(jù)庫(kù)的情況下,RepeatModeler可幫助自動(dòng)執(zhí)行各種算法,對(duì)冗余結(jié)果進(jìn)行聚類,對(duì)家族進(jìn)行精煉和分類,并生成適用于RepeatMasker并最終建立重復(fù)序列系列數(shù)據(jù)庫(kù),然后再用于RepeatMasker進(jìn)行注釋
見(jiàn)我另一篇學(xué)習(xí)記錄。
總結(jié)一下:最核心的步驟還是兩步,一是通過(guò)不同工具構(gòu)建一個(gè)你覺(jué)得質(zhì)量比較好的TE library,二是把這個(gè)TE library提供給RepeatMasker做注釋用,最終RepeatMasker的結(jié)果就是你的重復(fù)序列注釋結(jié)果。還有一個(gè)疑問(wèn),EDTA可以指定參數(shù)使用RepeatMasker和RepeatModeler的,并且是默認(rèn)在其運(yùn)行環(huán)境中使用這兩個(gè)軟件,等我的EDTA結(jié)果出來(lái)后,我會(huì)試著回答這個(gè)疑問(wèn)。
我覺(jué)得比較簡(jiǎn)單的組合就是Ref1的方法,EDTA使用簡(jiǎn)單,具體怎么整合Lib并提供給RepeatMasker,在EDTA的github上的Issue上有一些辦法,參考:https://github.com/oushujun/EDTA/issues/61
但對(duì)大基因組,EDTA可能運(yùn)行時(shí)間會(huì)比較久,
關(guān)于EDTA的運(yùn)行時(shí)間:https://github.com/oushujun/EDTA/issues/61

參考:??
Ref1: Hidden genomic features of an invasive malaria vector, Anopheles stephensi, revealed by a chromosome-level genome assembly,Chakraborty et al. BMC Biology (2021) 19:28?
Ref2: The draft genome of the specialist flea beetle Altica viridicyanea (Coleoptera: Chrysomelidae),Xue et al. BMC Genomics (2021) 22:243 ;
Ref3:The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights,shao et al., 2023, Cell 186, 1–16March 16, 2023.https://doi.org/10.1016/j.cell.2023.02.005
Ref4:Two divergent haplotypes from a highly heterozygous lychee genome suggest independent domestication events for early and late-maturing cultivars;
Ref5:Genomic insights into the recent chromosome reduction of autopolyploid sugarcane Saccharum spontaneum
本文使用 文章同步助手 同步