【電子筆記】基因組共線性分析簡單流程
* 本電子筆記內(nèi)容僅用于記錄個人學(xué)習(xí)過程并為將來失憶的自己提供參考,歡迎討論指正。
主要使用MCScanX軟件進(jìn)行基因組共線性分析,以及后續(xù)下游分析。
原始數(shù)據(jù):
????基因組蛋白質(zhì)序列 .faa文件
????基因組注釋信息 .gff文件
p.s.據(jù)說一次最多只能做5個物種的共線性比較,需注意。
基本使用流程:
????0. 原始數(shù)據(jù)處理
????MCScanX讀取的gff文件與一般的九列g(shù)ff文件不同,是只有四列的縮略版本。每一列內(nèi)容分別是:染色體編號、基因編號、基因起始位置,基因終止位置(以tab分割)。
? ? 可使用awk命令進(jìn)行轉(zhuǎn)換:
????通常同時進(jìn)行組內(nèi)和組間的共線性比較,方便后續(xù)下游分析,因此需先將基因組文件和注釋文件合并:
????p.s.其實也可以一對一進(jìn)行共線性比較,所以faa文件不一定需要合并。但是gff文件必須要合并,否則后續(xù)MCScanX步驟得到的collinearity文件會沒有結(jié)果。
????1. BLASTP聯(lián)配
??? 這里使用速度更快的diamond:
????2. MCScanX分析
????需要.blast文件和.gff文件。注意這兩個文件名需要一致且放在同一目錄下,否則會報錯。
? ??

????3. 后續(xù)分析
????MCScanX自帶了一些作圖java腳本,但是做的圖比較粗糙。如果后續(xù)學(xué)了怎么用別的軟件作圖再補(bǔ)充。
????自帶的幾個作圖腳本需要.ctl文件指定作圖大小和染色體參數(shù),默認(rèn).ctl文件位于MCScanX/downstream_analyses/文件夾內(nèi),共有五個。(bar.ctl,?circle.ctl, dot.ctl, dual_synteny.ctl, family.ctl)
????1) dot_plotter 點陣圖,最直觀的共線性可視化結(jié)果

? ? 2)?circle_plotter 很漂亮的circos圖

? ? 3) bar_plotter 直觀展示參考基因組在目標(biāo)基因組上的共線性組成

? ? 4)?dual_synteny_plotter 感覺和circos圖差不多,但是不太好看

可能會補(bǔ)充一些其他的共線性作圖方案。
參考文章:
http://chibba.pgml.uga.edu/mcscan2/documentation/manual.pdf(為啥這兩天MCScanX官網(wǎng)一直登不上去...)
https://blog.csdn.net/u012110870/article/details/102804418
https://blog.csdn.net/hs6605015/article/details/108887241
希望再也不要碰到102條染色體的基因組了,我真的會謝。