利用Minia軟件對(duì)基因組測序二代數(shù)據(jù)的初步組裝
一.Minia簡介
基因組組裝一般分為三個(gè)水平,contig, scaffold和chromosomes。contig表示從大規(guī)模測序得到的短讀(reads)中找到的一致性序列,組裝的第一步就是從短片段(pair-end)文庫中組裝出contig。進(jìn)一步基于不同長度的大片段(mate-pair)文庫,將原本孤立的contig按序前后連接,其中會(huì)調(diào)整contig方向以及contig可能會(huì)存在開口(gap,用N表示),這一步會(huì)得到scaffolds, 就相當(dāng)于super-contigs和meta-contigs。最后基于遺傳圖譜或光學(xué)圖譜或者Hi-C技術(shù),將scaffold合并調(diào)整,形成染色體級(jí)別的組裝(chromosome).
目前二代測序組裝基因組的工具的核心基礎(chǔ),是基于De Bruijn graphs法,包擴(kuò)velvet, Soapdenovo, ABYSS及Minia等。Minia是內(nèi)存資源最省的工具,其精確度和連續(xù)性與其他基因de Bruijn圖的組裝工具(如Velvet)相似,輸出是一組contigs。在臺(tái)式電腦上組裝人類基因組contig居然只要5.7G的RAM,運(yùn)行23小時(shí),簡直難以相信。
Minia軟件是基于de Bruijn圖原理的短序列組裝工具,優(yōu)于以前的ABySS和SOAPdenovo,關(guān)鍵是速度非???,十幾分鐘就OK了,不消耗計(jì)算機(jī)資源,所以這里就選擇它啦。
二.Mina下載安裝及運(yùn)行
下載及安裝
下載地址:https://github.com/GATB/minia
下載后tar-zxvf *.tar.gz解壓后,通過cmake進(jìn)行編譯后就能使用。
腳本:

參數(shù)解釋:
用到了兩個(gè)部分的參數(shù)設(shè)置:


-in? data.list 記錄了數(shù)據(jù)存放的位置及數(shù)據(jù)名稱
--nb-cores: number of cores? [default '0']
結(jié)果:

圈紅的文件為我們要的初步組裝的基因組序列文件, 共有44905595條序列。
Unitigs:
Minia will also output unitigs, in the FASTA format. They correspond to non-branching paths in the de Bruijn graph prior to any graph simplication. File:[prefix].unitigs.fa.
也就是在構(gòu)建de Bruijn圖時(shí),圖的非分支路徑表示的字符串,也稱為unitigs。
三.使用prinseq組裝序列評(píng)估
四.結(jié)果:

五.報(bào)錯(cuò)信息:
一開始我在-in 時(shí) 直接指定了測序的R1/R2端fq.gz文件,結(jié)果總是報(bào)錯(cuò),錯(cuò)誤信息如下:
Minia 3, git commit b55a246
ERROR: Unknown parameter '
后來發(fā)現(xiàn),對(duì)minia而言,雙端序列文件屬于多個(gè)文件了,需要寫一個(gè)txt文件記錄多個(gè)文件的信息,路徑和文件名。
我們看一下minia的manaul手冊(cè)上的描述:
https://github.com/GATB/minia/raw/master/doc/manual.pdf
FASTA/FASTQ
Minia assembles any type of Illumina reads, given in the FASTA or FASTQ format. Giving paired or mate-pairs reads as input is OK, but keep in mind that Minia won't use pairing information.
Multipe Files
Minia can assemble multiple input _les. Just create a text _le containing the list of read _les, one _le name per line, and pass this list as the _rst parameter of Minia (instead of a FASTA/FASTQ _le). Therefore the parameter input_file can be either (i) the read _le itself (FASTA/FASTQ/compressed),or (ii) a _le containing a list of _le names.
本文使用 文章同步助手 同步