小果教你用TransDecoder輕松預(yù)測蛋白開放閱讀框序列
爾云間? 一個(gè)專門做科研的團(tuán)隊(duì)
小果之前主要是在處理數(shù)據(jù)挖掘,從公共數(shù)據(jù)庫里找現(xiàn)成的表達(dá)矩陣。但小果今天接到個(gè)話,要處理基因序列,就是有一個(gè)轉(zhuǎn)錄本的fasta序列文件,需要預(yù)測一下它的蛋白序列,找一下開放閱讀框,這個(gè)操作其實(shí)不算復(fù)雜,有個(gè)軟件就行了,就是TransDecoder。
先說一下,這是linux系統(tǒng)下的軟件,所以我們的操作要在linux系統(tǒng)下進(jìn)行,首先是要安裝軟件,這個(gè)軟件其實(shí)還是挺友好的,因?yàn)樗灰螺d下來就行,不需要單獨(dú)安裝??梢栽趌inux系統(tǒng)下直接使用下面這個(gè)命令。
wget?https://codeload.github.com/TransDecoder/TransDecoder/tar.gz/2.0.1
也可以先下載下來然后再傳輸?shù)絣inux系統(tǒng)里。
簡單說一下fasta文件,就是一行標(biāo)題,然后下面一行或幾行序列

TransDecoder.LongOrfs -t target_transcripts.fasta
默認(rèn)情況下,TransDecoder.LongOrfs將識別至少100個(gè)氨基酸長的ORF??梢酝ㄟ^’-m’參數(shù)降低此值,但可以知道,使用更短的最小長度標(biāo)準(zhǔn),誤報(bào)ORF預(yù)測的比率會急劇增加
TransDecoder.Predict -t target_transcripts.fasta
最終的文件可以在當(dāng)前目錄找到,也就是后綴為.pep, .cds, .gff3和.bed的文件
一般來說,可以使用TransDecoder對無參轉(zhuǎn)錄組的拼接結(jié)果序列預(yù)測其CDS,所以我們可以先將拼接序列用BLAST比對nr以及swissprot蛋白數(shù)據(jù)庫,然后提取其比對上的同源序列的位置來識別CDS,最后再通過TransDecoder的第一步和第三步來預(yù)測那些未比對上的序列的CDS。這個(gè)小伙伴們了解一下就好。
軟件會創(chuàng)建一個(gè)工作目錄(例如transcripts.transdecoder_dir /)保存結(jié)果,其中包含:
longest_orfs.pep: 滿足最小長度標(biāo)準(zhǔn)的所有ORF,無論編碼潛力如何。
longest_orfs.gff3: 目標(biāo)轉(zhuǎn)錄本中所有ORF的位置
longest_orfs.cds: 所有檢測到的ORF的核苷酸編碼序列
longest_orfs.cds.top_500_longest: top 500最長的ORF,用于訓(xùn)練編碼序列的馬爾可夫模型
以上是TransDecoder.LongOrfs的結(jié)果,下面是TransDecoder.Predict的預(yù)測結(jié)果。
hexamer.scores: 每個(gè)k-mer的對數(shù)似然分?jǐn)?shù)(編碼/隨機(jī))
longest_orfs.cds.scores: 6個(gè)閱讀框中每個(gè)ORF的對數(shù)似然和分?jǐn)?shù)
longest_orfs.cds.scores.selected: 根據(jù)評分標(biāo)準(zhǔn)選擇的ORF的加入(如頂部所述)
transcripts.fasta.transdecoder.pep: 最終候選ORF的肽序列;刪除較長ORF中的所有較短候選項(xiàng)
transcripts.fasta.transdecoder.cds: 最終候選ORF編碼區(qū)的核苷酸序列
transcripts.fasta.transdecoder.gff3: 最終選定ORF的目標(biāo)轉(zhuǎn)錄本中的位置
transcripts.fasta.transdecoder.bed: 描述ORF位置的bed格式文件
命令是比較簡單的,小伙伴們可以試一下喲,好了,今天的內(nèi)容就是這些了,小伙伴們有什么問題歡迎來討論分享啊。