和小果學習如何一鍵轉換gtf和gff3文件
爾云間? 一個專門做科研的團隊

接觸過基因組和轉錄組的小伙伴肯定對這兩個格式不陌生吧,這是基因組的注釋文件,但比較煩人的是有些時候需要gtf格式,有時候需要gff3格式,所以需要一個方法,可以在這兩種格式之間相互轉換。
先來了解一下這兩種格式

Gff3全稱General Feature Format Version 3
存儲序列結構信息的一種數(shù)據(jù)格式。序列結構就是一個scaffold或者染色體上面每個位置都是什么序列元件。
GFF每一行代表一個序列元件(以#為開頭的注釋行除外),一行9列9個屬性,必須tab分割,屬性為空用“.”代替。
關于gtf文件
當前所廣泛使用的GTF格式為第二版(GTF2),它主要是用來描述基因的注釋。GTF格式有兩個硬標準:
根據(jù)所使用的軟件的不同,feature types是必須注明的。
第9列必須以gene_id以及transcript_id開頭。GTF文件的第9列同GFF文件不同,雖然同樣是標簽與值配對的情況,但標簽與值之間以空格分開,且每個特征之后都要有分號;(包括最后一個特征)
轉換的話需要在linux下進行,Cufflinks里面的工具gffread
#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3
上面這兩步是對gff3和gtf格式的文件進行相互轉換。
gffread genome.gff3 -g genome.fa -x? cds.fa
gffread genome.gff3 -g genome.fa -y? protein.fa
gffread genome.gff3 -g genome.fa -w? transcripts.fa
這幾步就是可以根據(jù)基因組序列文件和基因組注釋文件得到cds文件,蛋白序列和轉錄本序列。
最后提醒一下大家,在linux系統(tǒng)下運行軟件,要么前面加上路徑,要么把軟件寫進環(huán)境變量,否則是運行不了的喲。

好了,這就是今天的主要內(nèi)容了,其實挺簡單的,小伙伴們有什么問題就和小果討論吧。
推薦閱讀
shengxinguoer
生信果
生信硬核知識解答
和小果一起學生信