最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

和小果學習如何一鍵轉換gtf和gff3文件

2022-12-30 11:39 作者:小云愛生信  | 我要投稿

爾云間? 一個專門做科研的團隊

原創(chuàng)?小果?生信果

接觸過基因組和轉錄組的小伙伴肯定對這兩個格式不陌生吧,這是基因組的注釋文件,但比較煩人的是有些時候需要gtf格式,有時候需要gff3格式,所以需要一個方法,可以在這兩種格式之間相互轉換。


先來了解一下這兩種格式


Gff3全稱General Feature Format Version 3

存儲序列結構信息的一種數(shù)據(jù)格式。序列結構就是一個scaffold或者染色體上面每個位置都是什么序列元件。


GFF每一行代表一個序列元件(以#為開頭的注釋行除外),一行9列9個屬性,必須tab分割,屬性為空用“.”代替。


關于gtf文件

當前所廣泛使用的GTF格式為第二版(GTF2),它主要是用來描述基因的注釋。GTF格式有兩個硬標準:


根據(jù)所使用的軟件的不同,feature types是必須注明的。


第9列必須以gene_id以及transcript_id開頭。GTF文件的第9列同GFF文件不同,雖然同樣是標簽與值配對的情況,但標簽與值之間以空格分開,且每個特征之后都要有分號;(包括最后一個特征)


轉換的話需要在linux下進行,Cufflinks里面的工具gffread


#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

上面這兩步是對gff3和gtf格式的文件進行相互轉換。

gffread genome.gff3 -g genome.fa -x? cds.fa
gffread genome.gff3 -g genome.fa -y? protein.fa
gffread genome.gff3 -g genome.fa -w? transcripts.fa

這幾步就是可以根據(jù)基因組序列文件和基因組注釋文件得到cds文件,蛋白序列和轉錄本序列。


最后提醒一下大家,在linux系統(tǒng)下運行軟件,要么前面加上路徑,要么把軟件寫進環(huán)境變量,否則是運行不了的喲。


好了,這就是今天的主要內(nèi)容了,其實挺簡單的,小伙伴們有什么問題就和小果討論吧。

推薦閱讀



shengxinguoer

生信果


生信硬核知識解答

和小果一起學生信


和小果學習如何一鍵轉換gtf和gff3文件的評論 (共 條)

分享到微博請遵守國家法律
巫山县| 乐清市| 庆城县| 房产| 宜君县| 大理市| 通山县| 会宁县| 阳西县| 钦州市| 叙永县| 河池市| 安图县| 青铜峡市| 永丰县| 忻城县| 余干县| 巫溪县| 横山县| 东城区| 合水县| 安仁县| 寻甸| 墨竹工卡县| 平阴县| 太原市| 康乐县| 抚顺市| 喜德县| 太康县| 诸暨市| 山丹县| 锦屏县| 恩平市| 大余县| 辛集市| 和硕县| 固阳县| 叙永县| 潮安县| 山阳县|