最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

GFF/GTF簡介及格式轉(zhuǎn)換

2022-04-27 16:07 作者:笨笨熊愛吃肉  | 我要投稿

最近做轉(zhuǎn)錄組的比對時,在建立索引過程中,遇見一個問題,就是我從ncbi下載的序列文件和gtf文件中,染色體命名規(guī)則竟然不一樣,但序列文件和gff文件染色體命名規(guī)則是一樣的,具體來說:序列文件和GFF文件中染色體位置以GWHAMMI開頭,可是,gff文件又沒辦法直接和基因組fasta文件搭配使用,只好將 gff文件轉(zhuǎn)gtf文件了。

gffgtf格式都可以儲存基因信息,有很多共同點(diǎn),存儲信息側(cè)重點(diǎn)又不一樣,最主要的是不同的軟件對于文件格式的要求不同,有時候你找不到需要的格式文件時,就得用另一個格式文件進(jìn)行轉(zhuǎn)換,我這次就得把gff文件轉(zhuǎn)為我需要的gtf文件。

一、GFF/GTF簡介:

GFF全稱為general feature format,這種格式主要是用來注釋基因組;

GTF全稱為gene transfer format,主要是用來對基因進(jìn)行注釋。

GTF文件以及GFF文件都由9列數(shù)據(jù)組成,這兩種文件的前8列都是相同的,非常好理解,區(qū)別在于第九列;

圖片


二、GFF/GTF文件比較

GFF文件每一列所代表的含義前面表格中有,但請注意,它的第3feature type是不受約束的,你可以使用任意的名稱。

我們需要注意的是GFF文件的第9列,從第二版開始(GFF2),所有的屬性都以標(biāo)簽=的方式呈現(xiàn),各個屬性之間以;作為分隔符。

在最新版本的GFF文件中(GFF3),有一些是已經(jīng)預(yù)先定義的屬性特征,并且這些特征往往還有特殊的含義:ID這個標(biāo)簽在各行有;另外有一個Parent的屬性,它表明了當(dāng)前的特征是Parent特征的子集。

GFF文件內(nèi)容:

圖片

GTF當(dāng)前所廣泛使用的GTF格式為第二版(GTF2),它主要是用來描述基因的注釋。GTF格式有兩個硬性標(biāo)準(zhǔn):

?? 根據(jù)所使用的軟件的不同,featuretypes是必須注明的;

?? 9列必須以gene_id以及transcript_id開頭,GTF文件的第9列同GFF文件不同,雖然同樣是標(biāo)簽與值配對的情況,但標(biāo)簽與值之間以空格分開,且每個特征之后都要有分號;(包括最后一個特征):

????????GTF文件內(nèi)容:

圖片
圖片


三、GFF/GTF格式轉(zhuǎn)換:

有不同的工具可以來完成這個工作,生成的結(jié)果還略有不同,這次重新學(xué)習(xí),決定比較一下,選一個更適合自己課題的結(jié)果。

Cufflinks里面的工具gffread

下載地址:

?????????????????https://github.com/cole-trapnell-lab/cufflinks

???????????? ? ? https://github.com/gpertea/gffread

下載后tar -zxvf 解壓后就能夠使用,解壓后程序列表:

圖片


/cufflinks-2.2.1/gffread -T my.gff -o my_gffread.gtf,

生成的gtf文件有164210行信息,如下圖,只保留了exon和CDS的信息,而它源自的gff文件有220938行信息,少了gene、mRNA行的信息;相比于ncbi上原下載的gtf文件,少了transcript、start_codon、stop_codon的信息,此外,第九列的屬性也只有transcript_id, gene_id, gene_name3種屬性,有人提到這些ID沒有任何含義,Entrez ID和轉(zhuǎn)錄本的RefSeq 編號很重要,目前我也不是很確定這些信息對后面建立索引及比對會有啥影響,未來會讓師妹去探索一下。新生成的gtf文件:

圖片

對于GTF的實(shí)際使用而言,只需要exon區(qū)間信息就可以區(qū)分不同的轉(zhuǎn)錄本了,而且在定量的過程中,也是只需要參考exon的位置信息。在gffread官網(wǎng)上,看到這么一段話,留給大家自己品味吧。

圖片
圖片


關(guān)于我疑惑缺少的一些信息,顯然軟件開發(fā)者是有自己觀點(diǎn)的(雖然我還不是很理解),讓我接受這個結(jié)果并沒有接著去探究其它方法最關(guān)鍵的原因是:gffread和Hisat2來自同一實(shí)驗(yàn)室開發(fā)。

?

參考:

http://ccb.jhu.edu/software/stringtie/gff.shtml#cite

https://cloud.tencent.com/developer/article/1036910

https://cloud.tencent.com/developer/article/1625209?from=article.detail.1709221

https://cloud.tencent.com/developer/article/1727772?from=article.detail.1625209


本文使用 文章同步助手 同步


GFF/GTF簡介及格式轉(zhuǎn)換的評論 (共 條)

分享到微博請遵守國家法律
平安县| 双流县| 丹凤县| 汕尾市| 诸暨市| 阿坝| 德惠市| 克东县| 克山县| 徐水县| 安义县| 阿拉善盟| 咸丰县| 梁平县| 南溪县| 双柏县| 六盘水市| 西盟| 镇巴县| 会东县| 罗甸县| 九龙坡区| 界首市| 贺兰县| 南充市| 桑植县| 宿州市| 连城县| 云南省| 东源县| 五常市| 济南市| 石阡县| 淮北市| 铜山县| 红河县| 庆安县| 讷河市| 崇礼县| 阿拉尔市| 郸城县|