TE注釋結果不會看?小果教你!
爾云間? 一個專門做科研的團隊
歡迎點贊+收藏+關注
生信人R語言學習必備
立刻擁有一個Rstudio賬號
開啟升級模式吧
(56線程,256G內存,個人存儲1T)

在本文中,小果將向大家介紹如何讀懂TE注釋結果(理解EDTA的使用和輸出 問答 ·歐舒君/EDTA 維基 ·GitHub)。
首先打開我們的輸出結果目錄:
?

文件比較多,我們重點看以下幾個文件,首先看一下GFF3文件:
1.
此文件僅包含結構完整的 TE,包括基因組中的LTRs, TIRs, 和Helitrons. 由于 TE(插入到另一個 TE)的嵌套性質以及錯誤注釋,此文件中的條目可能重疊。
2.
此文件包含結構完整和碎片化的TEs,并代表全基因組TE注釋,可以說上一個文件是該文件的子集。

每一列包含了以下信息:
seqid:序列的ID
source:注釋來源
sequence_ontology:注釋類型
start:元素的起始位置(以1為起點
end:元素的結束位置。
score:注釋的可信度或置信度,300 用于過濾掉低置信度匹配項
strand:元素所在的鏈,可以是 "+"(正鏈)或 "-"(負鏈)
phase:GFF3 格式要求的階段劃分信息,此字段填充為.
attributes:元素的注釋信息,包含元素的ID、名稱、分類和同源性等信息
其他文件:
摘要文件,考慮了重疊的注釋,并對 TE 長度和拷貝數(shù)進行了總結
放一部分截圖,結果很清楚了:

Class列列出了TE的類別信息;
Count列表示該類別下所有TE元素在樣本中出現(xiàn)的次數(shù)總和;
bpMasked列即被遮蔽的堿基對數(shù)量;
%masked列表示被遮蔽的堿基對所占比例。
“--”表示該類別下沒有發(fā)現(xiàn)任何TE。
total interspersed行表示整體統(tǒng)計結果,顯示了所有TE類別的總和。
?好啦,通過小果的介紹,有沒有看懂了呢?
?
歡迎使用:云生信??- 學生物信息學?(biocloudservice.com)

“生信果”,生信入門、R語言、生信圖解讀與繪制、軟件操作、代碼復現(xiàn)、生信硬核知識技能、服務器、生物信息學的教程,以及基于R的分析和可視化等原創(chuàng)內容,一起見證小白和大佬的成長。