TBtools的sequence toolkit常用功能介紹:

本人的簡書平臺:啊輝的科研,原文鏈接“https://www.jianshu.com/p/211a262aebc4”
發(fā)在b站主要為了做個備份
TBtools(v1.089)的sequence toolkit常用功能介紹:
fasta extract (recommended)
給出序列的ID,可以提取特定序列,要點Initialize。
fasta stats
查看序列文件的統(tǒng)計信息。
sequence manipulate (rev&comp)
對序列進行正反鏈的互換,點擊reverse和complement。
對序列進行單行處理,并將序列轉(zhuǎn)換成大寫,點擊uppercase和seq in one line。
只顯示文件的ID或序列。
ID simplify
可以去除ID之后的tab分隔符后面的全部內(nèi)容。不用選參數(shù)。
ID rename
對文件中序列的ID進行重新命名,需要輸入舊ID與新ID,中間用tab分隔符隔開。
ID prefix
可以在全部的序列ID前面加幾個字母。
fasta to table convert
將fasta格式,轉(zhuǎn)換成普通的桌面格式,只是去掉>,將序列排在ID后面而已。
merge and split
merge: 將兩個fasta序列文件融合成一個fasta文件。split: 將含有一堆序列的文件分成含有一條序列等的多個文件,如“spilt into: 1, split mode: record per file”,就可以將原本含有50條序列的某個文件,分割成50個文件,每個文件只有1條序列。
sequence pattern locate
對某個特定的序列進行搜索定位,如對“aaatt”這個特定的序列進行搜索,就會顯示序列文件中該短序列的對應的基因ID和位置。
complete ORF predict (batch mode)
提取全基因序列中的CDS序列,要求:真核;確保有完整的CDS。輸出文件會有三個,一個是CDS序列文件,一個是CDS翻譯出來的蛋白序列文件,一個是找不到確鑿的ORF的序列文件。
batch translate CDS to protein
將CDS轉(zhuǎn)換成蛋白序列,輸出文件會有*,代表終止密碼子,可以用notepad++注意查看*與>的數(shù)量是否相同,若不同則代表某條序列提前出現(xiàn)了終止密碼子,這個務必注意,可以用notepad++去除末尾的*號。
Primer check (simple e-PCR)
檢查一下引物是否匹配而已,若匹配,會有框框出來,不匹配就會error,做引物還是用snapgene軟件好些。
GXF sequences extract
NCBI下載基因組文件和GFF文件,并提交到該工具對應框框中,記得點initialize,就可以提取CDS,gene,transcript,lnc_RNA,上游啟動子序列(選CDS,parent,upstream bases 2000, retain only upstream or down stream bases)。
GXF gene position & info .extract
提取基因的位置,和染色體長度,提取基因位置后,用excel打開并整理保存為xlsx格式,后面經(jīng)常用到。但是這樣提取的文件,缺少蛋白ID,CDS的長度和CDS(include intron but not UTR)位置,我們用GXF sequences extract提取CDS序列,feature ID選ID而不是parent,再選“retain attributes in header”,再用sequence manipulate(rev&comp)只把ID保留下來,用excel整理,并與前面提取的基因位置文件,用Vlookup公式比對整合信息,就可以得到各個基因的信息,蛋白長度就用CDS length除以3,再減1(終止密碼子)。有些基因不是編碼蛋白的,格式就不匹配,這些基因很少,若需要這些基因信息就去GFF文件單個找吧。

根據(jù)ID搜索GFF文件中的相關(guān)信息,用notepad++會更便捷些吧。
sequence toolkit其它的功能我都沒怎么用過,想知道的話可以自己摸索或者去TBtools的Q群里面找“TBtools使用教程第一部分sequence toolkit”,上網(wǎng)搜下應該也會有很多教程的。謝謝華南農(nóng)大的陳老師開發(fā)的這個軟件!
若侵,請聯(lián),必刪。