最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

基因家族分析|多圖合一進(jìn)化樹+Motifs+結(jié)構(gòu)域+啟動子+基因結(jié)構(gòu)

2022-02-11 16:28 作者:CJchen-0410  | 我要投稿


圖片

放一張效果圖,這些,三四年前的東西,我其實一直懶得說。

圖片

寫在前面

“Gene Structure View (Advanced)”這個功能可以說,也是一時興起寫出來的。開發(fā)的主要動機(jī),還是發(fā)現(xiàn)師弟師妹在做的事情實在是太費時間精力。就這樣,四五年過去了。直到現(xiàn)在,我仍然沒搞懂,這個功能是怎么被大伙用起來的。我甚至沒有花過時間,專門為這個功能寫教程。網(wǎng)絡(luò)上已有的教程,均是用戶們自發(fā)總結(jié),確實已經(jīng)講解得足夠清晰明白。多少,我有時看到還是有點感動,畢竟這些事情也可以說是軟件開發(fā)的一部分。太懶,仍然是我的問題。工作以后,能靜下心來寫點文字的時間,越來越少。正是假期,我已然預(yù)見明天之后便是忙碌的一個月。為此,享受這最后一天。相對系統(tǒng)的總結(jié)一份教程,希望能減少一部分用戶使用問題,也讓一些朋友能夠更好的使用工具。
這份教程,將會首先簡單介紹界面組成,隨后介紹分塊功能(原名是 Amazing Optional Gene View,因為確實靈活),最后介紹全局組合。

功能界面介紹

TBtools 這個子工具的功能,比較穩(wěn)健和豐富??梢韵瓤纯唇缑娴闹饕M成。

圖片


  1. 待可視化的基因 ID 列表或者進(jìn)化樹,如果輸入的是進(jìn)化樹,那么進(jìn)化樹也是有基因 ID 的,在程序邏輯上,跟 ID 列表區(qū)別不大。TBtools 會使用這個基因 ID 列表,自動提取MEME,Domain,尤其是gff3/gtf 文件中的基因結(jié)構(gòu)信息。用于展示??上攵@個輸入對于 gtf/gff3 文件來說是必須,對于 MEME 等輸入非必須。

  2. MEME / MAST XML File,對應(yīng)的是MEME Suite的兩個軟件輸出。從MEME Suite分析Motifs后,自然會得到這兩個XML文件。當(dāng)然,也可以用 TBtools 打包的?MEME/MAST GUI Wrapper,直接在 Windows/MacOS 電腦下本地跑。

  3. GFF3/GTF文件 - 基因結(jié)構(gòu)注釋信息,此處是 TBtools 最有趣的地方。用戶當(dāng)然可以提供只包含某些基因的文件,比如某個家族的所有成員的基因結(jié)構(gòu)信息。但對于 TBtools 用戶來說,準(zhǔn)備這個文件,只是畫蛇添足。TBtools 直接支持物種基因結(jié)構(gòu)注釋信息全集!在軟件處理邏輯上,會自動根據(jù)“待可視化的基因ID列表或者進(jìn)化樹”在后臺提取出對應(yīng)的基因結(jié)構(gòu),然后可視化。完全不需要用戶自己去整理這些信息,畢竟這是一個繁瑣的操作。

  4. 序列特征/結(jié)構(gòu)域信息- 蛋白坐標(biāo),輸入的數(shù)據(jù)格式在文本提示上已經(jīng)注明“基因ID[\t]蛋白起始坐標(biāo)[\t]蛋白終止坐標(biāo)[\t]結(jié)構(gòu)域名字”,輸入數(shù)據(jù)一般可以直接通過一些結(jié)構(gòu)域預(yù)測軟件,如NCBI CDD,pfam,SMART等網(wǎng)站預(yù)測,簡單整理得到。在最終可視化圖表上,這些蛋白坐標(biāo)將會被自動映射到基因組(外顯子)坐標(biāo)上。

  5. 序列特征/結(jié)構(gòu)域信息- mRNA坐標(biāo),與 4. 中類似,輸入的具體坐標(biāo)為mRNA坐標(biāo),即Exon坐標(biāo)。這類數(shù)據(jù)一般可以通過直接拿轉(zhuǎn)錄本序列(exon組合 - 可用TBtools提取完整轉(zhuǎn)錄本),隨后用于分析。事實上,NCBI CDD也支持轉(zhuǎn)錄本直接預(yù)測結(jié)構(gòu)域。對于我個人來說,則是用于分析小RNA靶向位點等。在最終可視化圖表上,這些蛋白坐標(biāo)將會被自動映射到基因組(外顯子)坐標(biāo)上。

  6. ID 重命名信息文件,在最終圖稿上,用戶可以直接給 ID 映射表格,批量調(diào)整 ID 名字,如“ATG123456”調(diào)整為“AthARF3”等。

  7. 一些有趣的參數(shù)

    • Fill in Gradient Mode,即是否漸變著色,在可視化數(shù)據(jù)多時,這個參數(shù)很有用

    • Motif Num:是否顯示 Motif 的數(shù)字標(biāo)志

    • Phase Num:是否顯示剪接位點,即內(nèi)含子外顯子交接點的相位信息

    • Tree Layout:進(jìn)化樹的布局模式

    • Show Branch Anno:是否展示BootStrap值

    • Width:圖片寬度

    • Height:圖片高度

  8. CDD Result,為了方便用戶做一些可視化,這個摁鈕是去年順手加上去的,因為我發(fā)現(xiàn)不少人就是想要直接放CDD的預(yù)測結(jié)果(而且是單獨一欄,不映射到基因結(jié)構(gòu)上)。換句話說,NCBI CDD預(yù)測之后,下載 hitdata.txt 文件就可以直接可視化,不需要用戶做任何進(jìn)一步文本整理。

????????9.BioSequences,這個更為靈活,只要用戶了解TBtools的生物序列可視化功能,就知道如何準(zhǔn)備這個文件??梢阅脕砜梢暬Y(jié)構(gòu)域信息,如pfam,SMART等,也可以拿來可視化啟動子的順式作用元件預(yù)測結(jié)果等。

主界面的介紹略顯枯燥,也不形象,下面用非常多的使用實例來說明這個功能的有趣之處。

可視化 MEME/MAST XML 結(jié)果

一般情況下,將蛋白序列提交到 MEME Suite 網(wǎng)站,等待任務(wù)結(jié)束,即可得到 MEME.xml 或 MAST.xml 文件。不知道操作的朋友自行谷歌百度。這里給出網(wǎng)站的一個截圖

圖片

有時候網(wǎng)站訪問不到,那么可以用 TBtools 的 MEME/MAST GUI Wrapper跑。

圖片

所以非常簡單.....
如果這個時候,只給部分基因的 ID,那么就只會顯示這部分的 motifs 信息。

圖片

當(dāng)然,很少人這么干。

可視化進(jìn)化樹

“Gene Structure View (Advanced)”以前的名字是“Amazing Optional Gene View”,其中最重要的是 Optional,表示這個功能非常靈活。用戶可以只單獨可視化某一個部分。比如只可視化進(jìn)化樹。

圖片

當(dāng)然,更多時候,大家會希望和 MEME 圖一起可視化。

圖片

可視化基因結(jié)構(gòu)

在 TBtools 中可視化基因結(jié)構(gòu),用戶只需要直接下載物種數(shù)據(jù)庫提供的基因結(jié)構(gòu)注釋信息文件,一般是幾十Mb的GTF/GFF3文件,而不需要進(jìn)行任何處理,就可以直接用于基因結(jié)構(gòu)可視化,相應(yīng)的, TBtools 需要用戶至少給 ID 列表,或者進(jìn)化樹。因為 TBtools 會基于這些IDs信息,自動提取出對應(yīng)的基因結(jié)構(gòu),隨后可視化。

圖片

當(dāng)然,更多時候,我們希望是按照進(jìn)化樹的順序來。

圖片

可視化結(jié)構(gòu)域信息

很多時候,我還是比較推薦 NCBI CDD 的預(yù)測結(jié)果,我們提交預(yù)測信息上去之后,點擊下載,則可以得到?hitdata.txt?文件,響應(yīng)教程也請自行微信/百度/谷歌檢索。以前肯定有人寫過的。使用起來方便。

圖片

當(dāng)然,還是那樣,可能用戶希望的是跟進(jìn)化樹放在一起...

圖片

可視化順式作用元件(啟動子)信息

順式作用元件的預(yù)測,目前已經(jīng)有不少推文可以看到了。微信百度谷歌一檢索,肯定還是能看到我以前寫的教程。使用Gene Structure View (Advanced)這個功能時,需要大體整理成以下格式。本例取的是 ATG 上游 1kb 的序列,提交到 PlantCARE 預(yù)測,隨后整理。

圖片

同時應(yīng)該提供每個序列的長度信息,這里都是 1kb。

圖片

隨后即可用于可視化

圖片

當(dāng)然,還是那樣,可能用戶希望的還是和進(jìn)化樹放在一起

圖片

在基因結(jié)構(gòu)上可視化結(jié)構(gòu)域特征

事實上上,上面的都比較直觀,我們可以看到“基因結(jié)構(gòu)”和“蛋白結(jié)構(gòu)域”是分開繪制的。但事實上,蛋白結(jié)構(gòu)域,本身對應(yīng)的也是mRNA序列,回到基因組上,那么就是基因結(jié)構(gòu)上的某一段。所以 TBtools 最初直接提供了兩個輸入?yún)^(qū)域,用戶只需要考慮具體蛋白坐標(biāo)或者mRNA坐標(biāo)就可以可視化序列特征到基因組(基因結(jié)構(gòu)-外顯子-內(nèi)含子)坐標(biāo)上。此處先看看基因結(jié)構(gòu)域信息。稍微整理了一下之前的 NCBI CDD 預(yù)測結(jié)果,整理格式大概是,

圖片

隨后即可用于可視化,

圖片

當(dāng)然,要從成員親緣關(guān)系來分析,還是得給進(jìn)化樹

圖片

在基因結(jié)構(gòu)上可視化轉(zhuǎn)錄本序列特征信息

蛋白序列特征,如保守結(jié)構(gòu)域信息當(dāng)然是大家都在關(guān)注的。也有一些情況,序列特征體現(xiàn)在轉(zhuǎn)錄本序列上,體現(xiàn)在核酸水平,比如小RNA(如miRNA)的靶位點。對于這類信息,只需要簡單整理成類似文件,如下

圖片

隨后即可用于可視化

圖片

當(dāng)然,還是那句話,進(jìn)化樹可以一起展示

圖片

當(dāng)然,在同一進(jìn)化分支上不同基因上靶位點會保守存在

圖片

對進(jìn)化樹進(jìn)行重命名...

Emmm,TBtools在開發(fā)的時候,一直追求的是ID的統(tǒng)一性,但在最后圖稿上,一般用戶都希望是可以替換成自己喜歡的名字。比如做一個簡單的。

圖片

其中,重命名信息文件的格式簡單,也就是兩列,制表符分隔。

圖片

(當(dāng)然,這個例子里面轉(zhuǎn)錄本都包含進(jìn)來了,一般做家族分析,我們是不會包含轉(zhuǎn)錄本信息的)

多圖組合

如上所示,其中每一部分都可以分開可視化,也可以隨機(jī)組合,也可以全部組合!,這就是所謂的Amazing Optional....。這里放出一張圖稿。

圖片

效果如下(進(jìn)化樹還是用Cla....這個布局好看點),

圖片

當(dāng)然,其實還可以利用 JIGplot 特性(畢竟我是開發(fā)的嘛)做更多的事情...就不再贅述。

寫在最后

沒啥好說的。準(zhǔn)入門檻越低,越是容易被誤解。

“終于,我們沒有改變世界,是世界改變了我們”。

這篇推文,應(yīng)該要火,請?點擊 再看 和 轉(zhuǎn)發(fā)擴(kuò)散。--?CJ - 我是認(rèn)真的。

本文使用 文章同步助手 同步

基因家族分析|多圖合一進(jìn)化樹+Motifs+結(jié)構(gòu)域+啟動子+基因結(jié)構(gòu)的評論 (共 條)

分享到微博請遵守國家法律
康平县| 通州市| 当雄县| 洞口县| 吴桥县| 南木林县| 奈曼旗| 北流市| 游戏| 桦川县| 辰溪县| 内乡县| 准格尔旗| 德安县| 化州市| 阳西县| 白玉县| 华蓥市| 鲁甸县| 鄂伦春自治旗| 萨迦县| 石泉县| 马关县| 修文县| 甘孜县| 平远县| 固镇县| 黑河市| 鹰潭市| 恩施市| 东阿县| 元阳县| 宝兴县| 高州市| 张家界市| 灵璧县| 鄂尔多斯市| 太谷县| 澄江县| 高密市| 娱乐|