教程 | 基因家族擴(kuò)張與收縮分析


介紹
#1
■??在比較基因組分析,對直系同源基因分析后,往往接著就是基因家族擴(kuò)張收縮分析。確定生物間表型差異背后的遺傳變化和導(dǎo)致變化的進(jìn)化壓力,是進(jìn)化生物學(xué)的主要目標(biāo)之一?;蚪M分析工作已經(jīng)揭示了物種間基因家族的成員頻繁獲得和丟失?;蚣易逡?guī)模的變化可能有利、有害或者中性,但基因家族的數(shù)量變化也是形成物種特異的重要原因之一。
#2
■?推薦一下普遍使用的軟件CAFE (Computational Analysis of gene Family Evolution)。小編永遠(yuǎn)支持具體問題還是具體分析,生物分析軟件也只是輔助我們獲得一個(gè)預(yù)測性的結(jié)果。
#3

■首先,CAFE由Matthew W. Hahn 課題組在2005年提出評估基因家族進(jìn)化速度和模式的模型,2006年CAFE軟件面世,2013年推出CAFE 3軟件,2020年更新CAFE 5軟件。(可見該軟件還是一直更新)
#4
■??摘一段CAFE5(Bie et. al , 2021)簡短解釋CAFE工作原理:
The probabilistic model adopted in CAFE was introduced by Hahn et al. (2005); it uses a random birth and death process to model gene gain and loss along each lineage of a phylogenetic tree. In order to make inferences over a whole phylogeny, a probabilistic graphical model (Lauritzen, 1996; M. I. Jordan, manuscript in preparation) is used to calculate the probability of transitions in gene family size from parent to child nodes in the phylogeny.Using the graphical models machinery, one can draw inferences on the gene family size for all ancestral species.
#5
■??CAFE 應(yīng)用隨機(jī)出生死亡的模型,模擬一個(gè)系統(tǒng)發(fā)育過程基因家族得失。為了推斷系統(tǒng)發(fā)育過程,可計(jì)算由父節(jié)點(diǎn)到子節(jié)點(diǎn)的基因家族大小轉(zhuǎn)移率,也可推斷祖先物種的基因家族大小。
安裝
準(zhǔn)備文件
需要Orthofinder的結(jié)果文件
可以再翻查以前的推文
Orthofinder下篇
Orthofinder上篇
需要時(shí)間分歧樹文件
也可以翻查過去的mcmctree推文
整理輸入文件
GeneCounts.tsv
查看分歧樹
需要分歧樹的節(jié)點(diǎn)時(shí)間,并不需要置信區(qū)間。
runcafe.bash
輸入的樹文本內(nèi)不要又空格
load參數(shù)
-i 輸入的數(shù)據(jù)文件
-t 設(shè)置程序運(yùn)行的線程數(shù),默認(rèn)為 8
-l 設(shè)置輸出的日志文件,默認(rèn)標(biāo)準(zhǔn)輸出
-p 設(shè)置 p_value 的閾值,默認(rèn)為 0.01
運(yùn)行
查看文件內(nèi)容
提取更詳細(xì)的擴(kuò)張收縮信息
使用安裝包里的python腳本。如果是conda安裝的,可以從git-hub中下載該部分內(nèi)容;
畫樹
-i 輸入的信息文件
-y是對應(yīng)輸入文件的標(biāo)題選擇展示 可選:Expansions/Contractions/Rapid
-t 是輸入樹文件 (在cafe輸出文件能找到)
-d 是樹的結(jié)構(gòu)文件(在cafe輸出文件能找到)
-o 命名,腳本默認(rèn)是png;
不過由于是由python來寫,還是能修改腳本的命令調(diào)整輸出為svg
輸出的圖展示


始終還是輸出的不夠好看(無法直接發(fā)文章),不過沒關(guān)系總有方法進(jìn)行美觀的。