【ASTER實戰(zhàn)論】02.針對數(shù)據(jù)挑選合適的建樹軟件——知己知彼方能百戰(zhàn)不殆

臺本,湊合看。
觀前提示,本系列視頻極為硬核,請謹慎觀看。
歡迎來到ASTER實戰(zhàn)論,本系列視頻主要講解如何用ASTER系列工具構(gòu)建系統(tǒng)發(fā)育樹以及分享建樹小技巧,非常適合科研中需要構(gòu)建系統(tǒng)發(fā)育樹的研究方向為分類學或生物信息學且有一定基礎(chǔ)的同學。
本視頻主要講解如何根據(jù)數(shù)據(jù)挑選最合適的建樹軟件。
知己知彼方能百戰(zhàn)不殆。
先疊甲,畢竟夜羽蝶屬于ASTER課題組,且見識淺薄,如有偏頗或未提及某些軟件,請多包涵。
狀況一:我好懶啊,能不能隨便幫我挑一個建樹軟件?。?/p>
好好好,那就用MASTER-site吧,用法和RAX-M-L,IQ-tree,F(xiàn)ast-tree差不多,但設(shè)計時考慮了不完全譜系分選,所以更能保證建樹質(zhì)量。
其實SVD-Quartets也很好用,但你們懶人肯定不會看PAUP的手冊對吧。
對于用pipeline包的同學,這里推薦一下Phylo-suite,Phylo-suite集成了ASTER系列的很多工具,MASTER-site也會很快會被整合進包。
您說是不是啊at張東老師?
對于某些用MEGA包的同學,我必須吐槽一下。
都21世紀了,別再用最大簡約法建樹了,最大似然法我就忍了,最大簡約法是在搞毛啊!
您覺得我說的對嗎,at老晴。
狀況二:我的基因絕大多數(shù)是多拷貝的,我是不是必須先找到只存在直系同源的Ortholog建樹?
不要這么做,你只需要把同源序列的基因家族樹gene family tree建起來,后面的交給ASTRAL-Pro就可以了。
在這里順便提醒一下,雖然說用一般的ASTRAL或weighted ASTRAL也可以建多拷貝的樹而且被數(shù)學證明是正確的,但請不要這么做。
對于ASTRAL-Pro來說,基因重復是信號,是signal。
但對于ASTRAL和weighted ASTRAL,基因重復是噪音,是noise。
為了信噪比,為了不浪費花錢測出來的序列,別再用ASTRAL和weighted ASTRAL建樹了!
順便吐槽一下,只有單拷貝基因的話給我用weighted ASTRAL,別再用ASTRAL-Pro了。
ASTRAL-Pro的Pro是指旁系同源Paralog和直系同源Ortholog。
不是專業(yè)版!不是專業(yè)版!不是專業(yè)版!
只有單拷貝基因的話ASTRAL-Pro和普通的ASTRAL除了支持度以外沒有任何區(qū)別!
狀況三:我的進化樹高度不高,我該怎么建樹?
首先,我們需要定義一下高度不高。
高度不高是指樹高在0.5個nucleotide substitution unit以下的或者不同物種間的堿基序列保守程度A-N-I在50%以上的。
nucleotide substitution unit就是RAX-M-L之類的最大似然法的樹高的單位。
進化樹高度取決于分化的時間和變異速率。
分化的時間在一億年以內(nèi)的例如整個反芻小目,整個新鳥小綱,整個鳳蝶總科之類的就很合適。
但變異速率過快的細菌,病毒等另算。
最離譜的是B細胞,變異速度是體細胞的一百萬倍!一百萬倍!
對于樹高不高的情況,推薦同時跑MASTER-site和MASTER-pair,然后看哪個的結(jié)果更科學就用哪個,另一個結(jié)果扔到附錄里。MASTER-site和MASTER-pair的模型條件不一樣。MASTER-site的核苷酸替代模型nucleotide substitution model并不是最廣義的G-T-R模型,而是退而求其次而用的H-K-Y模型。
H-K-Y模型假設(shè)所有的轉(zhuǎn)換速率transition rates相同且所有的顛換速率transversion rates相同。
MASTER-pair雖是G-T-R模型但假設(shè)相鄰的位點相互獨立且變異速率一致。
有條件的也可以跑一下SVD-Quartets,SVD-Quartets一般比MASTER要慢幾十倍。
SVD-Quartets是G-T-R模型但假設(shè)不同物種的變異速率相同。
唉,世上有個完美的工具就好了。
狀況四:我的進化樹高度很高,我該怎么建樹?
對于樹高很高的情況,建議同時用weighted ASTRAL和一般的ASTRAL,然后看哪個的結(jié)果更科學就用哪個,另一個結(jié)果扔到附錄里。
樹高很高的話容易得到較高質(zhì)量的基因樹,計算bootstrap或Bayesian支持度后就可以用weighted ASTRAL建物種樹了。
這種情況下MASTER系列可能因為信噪比過低而給出離譜的結(jié)果,雖然沒試過SVD-Quartets怎樣但我猜應該類似。
一般來說如果數(shù)據(jù)中水平基因轉(zhuǎn)移H-G-T很少那么weighted ASTRAL就很靠譜,但如果水平基因轉(zhuǎn)移H-G-T很多,那么你就不該用ASTER系列工具,但退而求其次的話可以用一般的ASTRAL,用ASTER的c++版本,別用原本的Java版本。
c++版本的ASTRAL在物種數(shù)量多或基因樹中物種缺失率高的情況下準確率高,速度快,內(nèi)存占用低。
我猜樹高很高很有可能存在這兩種情況。
如果不知道水平基因轉(zhuǎn)移H-G-T高不高的話,可以試著跑一下c++版本的ASTRAL,加上參數(shù)杠u空格2,如果對于大部分枝子,Q1大于Q2約等于Q3,那么H-G-T就不高。
如果大多數(shù)枝子Q1和Q2的差距與Q2和Q3的差距差不多大,甚至Q1約等于Q2,那么H-G-T就很高了,甚至可以考慮系統(tǒng)發(fā)育網(wǎng)絡(luò)軟件了。
以上是一般情況下的軟件推薦,下面進入疑難雜癥環(huán)節(jié)。
狀況五:我只有SNP如何建樹?
請捫心自問,為什么要將SNP挑出來呢?
相比于用整個基因組建樹,并不會有任何時間和內(nèi)存占用上的提升。
如果堅持用SNP,請用MASTER-site或SVD-Quartets建樹,不要用MASTER-pair因為模型不對。
狀況六:我每個物種有多個個體該如何建樹?
這得看I-L-S高不高了,跑一下MASTER-site,加上參數(shù)杠u空格2,如果對于大部分枝子Q1大于0.9就說明I-L-S不高,沒必要跑多個個體,反而對于沒有對多個個體針對性優(yōu)化的MASTER和SVD-Quartets有可能有害。
在I-L-S高的情況下用多個個體建樹有助于提高MASTER和ASTRAL的準確性。
狀況七:我的物種是多倍體且只有unphased數(shù)據(jù)怎么辦?
這種情況下只能用MASTER-site或SVD-Quartets建樹。
MASTER-site的用法看ASTER系列的Github。
SVD-Quartets的用法問作者去。
狀況八:我的數(shù)據(jù)量非常小怎么辦?
這得看I-L-S高不高了,參照狀況六。
如果I-L-S不高,直接用RAX-M-L,如果I-L-S高,要么湊合用MASTER,要么考慮Baysian MCMC法吧。
如果喜歡本視頻請轉(zhuǎn)發(fā)給實驗室的小伙伴。
有建樹需求的同學歡迎加入ASTER系統(tǒng)樹軟件群。
群里有ASTRAL和ASTER系列的開發(fā)者,Phylo-suite的開發(fā)者,TB-tools的開發(fā)者,以及很多熱心的同學。
大家一起學習,一起成長。