【ASTER實(shí)戰(zhàn)論】01.串聯(lián)法與并聯(lián)法

臺(tái)本,很多地方為了發(fā)音故意打錯(cuò),懶得改了湊合看。
觀前提示,本系列視頻極為硬核,請(qǐng)謹(jǐn)慎觀看。
歡迎來到ASTER實(shí)戰(zhàn)論,本系列視頻主要講解如何用ASTER系列工具構(gòu)建系統(tǒng)發(fā)育樹以及分享建樹小技巧,非常適合科研中需要構(gòu)建系統(tǒng)發(fā)育樹的研究方向?yàn)榉诸悓W(xué)或生物信息學(xué)且有一定基礎(chǔ)的同學(xué)。
本系列視頻的目的有兩個(gè),一是為被建樹淹沒不知所措的同學(xué)解惑。
二是證明夜羽蝶真的是知識(shí)區(qū)的up主!
本視頻主要講解系統(tǒng)發(fā)育樹構(gòu)建的兩種主要流派:concatenation method串聯(lián)法又稱super matrix法,和coalescence method并聯(lián)法又稱super gene法的區(qū)別。
首先是串聯(lián)法,故名思議,就是吧所有基因的多序列比對(duì)橫向串起來形成一個(gè)超級(jí)矩陣,然后從這個(gè)超級(jí)矩陣推測(cè)系統(tǒng)發(fā)育樹的方法。
很多經(jīng)典的maximum parsimony最大簡(jiǎn)約法,maximum likelihood最大似然法,Bayesian method貝葉斯法的工具都是屬于串聯(lián)法。
其中代表性的工具有RAX-M-L,IQ-tree,以及Fast-tree。
需要注意的是,很多傳統(tǒng)的串聯(lián)法都是使用建基因樹的方法來建物種樹,這些方法忽略了一個(gè)重要的事實(shí)。
那就是堿基序列重組會(huì)導(dǎo)致染色體不同位置的演化歷史并不完全相同。
尤其是在deep coalescence深聚結(jié),也就是ILS不完全譜系分選很普遍時(shí),忽略不同位置的演化歷史的差異會(huì)導(dǎo)致非常嚴(yán)重的后果。
早在2014年,Roch and Steel就在數(shù)學(xué)上證明了對(duì)于某些系統(tǒng)發(fā)育樹,如果忽略演化歷史的差異,無(wú)論用多少基因,多長(zhǎng)的基因組序列建樹,都得不到正確的系統(tǒng)發(fā)育樹。
甚至有可能,基因越多,序列越長(zhǎng),錯(cuò)得越離譜。
這點(diǎn)在同年Jarvis et al發(fā)在科學(xué)雜志上的鳥類基因組文章中就有體現(xiàn)。
所以,不管是理論還是實(shí)踐,無(wú)數(shù)的先人告訴我們:
不要用RAX-M-L建物種樹。
不要用IQ-tree建物種樹。
不要用Fast-tree建物種樹。
當(dāng)然,并不是說所有串聯(lián)法的工具都不能用來建物種樹。
SVD-Quartets就是一個(gè)針對(duì)ILS設(shè)計(jì)的物種樹算法。
同樣,我們ASTER組的MASTER同樣也是針對(duì)ILS設(shè)計(jì)的物種樹算法。
SVD-Quartets和MASTER之間孰優(yōu)孰劣以及各自的優(yōu)勢(shì)區(qū)間我們留到以后再討論。
講完了串聯(lián)法,我們?cè)僦v講并聯(lián)法。
并聯(lián)法,準(zhǔn)確的來說是聚結(jié)法,是針對(duì)ILS開發(fā)的方法,這種方法首先建立基因樹,然后從基因樹推斷最有可能的物種樹。
并聯(lián)法的代表就是ASTRAL。
ASTRAL的原理基于2010年Allman et al發(fā)表的一個(gè)定理。
對(duì)于只有四個(gè)物種的物種樹,其基因樹中最常見的拓?fù)浣Y(jié)構(gòu)最有可能就是物種樹的拓?fù)浣Y(jié)構(gòu)。
注意,這個(gè)定理只對(duì)只有四個(gè)物種的物種樹才成立,對(duì)有五個(gè)物種的物種樹都不成立!
ASTRAL的基本理念就是找到一個(gè)目標(biāo)物種樹盡可能滿足對(duì)于每四個(gè)物種,其在目標(biāo)物種樹的拓?fù)浣Y(jié)構(gòu)正是基因樹中最常見的拓?fù)浣Y(jié)構(gòu)。
所以,即使ILS非常頻繁,只要有足夠多基因樹,且保證基因樹都是準(zhǔn)確無(wú)誤的,那么你用ASTRAL肯定能得到正確的物種樹。
講到這里,聰明的同學(xué)應(yīng)該發(fā)現(xiàn)了一個(gè)盲點(diǎn),怎么能保證基因樹都是準(zhǔn)確無(wú)誤的呢?
的確,事實(shí)上,基因樹都是由RAX-M-L,IQ-tree,或Fast-tree構(gòu)建的,而且為了保證構(gòu)建基因樹的序列沒有過多的重組,這些序列長(zhǎng)度都不會(huì)很長(zhǎng),這反而降低了基因樹的準(zhǔn)確性。
這也是ASTRAL的最大缺點(diǎn)。
好在,我們ASTER組的weighted ASTRAL很大程度上彌補(bǔ)了這個(gè)缺點(diǎn)。
weighted ASTRAL的思想非常簡(jiǎn)單,ASTRAL僅僅只用了基因樹的拓?fù)浣Y(jié)構(gòu)信息,這導(dǎo)致ASTRAL無(wú)法區(qū)分高質(zhì)量的基因樹和低質(zhì)量的基因樹。
weighted ASTRAL通過利用基因樹的枝長(zhǎng)和支持度信息,給予不同的基因樹,確切的來說,給予每個(gè)基因樹的每四個(gè)物種,基于其質(zhì)量好壞的權(quán)重。
這大大提高了weighted ASTRAL的準(zhǔn)確性。
所以,我呼吁。
能用weighted ASTRAL一定要用weighted ASTRAL!
能用weighted ASTRAL一定要用weighted ASTRAL!
能用weighted ASTRAL一定要用weighted ASTRAL!
重要的事情說三遍!
當(dāng)然,本視頻的內(nèi)容并不是完全充分的。
例如,本視頻就沒有介紹距離法,鼎鼎有名的NJ法就是距離法。
本視頻也沒有分析HGT水平基因轉(zhuǎn)移對(duì)各種方法的影響。
所以,如果有建樹需求的同學(xué)歡迎加入ASTER系統(tǒng)樹軟件群。
群里有ASTRAL和ASTER系列的開發(fā)者,Phylo-suite的開發(fā)者,TB-tools的開發(fā)者,以及很多熱心的同學(xué)。
大家一起學(xué)習(xí),一起成長(zhǎng)。