【ASTER實戰(zhàn)論】03.最大簡約法與長枝吸引

臺本:
觀前提示,本視頻雖為科普但仍有一定觀看門檻,主要適合科研中需要構(gòu)建系統(tǒng)發(fā)育樹的研究方向為分類學(xué)或生物信息學(xué)且有一定基礎(chǔ)的同學(xué)。
本視頻主要說明為什么夜羽蝶不推薦用最大簡約法建樹。
先疊甲,夜羽蝶見識淺薄,如有理解錯誤,請多包涵。
繼續(xù)疊甲,本視頻及本系列所有內(nèi)容均假定數(shù)據(jù)符合中性進化假設(shè),并不做任何哲學(xué)討論,如若無法接受此假設(shè),可直接退出本視頻。
All models are wrong, but some are useful。
在實用層面上,若想否定某個假說,需要先提出更合理的假說。
回到正題,中性進化假說假定一個堿基變到另一個堿基的頻率和變回來的頻率相同。
這并不意味著每種堿基的出現(xiàn)頻率一定相同。
當然中性進化假說和自然選擇天然沖突,所以應(yīng)該盡量避免使用外顯子建樹。
不過要不是沒錢用三代測序,誰會只對基因重測序呢,唉。
想了解最大簡約法,我們首先需要理解Average Nucleotide Identity,也就是A-N-I。
A-N-I指兩個序列間相同堿基的比例。
如圖所示的兩個序列,其長度為8,相同堿基數(shù)量為4,所以A-N-I等于50%。
注意,A-N-I有時候會很反直覺。
例如a變異為b,b又變異為c。
如果a和b之間的A-N-I是99%,b和c之間的A-N-I也是99%,那么a和c之間的A-N-I約98%。
如果a和b之間的A-N-I是98%,b和c之間的A-N-I也是98%,那么a和c之間的A-N-I約96%。
但是,如果a和b之間的A-N-I是25%,b和c之間的A-N-I也是25%,那么a和c之間的A-N-I是大約25%。
畢竟a和c之間的A-N-I不可能是負50%嘛。
在Jukes Cantor模型下,a,b,c間的A-N-I會符合這的公式,我在這里不做展開。
不過,值得注意的是,完全隨機的兩個序列間也有約25%的A-N-I。
最大簡約法的目的在于找到一個拓撲結(jié)構(gòu)和所有中間節(jié)點所對應(yīng)的序列,使得所有枝所對應(yīng)的兩個節(jié)點間A-N-I之和最大化。
夜羽蝶不推薦用最大簡約法建樹因為大佬Joseph Felsenstein提出,對于某些系統(tǒng)樹,只要序列足夠長,最大簡約法一定會給出錯誤結(jié)果。
強調(diào)一下,是一定會給出錯誤結(jié)果。
在這篇文章中,F(xiàn)elsenstein提出了著名的Felsenstein樹,F(xiàn)elsenstein樹現(xiàn)在是測試系統(tǒng)發(fā)育樹建樹軟件的試金石。
圖中就是一個Jukes Cantor模型下極端的Felsenstein樹的例子。
a和b的枝長非常長,c和d以及e和f之間的距離非常短。
對Felsenstein樹使用最大簡約法會使得a與b成為姊妹,也就是所謂的長枝吸引。
為了更加簡明地描述長枝吸引的原因,我需要進一步簡化模型,我現(xiàn)在假設(shè)序列中只有A和C,各占50%。
因此,a和b對于的枝所對應(yīng)的A-N-I也微微大于50%。
因為堿基只有A和C,所以序列比對中每列無非十六種情況,如圖所示。
其中c和d的堿基不同的情況極少出現(xiàn)。
因為a,b,和c幾乎可以隨便排列組合,所以c和d相同的八種情況頻率各在12.5%左右。
我們忽略頻率幾乎為0的八種情況。
而且我們發(fā)現(xiàn)頻率在12.5%左右的八種情況是對稱的,所以其實我們只需考慮四種情況。
甚至因為這四種情況頻率大致相同,我們甚至可以等效假設(shè)序列長度就是四,具體序列如圖所示。
對于長度為四的序列,我們很容易建立最簡約樹,如左圖所示,此時Parsimony為425%。
然而,如右圖所示的真實歷史反而Parsimony僅為400%。
所以,對于右圖所示的樹,最簡約法一定會給出左圖的錯誤結(jié)果,這就是所謂的長枝吸引。
今天的內(nèi)容就到這里啦,如果有建樹需求的同學(xué)歡迎加入ASTER系統(tǒng)樹軟件群。
群里有ASTRAL和ASTER系列的開發(fā)者,Phylo-suite的開發(fā)者,TB-tools的開發(fā)者,以及很多熱心的同學(xué)。
大家一起學(xué)習(xí),一起成長。