DIYABC v2.0--利用SNP數(shù)據(jù)、DNA序列和微衛(wèi)星數(shù)據(jù)對(duì)種群歷史動(dòng)態(tài)進(jìn)行近似貝葉估計(jì)
文章標(biāo)題:DIYABC v2.0: a software to make Approximate Bayesian computation inferences about population history using single nucleotide polymorphism, DNA sequence and microsatellite data
DOI:10.1093/bioinformatics/btt763

DIYABC是一個(gè)用于對(duì)DNA多態(tài)性數(shù)據(jù)使用近似貝葉斯計(jì)算進(jìn)行人口歷史推斷分析的軟件。
它允許(i)除微衛(wèi)星和DNA序列數(shù)據(jù)外,對(duì)大量位點(diǎn)的單核苷酸多態(tài)性數(shù)據(jù)進(jìn)行分析;
? ? ? ? ? ?(ii)利用匯總統(tǒng)計(jì)上的線性判別分析進(jìn)行高效貝葉斯模型選擇;
? ? ? ? ? ?(iii)多個(gè)后處理分析的串行啟動(dòng)。
DIYABC v2.0還包括一個(gè)具有各種新選項(xiàng)的用戶友好圖形界面。
可以在三種操作系統(tǒng)上運(yùn)行:GNU/Linux、Microsoft Windows和Apple Os X。

當(dāng)前生物學(xué)的一個(gè)前景是,分子數(shù)據(jù)將幫助我們揭示影響自然種群的復(fù)雜人口統(tǒng)計(jì)過(guò)程。各種分子標(biāo)記的廣泛應(yīng)用和計(jì)算機(jī)能力的提高促進(jìn)了推理方法的發(fā)展。在這些新方法中,近似貝葉斯計(jì)算方法(Approximate Bayesian computation, ABC)被越來(lái)越多地用于從大數(shù)據(jù)集對(duì)復(fù)雜模型進(jìn)行推理,這些研究領(lǐng)域包括種群和進(jìn)化生物學(xué)。
ABC是在貝葉斯背景下進(jìn)行基于模型推理的一種最近的方法,在這種背景下,模型可能性很難計(jì)算,必須通過(guò)大規(guī)模的模擬來(lái)估計(jì)。在ABC中,不同模型的后驗(yàn)概率和/或人口統(tǒng)計(jì)參數(shù)在給定模型下的后驗(yàn)分布是通過(guò)測(cè)量觀測(cè)數(shù)據(jù)集(即目標(biāo))與大量模擬數(shù)據(jù)集之間的相似性來(lái)確定的;所有的原始數(shù)據(jù)集(即多位點(diǎn)基因型或個(gè)體序列)都被統(tǒng)計(jì)總結(jié),如等位基因的平均數(shù)量或Fst。
Cornuet等人開(kāi)發(fā)了(基于coalescent的)軟件DIYABC,該軟件有一個(gè)用戶友好的界面,可以幫助非專(zhuān)業(yè)用戶使用ABC執(zhí)行歷史推斷。DIYABC允許考慮復(fù)雜的種群歷史,包括種群分化事件、混合事件和過(guò)去種群規(guī)模變化的任何組合(可能在不同時(shí)間收集的種群樣本)。DIYABC可以用來(lái)比較競(jìng)爭(zhēng)的進(jìn)化情景,量化它們的相對(duì)支持度,并估計(jì)一個(gè)或多個(gè)情景的參數(shù)。最后,給出了一種可用于評(píng)估各種估計(jì)的置信度的方法,并實(shí)現(xiàn)了模型檢驗(yàn)計(jì)算。
DIYABC v2.0是DIYABC軟件的一個(gè)完全重寫(xiě)的版本。2.0版本實(shí)現(xiàn)了許多新的特性和分析方法,允許對(duì)大型分子數(shù)據(jù)集進(jìn)行廣泛的分析,包括單核苷酸多態(tài)性(SNP)數(shù)據(jù)。

一些新特性
1.分析SNP數(shù)據(jù)
DIYABC v2.0允許分析統(tǒng)計(jì)上獨(dú)立的SNP標(biāo)記,除了微衛(wèi)星和DNA序列數(shù)據(jù)。與其他類(lèi)型的標(biāo)記相比,SNP位點(diǎn)的突變率較低,因此該位點(diǎn)的多態(tài)性是在整個(gè)群體基因樹(shù)中發(fā)生的一次突變?cè)斐傻?,基因型是雙等位的。為了在給定的SNP位點(diǎn)生成模擬多態(tài)數(shù)據(jù)集,我們繼續(xù)遵循由Hudson(2002)提出的算法(cf-s 1選項(xiàng)在程序ms與Hudson相關(guān),2002)。簡(jiǎn)單地說(shuō),在一個(gè)給定的系譜,根據(jù)聚和理論,對(duì)研究數(shù)據(jù)集的所有群體中所有基因的位點(diǎn)進(jìn)行模擬,直到最近的共同祖先。然后將單個(gè)突變事件隨機(jī)放置在系譜學(xué)的一個(gè)分支上(該分支被選擇的概率與它相對(duì)于總基因樹(shù)長(zhǎng)度的長(zhǎng)度成正比)。該算法提供了ABC環(huán)境下所需的模擬效率和速度,其中需要生成大量的模擬數(shù)據(jù)集,包括大量的SNP位點(diǎn)。
2.情景概率計(jì)算
Estoup et al.(2012)最近提出了一種新的方法通過(guò)高效的ABC概率計(jì)算來(lái)處理大量復(fù)雜情景之間的區(qū)分。它是基于logistic回歸分析之前對(duì)匯總統(tǒng)計(jì)數(shù)據(jù)進(jìn)行的線性判別分析。一個(gè)主要的實(shí)際優(yōu)勢(shì)是,它大大降低了解釋變量的維度,使得情景概率(100次)的計(jì)算速度更快。DIYABC v2.0中實(shí)現(xiàn)了這種方法創(chuàng)新,用于分析真實(shí)數(shù)據(jù)集和模擬的偽觀測(cè)數(shù)據(jù)集,這些數(shù)據(jù)集用于評(píng)估可用于區(qū)分給定場(chǎng)景集的置信度。
3.新的圖形界面和隨機(jī)數(shù)生成器
DIYABC v2.0有一個(gè)新的用戶友好的圖形界面,它分為兩個(gè)主要部分:
(i)一部分包括場(chǎng)景的定義,先驗(yàn)分布,匯總統(tǒng)計(jì)和模擬數(shù)據(jù)集的產(chǎn)生,將參數(shù)值繪制到先驗(yàn)和(ii)其他部分包括典型的ABC分析的所有類(lèi)型的后處理計(jì)算。
在提出的新選項(xiàng)中,第(i)部分允許定義以不同突變模型和匯總統(tǒng)計(jì)為特征的不同標(biāo)記組,第(ii)部分允許進(jìn)行連續(xù)的多重后處理分析。隨機(jī)數(shù)生成器(RNG)是一個(gè)重要的問(wèn)題,特別是當(dāng)多個(gè)處理器同時(shí)用于并行計(jì)算時(shí)。在DIYABC v2.0中,使用了Mersenne Twister類(lèi)型的RNG。在代碼的多線程部分中,需要隨機(jī)抽取,每個(gè)線程使用自己的隨機(jī)生成器。用Matsumoto和Nishimura(2000)提出的算法來(lái)初始化不同的RNG來(lái)產(chǎn)生獨(dú)立的隨機(jī)流。
小結(jié)
DIYABC v2.0的主要?jiǎng)?chuàng)新之一是,它可以分析SNP數(shù)據(jù),使用一種高效的模擬算法,因此允許處理具有大量位點(diǎn)的多種群數(shù)據(jù)集(例如,在幾個(gè)小時(shí)到幾天內(nèi),數(shù)千到數(shù)萬(wàn)個(gè)位點(diǎn))。假設(shè)分析的SNP數(shù)據(jù)對(duì)應(yīng)于獨(dú)立的選擇性中性位點(diǎn),不存在任何確定偏差(AB,即從選擇的群體中使用少數(shù)個(gè)體作為發(fā)現(xiàn)面板的SNP發(fā)現(xiàn)過(guò)程中與預(yù)期理論結(jié)果的偏差)。AB可能會(huì)扭曲多樣性的度量,并可能以意想不到的方式改變這些度量得出的結(jié)論。當(dāng)使用基于芯片的高通量基因分型獲得的SNP數(shù)據(jù)時(shí),AB主要是一個(gè)擔(dān)憂。從最近的下一代測(cè)序技術(shù)中獲得的SNP數(shù)據(jù),如shot-gun測(cè)序或限制位點(diǎn)相關(guān)的DNA測(cè)序技術(shù),包括在非模型物種的種群遺傳學(xué)研究中,越來(lái)越受歡迎,受影響的程度要低得多。DIYABC v2.0的另一個(gè)優(yōu)點(diǎn)是,它提供了人口統(tǒng)計(jì)參數(shù)的后驗(yàn)分布,與原始參數(shù)的后驗(yàn)分布是平行的,可以按突變率或有效種群大小縮放??s放參數(shù)有時(shí)(如果不是經(jīng)常的話)是在許多進(jìn)化場(chǎng)景下可以穩(wěn)健推斷的唯一類(lèi)型的參數(shù)。由于c++的編譯優(yōu)化和程序額外計(jì)算部分的多線程化,DIYABC v2.0也比以前版本的程序運(yùn)行速度更快。最后,新的界面包括一個(gè)自動(dòng)過(guò)程來(lái)產(chǎn)生不同的文件,以方便在計(jì)算機(jī)集群上啟動(dòng)模擬,從而獲得更大的計(jì)算資源。