【群體基因組學(xué)】基因流與D測(cè)驗(yàn)課程紀(jì)要-->華大基因?qū)W院春季大師班

華大科技->基因流與D測(cè)驗(yàn)課程紀(jì)要

時(shí)間 | 2020年5月9日 13:00 ~14:00
主辦?| 華大科技春季大師班網(wǎng)絡(luò)課程
主講 | 汪鴻儒?-> 加州大學(xué)伯克利分校博士后

?課程主要內(nèi)容
1.?課程標(biāo)題:《基因流與D測(cè)驗(yàn)》
2.?課程內(nèi)容要點(diǎn):
以尼安德特人基因組研究項(xiàng)目為例,主要講解以下4方面:
1)基因流的概念
2)傳統(tǒng)群體遺傳學(xué)方法解釋基因流時(shí)存在的問題
3)D測(cè)驗(yàn)的原理、應(yīng)用及一些衍生方法
4)D測(cè)驗(yàn)分析常用軟件
3.?課程背景知識(shí)
1)人類系譜發(fā)生
達(dá)爾文在物種起源文稿中唯一一張圖片,以一種非常簡(jiǎn)潔且美妙的方式去概括了物種起源最核心的思想,那就是地球上所有生命都是以一種樹的結(jié)構(gòu)聯(lián)系在一起的,并且他們有一個(gè)共同的祖先。這張圖也為后續(xù)的研究者提供了一個(gè)研究框架,如何去重構(gòu)這樣一顆生命之樹,地球上的不同物種分別處在樹上的什么位置,這個(gè)思想在如今的演化生物學(xué)領(lǐng)域仍然是一個(gè)核心的框架。隨著研究的進(jìn)步,特別是近些年群體基因組學(xué)的研究使人們認(rèn)識(shí)到物種的形成并不是一個(gè)簡(jiǎn)單的分叉,在非常近緣物種之間有著非常廣泛而復(fù)雜的基因流。

在人類的系譜發(fā)生關(guān)系中,見下圖。最左邊是黑猩猩這一枝,右邊一群全都是現(xiàn)代人以及滅絕古人類,黑猩猩在差不多500W年前和人類分開,人類這一枝相對(duì)繁盛但是很多都已經(jīng)滅絕了,人們知道他們的存在主要是通過化石的證據(jù)。讓人最為關(guān)心的是其中和人類關(guān)系最近的一枝:尼安德特人和人類大約在80W年前分開,但是在3-5W年前消失了,可以理解為是我們?nèi)祟惖膩G失的堂兄弟,這個(gè)項(xiàng)目是用尼安德特人的化石進(jìn)行全基因組測(cè)序,試圖回答尼安德特人對(duì)現(xiàn)代人基因庫(kù)有沒有遺傳貢獻(xiàn)。

?
2)不完全譜系分選(ILS)

?
不完全譜系分選,是眾多基因流研究中最重要的干擾因素之一,很多被理解為是基因流的信號(hào)往往是由不完全譜系分選產(chǎn)生的。具體是,假設(shè)有4個(gè)物種分別是A,B,C和Outgroup,它們的系統(tǒng)發(fā)育關(guān)系是,AB是最近的姊妹群,C是它們的外群,Outgroup在更外面,上圖是它們的物種樹。
如果在基因組上任意選一個(gè)位點(diǎn),構(gòu)建進(jìn)化樹,我們預(yù)期基因樹和物種樹是一樣的,應(yīng)該上圖中左下方的樹。但是,往往發(fā)現(xiàn)在基因組上構(gòu)樹有些地方會(huì)呈現(xiàn)出右下方這種情況:BC聚在一起,A反而是他們的外群。發(fā)生這種情況很可能是一個(gè)不完全譜系分選的結(jié)果。
這種情況是怎么發(fā)生的呢?就是在ABC三個(gè)物種分化之前,在某一個(gè)位點(diǎn)具有多態(tài)性,比如有a,b兩種不同的等位基因,然后隨著C物種分化出去,兩種變異有一種在C當(dāng)中可以逐漸固定。但是該等位基因在AB的祖先中繼續(xù)以多態(tài)的形式存在,隨著AB分化,這兩種等位分別以隨機(jī)的方式分別進(jìn)入到AB當(dāng)中的一個(gè),這個(gè)時(shí)候,就會(huì)發(fā)現(xiàn)A和B會(huì)有一個(gè),在這里的例子中就是BC共享相同的變異,這樣構(gòu)出來的樹會(huì)顯示BC聚在一起,如果僅憑樹很容易得出BC之前有基因流的情況發(fā)生,但其實(shí)這是一個(gè)不完全譜系分選產(chǎn)生的一個(gè)信號(hào)。
4.?主要內(nèi)容分析
1)基因流的概念
一些個(gè)體從一個(gè)群體遷移到另一個(gè)群體會(huì)把某些基因帶到新的群體從而產(chǎn)生基因流動(dòng),基因在群體中的運(yùn)動(dòng),這就是基因流?;蛄魇怯绊懭后w內(nèi)部和群體之間遺傳變異程度的重要因素。它們把自身的基因帶到新的群體中,使新的群體的基因組成、基因頻率等都有較大的變化?;蛟谌后w間流動(dòng)的水平越大,群體就會(huì)越均勻或普遍相似,受限制的基因流使群體間發(fā)生分化,因?yàn)槊總€(gè)群體中都會(huì)或多或少的獨(dú)立發(fā)生適應(yīng)和遺傳漂變。群體間不發(fā)生基因流可能是因?yàn)樯掣綦x而沒有相互雜交,或因?yàn)榈乩砀綦x而無法雜交?;蛄骱屯蛔兪前研碌倪z傳因素帶到某一群體僅有的兩種方式。

?
2)群體基因組研究方法局限(系統(tǒng)發(fā)生樹、PCA、Structure)
??????方法一(系統(tǒng)發(fā)生樹):進(jìn)化樹的特點(diǎn)是可以很好的給人一種分群的概念,給人知道不同人群之間的聚類關(guān)系,但是并不能直接反應(yīng)基因流的信息。?

??????方法二(PCA):PCA是一種非常普遍的方法,除了在群體遺傳學(xué)的應(yīng)用,在很多其他領(lǐng)域也有著非常廣泛的應(yīng)用。對(duì)一個(gè)種群做PCA分析,理論上PCA的結(jié)果包含了種群結(jié)構(gòu)的所有信息。但問題是PCA的結(jié)果很難有著最直接的生物學(xué)解釋,往往需要和其他的證據(jù)在一起才能幫助人們?nèi)ダ斫庖粋€(gè)PCA的Pattern到底意味著怎樣的種群歷史。
舉個(gè)簡(jiǎn)單的例子,在PCA的圖上,下圖和上述樹的圖是來自同一篇文獻(xiàn),展示的是世界各個(gè)地區(qū)不同人群的一個(gè)群體結(jié)構(gòu)情況,為什么說PCA難以去做解釋?

如果在PCA的圖上大家看到一串連續(xù)的點(diǎn),到底是應(yīng)該解釋成是兩個(gè)群體雜交后形成的一種雜種群,還是說表示的是一個(gè)正在分化的種群,其實(shí)都可以做這些解釋得到相同的結(jié)果,這是PCA的一個(gè)問題。
??? 方法三(Structure):Structure分析是給定一個(gè)K值,會(huì)對(duì)一個(gè)種群分出K種不同的成分,然后,種群中的每個(gè)個(gè)體都會(huì)model成一個(gè)或者多種成份。
其中有一種非常流行但是大多數(shù)情況下都是錯(cuò)誤的的一種解讀,大家往往認(rèn)為如果一個(gè)group只含有一種成分那就解讀成這個(gè)group是一個(gè)比較純的種群,如果一個(gè)群體含有兩個(gè)或多個(gè)成分,那就認(rèn)為是比較純的種群混雜而成的,將其解讀成一個(gè)基因流或者說一個(gè)混雜的信息,這種解讀是錯(cuò)誤的。

這里引用了2018年的一篇文章,文章通過數(shù)據(jù)模擬三種完全不同的種群歷史然后提取數(shù)據(jù)進(jìn)行做Structure分析,上面三張圖是分析結(jié)果,高度相似,但是對(duì)應(yīng)的種群歷史是截然不同的。
看左邊這張,這是大家往往做的最直接的解釋,可以看到四個(gè)群體有P1、P2、P3、P4,其中P4、P1、P3是沒有混雜的群體,他們是先后分化出來的,在近期的時(shí)候以一定的比例進(jìn)行了混雜形成一個(gè)新的群體P2,然后做Structure分析可以非常清楚的展示這樣的一個(gè)情況,也是大家最喜歡做的一種解釋。

?
看中間的這一欄,P1,P4先分化出來,然后P3在某個(gè)階段和另外一個(gè)群體分化出來,但是另外分化的這個(gè)群體進(jìn)行研究的時(shí)候,并沒有被取材出來并且這個(gè)群體和P1發(fā)生了混雜形成了一個(gè)新的群體P2,然后取材的時(shí)候只取P1,P2,P3,P4拿來做Structure分析,他的結(jié)果和左邊這個(gè)近期混雜的結(jié)果是一樣的,雖然這個(gè)P2里面根本沒有P4里面的成分,但是Structure里面還是可以看出來P4的成分在里面。
然后最右邊這種情況就更加的極端,還是P2,P3,P4是分別先后分化出來的沒有混雜的三個(gè)群體,而近期P2有非常嚴(yán)重的瓶頸效應(yīng),產(chǎn)生一個(gè)新的群體P1,然后對(duì)P1,P2,P3,P4分別進(jìn)行取材分析,可以看到,由于P1經(jīng)歷非常嚴(yán)重的瓶頸效應(yīng),導(dǎo)致積累大量的特異的突變或者是基因頻率是由于遺傳漂變變得特別的極端,所以分析的時(shí)候會(huì)被單列成一個(gè)成分,這個(gè)時(shí)候P2就會(huì)被裂解開成多個(gè)成分顯示出是個(gè)混雜的情況,這個(gè)文章非常全面的探討Structure分析對(duì)于群體歷史的推斷是非常有限的,對(duì)基因流的理解也非常有限。
上面講到的三種方法在做基因流的推測(cè)的時(shí)候難以給出直接有效的證據(jù),那么有沒有方法可以為基因流帶來一個(gè)非常明確的檢測(cè)?
3)D測(cè)驗(yàn)
最早在尼安德特基因組這個(gè)項(xiàng)目中使用,這篇文章在整個(gè)領(lǐng)域中具有里程碑意義,既是一個(gè)非常重要的科學(xué)發(fā)現(xiàn),同時(shí)也提出了一系列群體遺傳學(xué)研究新的方法,在后續(xù)的研究中也得到了廣泛的應(yīng)用,是一篇影響非常深遠(yuǎn)的研究論文。
D測(cè)驗(yàn)被運(yùn)用到蝴蝶基因組的研究,幫助尋找蝴蝶翅膀上擬態(tài)的基因滲入,也用于解析非洲鯉魚的基因流,也運(yùn)用到南美洲玉米古DNA的研究,用于解析玉米進(jìn)化早起復(fù)雜的生物學(xué)史,還有北美洲野兔的毛色偽裝,以及歐洲烏鴉之間的基因流情況。
D測(cè)驗(yàn)原理:D統(tǒng)計(jì)具體工作原理,涉及到4個(gè)情景,命名為P1、P2、P3以及O,在這種框架之下,我們感興趣的問題是,P1,P2中有沒有誰和P3有基因交流,如何回答這個(gè)問題?

這里采用基因組的數(shù)據(jù),在基因組上首先找這樣的點(diǎn),在O中,是一種等位基因allele,在P3這個(gè)位置上的群體是另外一種allele。比如說O中,堿基是A,P3可以是TCG;O如果是T,P3可以是ACG,總之,O和P3是不一樣的。為了簡(jiǎn)單的表示,就把O里面的allele稱為A allele,把P3叫做B allele,然后同時(shí),要求在P1和P2當(dāng)中,他們的allele也是不一樣的,是呈現(xiàn)多態(tài)的。那么就有兩種情況,第一種情況是P1是A,P2是B;另外一種情況是P2是A,P1是B。
然后我們就可以找到D統(tǒng)計(jì)的一個(gè)公式,這個(gè)公式是一個(gè)分式,分子部分,C是time,數(shù)數(shù),就是把4個(gè)基因組堆在一塊,然后找基因組上具有ABBA和BABA的情況的位置的多少,ABBA的times減去BABA的times,然后把它加起來,分母就是這兩個(gè)counts的和,最后一除,得到我們的D統(tǒng)計(jì),還有一個(gè)非常好記的名字叫做ABBA-BABA Test。
通過計(jì)算可以得到一個(gè)D值,在沒有基因流的情況下,我們可以預(yù)期,P1跟P2和P3的關(guān)系是同樣的,所以這個(gè)D值的預(yù)期應(yīng)該是0,如果是大于0的話,那么就表示ABBA的情況比較多,那就顯示P3和P2之間的關(guān)系,相對(duì)于P1更近,如果BABA那就是P3和P1之間的關(guān)系更近相對(duì)于P2來說,然后要去做一個(gè)統(tǒng)計(jì)分析,就是看看這個(gè)D值是不是顯著性的大于0或者小于0,他的做法是通過把基因組切成很多片段,對(duì)每一個(gè)區(qū)間進(jìn)行算出一個(gè)D值,然后得到一個(gè)D值的一個(gè)distribution,然后通過這個(gè)distribution可以得到一個(gè)標(biāo)準(zhǔn)偏差,從而算出Z-score來判斷顯著水平。
D測(cè)驗(yàn)好處:
1)是一種非常穩(wěn)健的方法,不受不完全譜系分選(ILS)的影響。原因是,在沒有基因流的情況下,不完全譜系分選也可以產(chǎn)生BABA和ABBA的兩種情況,但在這種框架之下,如果沒有基因流,可以預(yù)計(jì)這兩種產(chǎn)生的幾率應(yīng)該是一樣的,所以在剛才的公式的分母中,一減就會(huì)把這部分東西給消除掉。
2)是一種巧妙的方法,對(duì)于測(cè)序的錯(cuò)誤非常robust,為什么?因?yàn)檫@里涉及到4個(gè)群體,然后要求O和P3不一樣,P1、P2不一樣,并且只考慮有兩個(gè)等位的這樣一個(gè)SNP位點(diǎn)。所以就導(dǎo)致4個(gè)個(gè)體當(dāng)中,呈現(xiàn)出兩種多態(tài)并且每一種allele至少出現(xiàn)過兩次,這樣的話就可以排除很多測(cè)序的錯(cuò)誤,因?yàn)榇蟾怕什豢赡茉讵?dú)立兩個(gè)個(gè)體中出現(xiàn)完全一樣的相同的錯(cuò)誤。
D測(cè)驗(yàn)實(shí)際例子

把非洲人,亞洲人,尼安德特人以及黑猩猩,放在P1,P2,P3以及O的位置,然后在這種情況下,試圖檢測(cè)非洲人和亞洲人誰和尼安德特人之間有基因交流。算出來結(jié)果是,ABBA的pattern是有10W+的snp位點(diǎn),BABA的pattern差不多有9W多個(gè)snp位點(diǎn),然后用剛才的公式計(jì)算出:D值是4.8%左右,Z Score達(dá)到9.9,是一個(gè)全基因組非常顯著的水平。
這個(gè)結(jié)果最直接的解釋是:ABBA的pattern變多了,那就是說尼安德特人和亞洲人之間,相當(dāng)于非洲人來說,share更多的allele。最直接的結(jié)果就是尼安德特人和亞洲人之間有著基因交流。
基因流的方向:

?
換用兩個(gè)不同的非洲人AFR進(jìn)行同樣的分析,這兩個(gè)結(jié)果之間如果基因流是從尼安德特人到現(xiàn)代人,那么結(jié)果應(yīng)該是一樣的;如果基因流是從現(xiàn)代人到尼安德特人,結(jié)果會(huì)不一樣。
原因是,假設(shè)所用的第二個(gè)AFR和現(xiàn)代人之間非常接近,那么現(xiàn)代人貢獻(xiàn)給尼安德特人的那部分在AFR中也可以找到,會(huì)導(dǎo)致D統(tǒng)計(jì)算出來會(huì)非常的不顯著,接近于0。
基因流貢獻(xiàn)多大?

通過公式演變可以計(jì)算。原理:因?yàn)槟岚驳绿厝藢?duì)走出非洲人有貢獻(xiàn),但是真正貢獻(xiàn)的祖先是不在了,文章中利用多個(gè)尼安德特人基因組和真正做貢獻(xiàn)的尼安德特人關(guān)系的遠(yuǎn)近不同做D統(tǒng)計(jì)分析,呈現(xiàn)出來一種差異,利用這種差異可以計(jì)算基因流的成分。
D測(cè)驗(yàn)使用注意:

基因流在基因組上哪些位置?

D測(cè)驗(yàn)軟件:AdmixTools、ANGSD
5.?總結(jié)
1)D測(cè)驗(yàn)是一個(gè)明確展示基因流信息的測(cè)驗(yàn)
2)D測(cè)驗(yàn)之后衍生方法:基因流方向、貢獻(xiàn)、位置等
3)靈敏但是也受到一些因素影響
?
??提問及回答
問題1:D和F4的區(qū)別?為什么要區(qū)分這兩個(gè)統(tǒng)計(jì)量?
t?兩者最早是又同一實(shí)驗(yàn)室提出,F(xiàn)4最早發(fā)表于2004年印度人群文章,D最早在尼安德特人基因組中提出,兩者用于基因流檢測(cè)是等同的,用該軟件AdmixTools可以計(jì)算兩者,兩者分子完全一樣,分母存在區(qū)別。D統(tǒng)計(jì)的分母是ABBA和BABA兩者之和,F(xiàn)4是所有可能性位點(diǎn),但是最后算基因流時(shí)所關(guān)心的是Z-score,兩者計(jì)算出的結(jié)果是一樣的。
問題2:D檢測(cè)只能做單向的基因流分析么?如果兩者有相互的基因交流能檢測(cè)出來么?
t?不能,只能進(jìn)行單向的檢測(cè),給出一個(gè)主要方向,大的信號(hào)會(huì)蓋掉小信號(hào)。
問題3:D檢測(cè)P1P2P3三者之間的遠(yuǎn)近要求?
t?可以做不同物種,如果物種差別特別大,在生信分析技術(shù)上會(huì)出現(xiàn)誤差。
問題4:RAD數(shù)據(jù)可以使用那兩個(gè)軟件么?
t?只要可以轉(zhuǎn)換為軟件使用格式應(yīng)該就可以用。
問題5:基因流貢獻(xiàn)度是怎么計(jì)算的?
t?具體自己推公式。
問題6:Outgroup的選擇要求?
t?要確定一定是外群。
問題7:D檢驗(yàn)適應(yīng)于做中國(guó)人內(nèi)部的基因流、基因差異比較小的群體?
t?可以
問題8:每次只能分析3個(gè)群體么?多個(gè)物種怎么辦?
t?要進(jìn)行多次試驗(yàn),不斷測(cè)試。
問題9:怎么確定哪些基因可以進(jìn)行D測(cè)驗(yàn)?
t?D測(cè)驗(yàn)是針對(duì)全基因組的分析,不是針對(duì)某個(gè)基因。
問題10:D檢驗(yàn)和TreeMix的區(qū)別和優(yōu)劣勢(shì)?
t?TreeMix可以使用多個(gè)物種,但是也是只能做一個(gè)輔助證據(jù)。