歐易生物淺談基因組Survey——干貨分享
隨著測(cè)序技術(shù)的飛速發(fā)展,越來(lái)越多的物種基因組被揭秘。目前,基因組研究可謂熱火朝天。了解一個(gè)物種就要從拿到它的基因組序列開(kāi)始做起,擁有了一個(gè)物種的基因組,才能更好的制定后續(xù)研究方案。因此基因組測(cè)序現(xiàn)在已經(jīng)成為生物學(xué)研究的一個(gè)重要手段。
然而,基因組的雜合度和重復(fù)序列對(duì)后續(xù)基因組組裝有很大的影響,高雜合的基因組往往無(wú)法合并姊妹染色體,導(dǎo)致組裝的結(jié)果偏大,而重復(fù)序列在組裝中會(huì)被折疊,使組裝中出現(xiàn)缺口、錯(cuò)誤,導(dǎo)致組裝的結(jié)果偏小。不同的生物體的基因組之間雜合率和重復(fù)序列含量差異巨大,因此在進(jìn)行基因組測(cè)序前往往需要對(duì)基因組的特征進(jìn)行調(diào)研,基因組survey便應(yīng)運(yùn)而生。
如何 survey分析?
提到基因組Survey分析就不得不提K-mer分布頻率分析,這是目前最常用的基因組Survey方法。所謂K-mer分布頻率分析,是先對(duì)物種進(jìn)行二代測(cè)序,在測(cè)序數(shù)據(jù)的基礎(chǔ)上,通過(guò)K-mer的相關(guān)分析,獲取該物種基因組的大小、雜合度、重復(fù)序列比例等特征。
所謂K-mer,是指從一段連續(xù)的測(cè)序序列中迭代地選取長(zhǎng)度為K個(gè)堿基的序列。即當(dāng)一條reads的長(zhǎng)度為L(zhǎng)時(shí),經(jīng)過(guò)迭代選取會(huì)產(chǎn)生L-K+1個(gè)K-mer。如圖1所示,第一行為測(cè)序獲得的reads序列,長(zhǎng)度L=9,當(dāng)設(shè)定K=4時(shí),可獲得從第二行至第七行的6個(gè)K-mer序列。因此,當(dāng)基因組測(cè)序產(chǎn)生的reads總數(shù)為n時(shí),則基因組的K-mer總數(shù)Nk-mer=(L-K+1)* n。
圖1 | K-mer示例圖
我們一般選用17-mer來(lái)估算基因組大小,因?yàn)锳TCG四種不同的堿基組成長(zhǎng)度為17的核苷酸有4^17(17,179,869,184),足以覆蓋一般物種的基因組大小。如果K-mer設(shè)置過(guò)大,則導(dǎo)致內(nèi)存占用過(guò)多,設(shè)置過(guò)小,則不能保證K-mer在基因組中的獨(dú)特性?;蚪M估計(jì)值可以用下面公式得到:
圖2 | 基因組大小計(jì)算公式
Survey數(shù)據(jù)分析圖
Survey數(shù)據(jù)分析包括對(duì)二代測(cè)序原始數(shù)據(jù)進(jìn)行質(zhì)控、檢測(cè)數(shù)據(jù)是否存在污染、K-mer分析、基因組特征評(píng)估等。完成數(shù)據(jù)分析后會(huì)得到survey數(shù)據(jù)分析圖。下面簡(jiǎn)單介紹一下survey分析圖是如何解讀的。
簡(jiǎn)單基因組的survey分析圖:
在理想狀態(tài)下,k-mer曲線服從泊松分布,即只會(huì)出現(xiàn)一個(gè)明顯的主峰,若只有一個(gè)主峰,為純合體或單倍體。因此,當(dāng)基因組中不存在雜合區(qū)和重復(fù)序列,或者雜合度較低、重復(fù)序列在整個(gè)基因組中占比較少時(shí),通常會(huì)看到如下圖所示的K-mer頻率分布圖。
圖3 | 簡(jiǎn)單純合基因組的survey分析圖
2.重復(fù)序列較多的基因組的survey分析圖
基因組復(fù)制事件會(huì)使基因組中產(chǎn)生大量的重復(fù)序列,重復(fù)序列的存在使得基因組中某一個(gè)K-mer序列增多,即K-mer的出現(xiàn)頻率增加。若存在一個(gè)主峰和一個(gè)次峰,且次峰的位置是主峰位置的2倍,說(shuō)明一部分片段出現(xiàn)的期望值是大部分的兩倍,這些片段為重復(fù)片段,次峰為重復(fù)峰,如圖四所示。
圖4 | 重復(fù)序列較多的基因組的survey分析圖
3. 雜合度較高的基因組的survey分析圖
在高雜合基因組中,序列中的雜合位點(diǎn)會(huì)使得K-mer分成兩個(gè)部分,序列中某些堿基的覆蓋深度也會(huì)相應(yīng)減半。因此,與純合序列相比,雜合片段中K-mer的覆蓋深度會(huì)下降50%,說(shuō)明部分片段出現(xiàn)的期望值是大部分的1/2,當(dāng)序列有雜合時(shí),包含雜合位點(diǎn)的K-mer 因?yàn)榉殖闪藘刹糠郑猿霈F(xiàn)頻率變?yōu)橐话?,次峰為雜合峰。最終在K-mer曲線上表現(xiàn)為:在主峰前對(duì)應(yīng)橫坐標(biāo)的1/2處出現(xiàn)一個(gè)小峰,且基因組的雜合度越高,該峰越明顯。
圖5 | 雜合度較高的基因組的survey分析圖
總結(jié)
在利用二代數(shù)據(jù)進(jìn)行基因組Survey時(shí),借助K-mer分析能夠初步獲得基因組大小、重復(fù)序列比例、雜合度等信息。當(dāng)然,在實(shí)際應(yīng)用過(guò)程中,由于物種本身的特性,所得到的圖形并不總是盡善盡美,還需要根據(jù)具體情況做進(jìn)一步分析。
以上就是本文的主要內(nèi)容啦,謝謝觀看。
猜你想看
1、干貨分享 | 細(xì)胞通訊網(wǎng)絡(luò)分析新成員,CellChat來(lái)報(bào)到!
2、愛(ài)美之心人皆有之——基因表達(dá)可視化技能get
3、誰(shuí)不愛(ài)?一個(gè)運(yùn)行更快的云平臺(tái)
4、叮叮叮~新知識(shí)已到達(dá)!?教你用scMetabolism做單細(xì)胞代謝分析
本文系歐易生物原創(chuàng)
轉(zhuǎn)載請(qǐng)注明文本轉(zhuǎn)自歐易生物