散文網(wǎng) » 科技 »學(xué)習(xí) » 歐易生物淺談基因組Survey——干貨分享

歐易生物淺談基因組Survey——干貨分享

2022-03-18 09:44 作者:上海歐易生物 0人讀過(guò) | 我要投稿

隨著測(cè)序技術(shù)的飛速發(fā)展，越來(lái)越多的物種基因組被揭秘。目前，基因組研究可謂熱火朝天。了解一個(gè)物種就要從拿到它的基因組序列開(kāi)始做起，擁有了一個(gè)物種的基因組，才能更好的制定后續(xù)研究方案。因此基因組測(cè)序現(xiàn)在已經(jīng)成為生物學(xué)研究的一個(gè)重要手段。

然而，基因組的雜合度和重復(fù)序列對(duì)后續(xù)基因組組裝有很大的影響，高雜合的基因組往往無(wú)法合并姊妹染色體，導(dǎo)致組裝的結(jié)果偏大，而重復(fù)序列在組裝中會(huì)被折疊，使組裝中出現(xiàn)缺口、錯(cuò)誤，導(dǎo)致組裝的結(jié)果偏小。不同的生物體的基因組之間雜合率和重復(fù)序列含量差異巨大，因此在進(jìn)行基因組測(cè)序前往往需要對(duì)基因組的特征進(jìn)行調(diào)研，基因組survey便應(yīng)運(yùn)而生。

如何 survey分析？

提到基因組Survey分析就不得不提K-mer分布頻率分析，這是目前最常用的基因組Survey方法。所謂K-mer分布頻率分析，是先對(duì)物種進(jìn)行二代測(cè)序，在測(cè)序數(shù)據(jù)的基礎(chǔ)上，通過(guò)K-mer的相關(guān)分析，獲取該物種基因組的大小、雜合度、重復(fù)序列比例等特征。

所謂K-mer，是指從一段連續(xù)的測(cè)序序列中迭代地選取長(zhǎng)度為K個(gè)堿基的序列。即當(dāng)一條reads的長(zhǎng)度為L(zhǎng)時(shí)，經(jīng)過(guò)迭代選取會(huì)產(chǎn)生L-K+1個(gè)K-mer。如圖1所示，第一行為測(cè)序獲得的reads序列，長(zhǎng)度L=9，當(dāng)設(shè)定K=4時(shí)，可獲得從第二行至第七行的6個(gè)K-mer序列。因此，當(dāng)基因組測(cè)序產(chǎn)生的reads總數(shù)為n時(shí)，則基因組的K-mer總數(shù)Nk-mer=（L-K+1）* n。

圖1 | K-mer示例圖

我們一般選用17-mer來(lái)估算基因組大小，因?yàn)锳TCG四種不同的堿基組成長(zhǎng)度為17的核苷酸有4^17(17,179,869,184)，足以覆蓋一般物種的基因組大小。如果K-mer設(shè)置過(guò)大，則導(dǎo)致內(nèi)存占用過(guò)多，設(shè)置過(guò)小，則不能保證K-mer在基因組中的獨(dú)特性?；蚪M估計(jì)值可以用下面公式得到：

圖2 | 基因組大小計(jì)算公式

Survey數(shù)據(jù)分析圖

Survey數(shù)據(jù)分析包括對(duì)二代測(cè)序原始數(shù)據(jù)進(jìn)行質(zhì)控、檢測(cè)數(shù)據(jù)是否存在污染、K-mer分析、基因組特征評(píng)估等。完成數(shù)據(jù)分析后會(huì)得到survey數(shù)據(jù)分析圖。下面簡(jiǎn)單介紹一下survey分析圖是如何解讀的。

簡(jiǎn)單基因組的survey分析圖：

在理想狀態(tài)下，k-mer曲線服從泊松分布，即只會(huì)出現(xiàn)一個(gè)明顯的主峰，若只有一個(gè)主峰，為純合體或單倍體。因此，當(dāng)基因組中不存在雜合區(qū)和重復(fù)序列，或者雜合度較低、重復(fù)序列在整個(gè)基因組中占比較少時(shí)，通常會(huì)看到如下圖所示的K-mer頻率分布圖。

圖3 | 簡(jiǎn)單純合基因組的survey分析圖

2.重復(fù)序列較多的基因組的survey分析圖

基因組復(fù)制事件會(huì)使基因組中產(chǎn)生大量的重復(fù)序列，重復(fù)序列的存在使得基因組中某一個(gè)K-mer序列增多，即K-mer的出現(xiàn)頻率增加。若存在一個(gè)主峰和一個(gè)次峰，且次峰的位置是主峰位置的2倍，說(shuō)明一部分片段出現(xiàn)的期望值是大部分的兩倍，這些片段為重復(fù)片段，次峰為重復(fù)峰，如圖四所示。

圖4 | 重復(fù)序列較多的基因組的survey分析圖

3. 雜合度較高的基因組的survey分析圖

在高雜合基因組中，序列中的雜合位點(diǎn)會(huì)使得K-mer分成兩個(gè)部分，序列中某些堿基的覆蓋深度也會(huì)相應(yīng)減半。因此，與純合序列相比，雜合片段中K-mer的覆蓋深度會(huì)下降50%，說(shuō)明部分片段出現(xiàn)的期望值是大部分的1/2，當(dāng)序列有雜合時(shí)，包含雜合位點(diǎn)的K-mer 因?yàn)榉殖闪藘刹糠郑猿霈F(xiàn)頻率變?yōu)橐话?，次峰為雜合峰。最終在K-mer曲線上表現(xiàn)為：在主峰前對(duì)應(yīng)橫坐標(biāo)的1/2處出現(xiàn)一個(gè)小峰，且基因組的雜合度越高，該峰越明顯。

圖5 | 雜合度較高的基因組的survey分析圖

總結(jié)

在利用二代數(shù)據(jù)進(jìn)行基因組Survey時(shí)，借助K-mer分析能夠初步獲得基因組大小、重復(fù)序列比例、雜合度等信息。當(dāng)然，在實(shí)際應(yīng)用過(guò)程中，由于物種本身的特性，所得到的圖形并不總是盡善盡美，還需要根據(jù)具體情況做進(jìn)一步分析。

以上就是本文的主要內(nèi)容啦，謝謝觀看。

猜你想看

1、干貨分享 | 細(xì)胞通訊網(wǎng)絡(luò)分析新成員，CellChat來(lái)報(bào)到！

2、愛(ài)美之心人皆有之——基因表達(dá)可視化技能get

3、誰(shuí)不愛(ài)？一個(gè)運(yùn)行更快的云平臺(tái)

4、叮叮叮~新知識(shí)已到達(dá)！?教你用scMetabolism做單細(xì)胞代謝分析

本文系歐易生物原創(chuàng)

轉(zhuǎn)載請(qǐng)注明文本轉(zhuǎn)自歐易生物

標(biāo)簽：

歐易生物淺談基因組Survey——干貨分享的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歐易生物淺談基因組Survey——干貨分享

歐易生物淺談基因組Survey——干貨分享的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歐易生物淺談基因組Survey——干貨分享

本文作者的其他文章

歐易生物淺談基因組Survey——干貨分享的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

歐易生物淺談基因組Survey——干貨分享的評(píng)論 (共條)