最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

歐易生物淺談基因組Survey——干貨分享

2022-03-18 09:44 作者:上海歐易生物  | 我要投稿


隨著測(cè)序技術(shù)的飛速發(fā)展,越來(lái)越多的物種基因組被揭秘。目前,基因組研究可謂熱火朝天。了解一個(gè)物種就要從拿到它的基因組序列開(kāi)始做起,擁有了一個(gè)物種的基因組,才能更好的制定后續(xù)研究方案。因此基因組測(cè)序現(xiàn)在已經(jīng)成為生物學(xué)研究的一個(gè)重要手段。


然而,基因組的雜合度和重復(fù)序列對(duì)后續(xù)基因組組裝有很大的影響,高雜合的基因組往往無(wú)法合并姊妹染色體,導(dǎo)致組裝的結(jié)果偏大,而重復(fù)序列在組裝中會(huì)被折疊,使組裝中出現(xiàn)缺口、錯(cuò)誤,導(dǎo)致組裝的結(jié)果偏小。不同的生物體的基因組之間雜合率和重復(fù)序列含量差異巨大,因此在進(jìn)行基因組測(cè)序前往往需要對(duì)基因組的特征進(jìn)行調(diào)研,基因組survey便應(yīng)運(yùn)而生。


如何 survey分析?


提到基因組Survey分析就不得不提K-mer分布頻率分析,這是目前最常用的基因組Survey方法。所謂K-mer分布頻率分析,是先對(duì)物種進(jìn)行二代測(cè)序,在測(cè)序數(shù)據(jù)的基礎(chǔ)上,通過(guò)K-mer的相關(guān)分析,獲取該物種基因組的大小、雜合度、重復(fù)序列比例等特征。


所謂K-mer,是指從一段連續(xù)的測(cè)序序列中迭代地選取長(zhǎng)度為K個(gè)堿基的序列。即當(dāng)一條reads的長(zhǎng)度為L(zhǎng)時(shí),經(jīng)過(guò)迭代選取會(huì)產(chǎn)生L-K+1個(gè)K-mer。如圖1所示,第一行為測(cè)序獲得的reads序列,長(zhǎng)度L=9,當(dāng)設(shè)定K=4時(shí),可獲得從第二行至第七行的6個(gè)K-mer序列。因此,當(dāng)基因組測(cè)序產(chǎn)生的reads總數(shù)為n時(shí),則基因組的K-mer總數(shù)Nk-mer=(L-K+1)* n。


圖1 | K-mer示例圖


我們一般選用17-mer來(lái)估算基因組大小,因?yàn)锳TCG四種不同的堿基組成長(zhǎng)度為17的核苷酸有4^17(17,179,869,184),足以覆蓋一般物種的基因組大小。如果K-mer設(shè)置過(guò)大,則導(dǎo)致內(nèi)存占用過(guò)多,設(shè)置過(guò)小,則不能保證K-mer在基因組中的獨(dú)特性?;蚪M估計(jì)值可以用下面公式得到:


圖2 | 基因組大小計(jì)算公式


Survey數(shù)據(jù)分析圖


Survey數(shù)據(jù)分析包括對(duì)二代測(cè)序原始數(shù)據(jù)進(jìn)行質(zhì)控、檢測(cè)數(shù)據(jù)是否存在污染、K-mer分析、基因組特征評(píng)估等。完成數(shù)據(jù)分析后會(huì)得到survey數(shù)據(jù)分析圖。下面簡(jiǎn)單介紹一下survey分析圖是如何解讀的。


  1. 簡(jiǎn)單基因組的survey分析圖:

在理想狀態(tài)下,k-mer曲線服從泊松分布,即只會(huì)出現(xiàn)一個(gè)明顯的主峰,若只有一個(gè)主峰,為純合體或單倍體。因此,當(dāng)基因組中不存在雜合區(qū)和重復(fù)序列,或者雜合度較低、重復(fù)序列在整個(gè)基因組中占比較少時(shí),通常會(huì)看到如下圖所示的K-mer頻率分布圖。


圖3 | 簡(jiǎn)單純合基因組的survey分析圖


2.重復(fù)序列較多的基因組的survey分析圖


基因組復(fù)制事件會(huì)使基因組中產(chǎn)生大量的重復(fù)序列,重復(fù)序列的存在使得基因組中某一個(gè)K-mer序列增多,即K-mer的出現(xiàn)頻率增加。若存在一個(gè)主峰和一個(gè)次峰,且次峰的位置是主峰位置的2倍,說(shuō)明一部分片段出現(xiàn)的期望值是大部分的兩倍,這些片段為重復(fù)片段,次峰為重復(fù)峰,如圖四所示。


圖4 | 重復(fù)序列較多的基因組的survey分析圖


3. 雜合度較高的基因組的survey分析圖


在高雜合基因組中,序列中的雜合位點(diǎn)會(huì)使得K-mer分成兩個(gè)部分,序列中某些堿基的覆蓋深度也會(huì)相應(yīng)減半。因此,與純合序列相比,雜合片段中K-mer的覆蓋深度會(huì)下降50%,說(shuō)明部分片段出現(xiàn)的期望值是大部分的1/2,當(dāng)序列有雜合時(shí),包含雜合位點(diǎn)的K-mer 因?yàn)榉殖闪藘刹糠郑猿霈F(xiàn)頻率變?yōu)橐话?,次峰為雜合峰。最終在K-mer曲線上表現(xiàn)為:在主峰前對(duì)應(yīng)橫坐標(biāo)的1/2處出現(xiàn)一個(gè)小峰,且基因組的雜合度越高,該峰越明顯。


圖5 | 雜合度較高的基因組的survey分析圖


總結(jié)


在利用二代數(shù)據(jù)進(jìn)行基因組Survey時(shí),借助K-mer分析能夠初步獲得基因組大小、重復(fù)序列比例、雜合度等信息。當(dāng)然,在實(shí)際應(yīng)用過(guò)程中,由于物種本身的特性,所得到的圖形并不總是盡善盡美,還需要根據(jù)具體情況做進(jìn)一步分析。


以上就是本文的主要內(nèi)容啦,謝謝觀看。


猜你想看


1、干貨分享 | 細(xì)胞通訊網(wǎng)絡(luò)分析新成員,CellChat來(lái)報(bào)到!

2、愛(ài)美之心人皆有之——基因表達(dá)可視化技能get

3、誰(shuí)不愛(ài)?一個(gè)運(yùn)行更快的云平臺(tái)

4、叮叮叮~新知識(shí)已到達(dá)!?教你用scMetabolism做單細(xì)胞代謝分析


本文系歐易生物原創(chuàng)

轉(zhuǎn)載請(qǐng)注明文本轉(zhuǎn)自歐易生物

歐易生物淺談基因組Survey——干貨分享的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
区。| 新巴尔虎左旗| 岗巴县| 荔浦县| 乌兰浩特市| 闽清县| 都兰县| 宜君县| 泸州市| 都昌县| 定边县| 陕西省| 友谊县| 宁津县| 镇坪县| 木兰县| 大冶市| 临安市| 襄樊市| 高邑县| 平凉市| 鲁甸县| 望江县| 大庆市| 杂多县| 襄樊市| 莱州市| 巨野县| 平武县| 广饶县| 峨边| 平泉县| 金华市| 西吉县| 成安县| 武邑县| 福清市| 茶陵县| 秭归县| 翁源县| 登封市|