一網(wǎng)打盡——線粒體基因組高級分析
線粒體堪稱生命活動的“能量供給站”,這種存在于大多數(shù)細(xì)胞中的細(xì)胞器,擁有自身的遺傳物質(zhì)和遺傳體系,除了為細(xì)胞供能之外,線粒體還參與到多種細(xì)胞功能過程中,擁有調(diào)控細(xì)胞生長和細(xì)胞周期的能力。 典型的動物線粒體是一個環(huán)狀的雙鏈DNA,有些動物的線粒體也會裂化(嚙總目,虱目);基因組一般比較小,常見的在15-16 kb左右,基因間隔區(qū)小,所有的基因都不含有內(nèi)含子,有重疊基因。在組分構(gòu)成上一般含13個蛋白,2個rRNAs,22個tRNAs,在3’端有一段控制區(qū)。
圖 動物線粒體基因組圈圖
植物線粒體是線粒體基因組研究中難度最高的,大小差異較大,100kb-10Mb,大部分由非編碼DNA序列組成,且有許多同源序列,占基因組總長的2%-60%,基因間區(qū)大,組裝和注釋的難度較高,結(jié)構(gòu)變異大。目前報道的植物線粒體基因組絕大多數(shù)以環(huán)形表示,其包含了所代表物種線粒體的所有遺傳信息,被定義為主環(huán)。
圖 植物線粒體基因組圈圖
凌恩生物有自主研發(fā)的細(xì)胞器提取技術(shù),提取經(jīng)驗豐富。有專業(yè)團(tuán)隊負(fù)責(zé)跟進(jìn)每一個項目,從細(xì)胞器DNA制備、Hiseq建庫及測序、后續(xù)生物信息分析,直至為客戶提供滿意的結(jié)果。
本期主要介紹線粒體基因組高級分析內(nèi)容。
1、共線性分析
共線性是指遺傳學(xué)中的基因連鎖關(guān)系,是不同物種染色體上同源基因以相同順序排列的現(xiàn)象。兩個物種之間的共線性程度可以作為衡量他們之間進(jìn)化距離的尺度,可以知道物種間的親緣關(guān)系。對基因組間的局部共線性塊進(jìn)行相似度、重排、倒置等現(xiàn)象的分析可以來闡述物種演化中發(fā)生的事件。
圖1 共線性分析
2、系統(tǒng)進(jìn)化樹分析
系統(tǒng)發(fā)育樹(Phylogenetic tree)又稱為系統(tǒng)進(jìn)化樹,是用一種類似樹狀分支的圖形來概括各物種之間的親緣關(guān)系,可用來描述物種之間的進(jìn)化關(guān)系。通過系統(tǒng)進(jìn)化樹分析可以找出不同物種間的進(jìn)化關(guān)系,理解祖先序列與其后代之間的關(guān)系,同時也可以估算一組共有共同祖先的物種間的分歧時間。 細(xì)胞器基因組非常保守,常用來構(gòu)建系統(tǒng)發(fā)育進(jìn)化樹來研究動植物的物種分類和進(jìn)化地位。凌恩生物構(gòu)建細(xì)胞器系統(tǒng)發(fā)生樹的方法有以下兩種: (1)基于樣品與參考基因組的群體SNP矩陣構(gòu)建進(jìn)化樹:對于每一個樣本,按照相同順序?qū)⑺蠸NP相連,獲得相同長度的fasta格式的序列(其中一個為參考序列),作為輸入文件用于進(jìn)化樹構(gòu)建。 (2)基于Core基因構(gòu)建進(jìn)化樹:對細(xì)胞器基因組鑒定出來的單拷貝Core基因,利用MUSCLE v3.8.31軟件進(jìn)行蛋白多序列的比對,比對結(jié)果用于進(jìn)化樹構(gòu)建。
圖2 13個PCG氨基酸系統(tǒng)發(fā)育分析[1]
3、選擇壓力分析
選擇壓力是指外界施加給某物種生物進(jìn)化過程中的壓力,使得物種適應(yīng)自然環(huán)境。在遺傳學(xué)中,ω= Ka/Ks或者dN/dS表示的是非同義突變(Ka)和同義突變(Ks)之間的比率。一般認(rèn)為,同義突變不受自然選擇,而非同義突變則受到自然選擇作用。通常認(rèn)為,ω > 1表明有正選擇(Positive Selection)效應(yīng),即有些有利突變正受到選擇;ω = 1不受選擇,即中性進(jìn)化(Neutral Evolution);如果0 < ω < 1,則認(rèn)為有純化選擇(Negative or Purifying Selection)作用,ω值越小,說明受到的負(fù)選擇壓越大,氨基酸序列越保守。
圖3 非同義(dN)與同義(dS)核苷酸替換率的比率
[1]
4、細(xì)胞器與核基因組片段交流分析
高等植物線粒體和葉綠體之間的片段交流是非常常見的情況,不同物種的線粒體基因組大概會有5%-10%可以在葉綠體基因組找到同源序列。該分析對于探討葉綠體基因組中水平基因轉(zhuǎn)移的機制以及在植物進(jìn)化中所起的作用具有重要的意義。 此外,植物線粒體基因組和細(xì)胞核基因組之間也存在廣泛的DNA交換。線粒體基因組中發(fā)現(xiàn)的一些重復(fù)序列可能來源于同一質(zhì)體片段的多次轉(zhuǎn)移。
圖4 細(xì)胞器(線粒體與葉綠體)片段交流分析
圖5 線粒體基因組和核基因組之間共享的相似序列[2]
5、結(jié)構(gòu)變異檢測
細(xì)胞器基因組進(jìn)行結(jié)構(gòu)變異檢測主要有三種:SNP、InDel和SV。與參考基因組比對,分析近源物種細(xì)胞器基因組之間的變異情況,能夠更好的對個體或群體進(jìn)行差異性分析。 SNP(單核苷酸多態(tài)性)是指由單個核苷酸的變異所引起的DNA序列多態(tài)性。在基因組DNA中,任何堿基均有可能發(fā)生變異,因此SNP既有可能在編碼基因內(nèi),也有可能在非編碼序列上,位于編碼區(qū)內(nèi)的SNP(coding SNP,cSNP)因其可能影響個體的功能而備受關(guān)注。 InDel是DNA序列的插入(Insertion)和缺失(Deletion)現(xiàn)象的總稱,狹義的InDel表示1~10bp的短InDel。在基因組編碼區(qū)域,InDel的發(fā)生可能會引起移碼突變、氨基酸改變、假基因的出現(xiàn)等等現(xiàn)象。這里分析的是狹義的InDel。 基因組結(jié)構(gòu)變異(SV,Structural Variation)通常是指基因組內(nèi)DNA片段缺失、插入、重復(fù)、倒位、異位。使用MUMmer軟件對目標(biāo)基因組和參考基因組進(jìn)行比對,再使用LASTZ對區(qū)域間進(jìn)行比對,從區(qū)域比對結(jié)果中查找SV。
圖6 全基因組結(jié)構(gòu)變異類型配對圖
6、基因組多態(tài)性分析
核苷酸多態(tài)性(Pi)是衡量特定群體多態(tài)性高低的參數(shù),是指在同一群體中隨機挑選的兩條DNA序列在各個核首酸位點上核昔酸差異的均值。核苷酸多態(tài)性(Pi)能揭示不同物種核酸序列的變異大小,變異度較高的區(qū)域可以為種群遺傳學(xué)提供潛在的分子標(biāo)記。例:基因和基因間區(qū)的核苷酸多樣性分析。
圖7 線粒體基因組的核苷酸多態(tài)性分析[1]
7、共有基因和特有基因分析
所有樣本中都存在的同源基因稱為“共有基因”(core gene),去掉共有基因后得到的為非共有基因(Dispensable gene),特有基因(specific gene)為只有該樣本特異擁有的基因。共有基因和特有基因很有可能與樣品的共性和特性相對應(yīng),可以作為樣本間功能差異的研究依據(jù)。
圖8 Core-Pan基因稀釋曲線
圖9 基因組的共有/特有基因數(shù)
8、密碼子偏好性分析
某一特定密碼子在編碼對應(yīng)氨基酸的同義密碼子中的相對概率,可以反應(yīng)密碼子的偏好性程度。通過計算Relative synonymous codon usage(RSCU)獲得密碼子的偏好性值。研究密碼子的使用模式,對于探明物種進(jìn)化壓力以及進(jìn)一步的遺傳研究都有重要的意義。
圖10 密碼子偏好性分析[3]
9、簡單重復(fù)序列SSR分析
簡單重復(fù)序列(simple sequence repeat, SSR)又稱作微衛(wèi)星序列(microsatellite, MS),是一類由1-6個核苷酸為基本單位多次重復(fù)而形成的DNA片段。SSR數(shù)量豐富、多態(tài)性高、均勻覆蓋整個基因組、呈共顯性遺傳且檢測簡單,因此被作為第二代分子標(biāo)記廣泛應(yīng)用于遺傳圖譜構(gòu)建、目標(biāo)基因定位、遺傳多樣性研究、分子輔助育種、種質(zhì)資源鑒定等領(lǐng)域。
圖11 SSR分類圖
10、重復(fù)序列分析
重復(fù)序列是發(fā)展群體和進(jìn)化分析標(biāo)記的重要信息來源,串聯(lián)、SSR和長重復(fù)廣泛存在于線粒體基因組中。植物線粒體基因組中的重復(fù)序列對分子間重組至關(guān)重要,分子間重組可產(chǎn)生結(jié)構(gòu)變異和極端線粒體基因組大小。其中散在重復(fù)又稱為長重復(fù)序列,分為:正向重復(fù)(forward repeat)、反向重復(fù)(reverse repeat)、回文重復(fù)(palindromic repeat)和互補重復(fù)(complement repeat)四種類型。
圖12 重復(fù)序列分類圖[4]
11、tRNA二級結(jié)構(gòu)分析
tRNA是破譯mRNAs中遺傳密碼和蛋白質(zhì)合成的關(guān)鍵分子。tRNA通常由76核苷酸組成,排列在類似三葉草的二級結(jié)構(gòu)中,包含3個莖環(huán),稱為D環(huán)(含二氫尿苷環(huán))、反密碼子環(huán)和T環(huán)(胸苷、假尿苷和含胞苷或TΨC環(huán))。
圖13 多線南蜥t(yī)RNAs結(jié)構(gòu)預(yù)測[3]
12、RNA編輯分析
線粒體基因表達(dá)需要經(jīng)過復(fù)雜的轉(zhuǎn)錄后加工過程,包括RNA C-U編輯、內(nèi)含子剪接、5’和3’末端成熟和RNA穩(wěn)定。RNA編輯廣泛存在于植物細(xì)胞器(線粒體和葉綠體)中,是植物生長發(fā)育所必需的。RNA編輯可以廣泛定義為RNA序列中任何可能從模板中復(fù)制的位點特異性改變。
圖14 RNA編輯[4]
參考文獻(xiàn)
[1]?First description of the mitogenome and phylogeny: Aedes vexansand Ochlerotatus caspius?of the Tribe Aedini (Diptera: Culicidae). Infection, Genetics and Evolution, 2022. [2]?Characterisation of the complete mitochondrial genome of Taraxacum mongolicumrevealed five repeat‐mediated recombinations. Plant Cell Reports, 2023. [3] Characterization of the complete mitochondrial genome of the many-lined sun skink(Eutropis multifasciata)and comparison with other Scincomorpha species. Genomics, 2021. [4] Assembly and comparative analysis of the frst complete mitochondrial genome of Acer truncatum Bunge: a woody oil-tree species producing nervonic acid. BMC Plant Biology, 2022.