打不過就加入 | 動(dòng)植物泛基因組研究(一)

一、泛基因組概念
1.1 定義
泛基因組指一個(gè)生物分支(如一個(gè)物種)的全部基因組信息[1]。泛基因組的英文是Pan-genome,Pan來自希臘詞匯 παν,意思是“全部的”[2]。
1.2 發(fā)展史
自2005年泛基因組概念在微生物中被首次提出,到2014年作物中開啟泛基因組研究,迄今已有數(shù)十種動(dòng)植物開展了泛基因組測(cè)序研究,包括人、豬、大豆、水稻、玉米、番茄等[1]。

一個(gè)個(gè)體的基因組只是物種基因組的代表,并不能全面的反映物種基因水平的全部遺傳信息,以此為參考基因組研究同一物種中差異巨大的不同亞種、變種或者不同品系可能會(huì)遺漏樣本特有表型的遺傳信息。因此,未來泛基因組將逐漸取代單一參考基因組,成為研究動(dòng)植物進(jìn)化、選擇、基因功能和育種的“新標(biāo)準(zhǔn)”[3,4]。

(圖片來源:https://www.nature.com/articles/d42859-020-00115-3)1.3 分類
泛基因組大體上可分為核心基因組和非核心基因組[1]。核心基因組由所有樣本中都存在的序列組成,一般與物種生物學(xué)功能和主要表型特征相關(guān),反映了物種的穩(wěn)定性。
非核心基因組由僅在單個(gè)樣本或部分樣本中存在的序列組成,一般與物種對(duì)特定環(huán)境的適應(yīng)性或特有的生物學(xué)特征相關(guān),反映了物種的特性。?

也有研究會(huì)依據(jù)觀察到的不同基因頻率對(duì)上述分類進(jìn)一步細(xì)分為Soft core、Private或者Shell、Cloud等分類定義[5,6]。

另外根據(jù)是否可以通過足量的測(cè)序個(gè)體來預(yù)測(cè)泛基因組的理論大小,將其分為開放型和閉合型。閉合型泛基因組,對(duì)足夠數(shù)量的個(gè)體進(jìn)行測(cè)序,幾乎可以獲得全部基因序列信息,可以預(yù)測(cè)泛基因組的理論大小。相反,開放型泛基因組大小隨著測(cè)序個(gè)體數(shù)量的增加而增加,無法預(yù)測(cè)最終的泛基因組大小[1]。

(圖片來源:https://en.wikipedia.org/wiki/Pan-genome)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 二、泛基因組的構(gòu)建
2.1 材料選擇
樣本數(shù)量是影響泛基因組規(guī)模的重要因素,鑒定新基因的個(gè)體數(shù)目增加,泛基因組的大小也隨之增加,但核心基因的百分比隨之下降(見下圖)。材料特性也是重要因素之一,親緣關(guān)系近的材料會(huì)降低泛基因組的大小,而野生和栽培種質(zhì)結(jié)合研究可產(chǎn)生更大規(guī)模的泛基因組。除上述因素外,泛基因組的規(guī)模和組成還受到物種的倍性水平、繁殖方式、馴化程度等多個(gè)因素影響[7]。

對(duì)于大多數(shù)常規(guī)泛基因組項(xiàng)目,建議選擇能充分反映物種遺傳和表型多樣性,以及各進(jìn)化位置關(guān)系的材料進(jìn)行測(cè)序研究,可基于經(jīng)驗(yàn)或群體結(jié)構(gòu)信息(通常參考前期研究)選擇最具代表性的個(gè)體進(jìn)行泛基因組構(gòu)建[8]。例如,在最近發(fā)表的狗尾草屬泛基因組研究中,作者從頭組裝了110個(gè)代表性基因組,包括35個(gè)野生、40個(gè)地方品種和35個(gè)現(xiàn)代栽培品種[5]。“這些品種基于系統(tǒng)發(fā)育關(guān)系、地理分布、繁殖和/或研究用途和亞群分布進(jìn)行選擇,以確保它們代表了狗尾草和綠色狗尾草內(nèi)遺傳多樣性的全譜。我們選擇的這些品種也涵蓋了表型多樣性,并代表了與馴化和改良相關(guān)的表型連續(xù)體?!?/p>
2.2 測(cè)序方法
限制泛基因組廣泛開展的一個(gè)重要限制因素是測(cè)序技術(shù)和成本。與Illumina等短讀長測(cè)序相比,PacBio/Nanopore三代長讀長測(cè)序技術(shù)不論在基因組組裝連續(xù)性還是結(jié)構(gòu)變異檢測(cè)上均具有顯著優(yōu)勢(shì)[2,4]。隨著三代測(cè)序技術(shù)持續(xù)降本增效,基于此技術(shù)的泛基因組研究如雨后春筍。特別是PacBio HiFi測(cè)序在T2T基因組組裝上持續(xù)輸出,已成為(泛)基因組研究的首選平臺(tái)[2,4]。

2.3 構(gòu)建方法
動(dòng)植物泛基因組構(gòu)建目前常用的方法包括迭代組裝(Iterative assembly)、Map-to-pan、從頭組裝后比較(De novo assembly and comparison)和圖形泛基因組(Graph pan-genome)等[2,3,9]。

迭代組裝和Map-to-pan方法都依賴于已有的參考基因組,通過將短讀長比對(duì)到參考基因組上鑒定基因的PAVs(presence/absence variants),這種方式優(yōu)點(diǎn)是成本低,缺點(diǎn)則是對(duì)于結(jié)構(gòu)變異檢出效果不佳,多見于早期的泛基因組研究。從頭組裝后比較的方法分別對(duì)個(gè)體基因組進(jìn)行高質(zhì)量組裝,然后通過比較基因組進(jìn)行泛基因組研究。該方法不依賴參考基因組,能夠更全面的獲得個(gè)體基因組特異性序列。
圖形泛基因組是在基因組從頭組裝的基礎(chǔ)上,將個(gè)體基因組及其變異表示為圖形結(jié)構(gòu)。與傳統(tǒng)線性基因組相比,圖形泛基因組可存儲(chǔ)和展示物種全部的遺傳信息及序列結(jié)構(gòu)變異,更有利于群體基因組研究,正成為泛基因組研究的主流方式[10]。關(guān)于圖形泛基因組更為詳細(xì)的構(gòu)建方法學(xué)介紹如老師感興趣可參考兩篇引文綜述[11,12],在此不作展開。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 三、泛基因組的應(yīng)用
泛基因組研究可獲得核心基因(組)和非核心基因(組)等基本特征數(shù)據(jù),更可以得到物種全面而準(zhǔn)確的變異信息(SNP、Indel、CNV、PAV等)。相比于重測(cè)序研究,基于長讀長的泛基因組能大幅度提高大片段結(jié)構(gòu)變異(SV)的檢出率和準(zhǔn)確性,并揭示其對(duì)關(guān)鍵表型基因的影響[7]。

總之,泛基因組圖譜提供的復(fù)雜全面基因組變異,有助于研究物種的起源及演化、解析物種表型性狀的多樣性、發(fā)掘重要性狀相關(guān)的基因資源等重要生物學(xué)問題,并最終幫助我們找回物種丟失的遺傳多樣性,選育更好的品種[2,14,15]。


下一期小編將結(jié)合文獻(xiàn)對(duì)泛基因組的主要研究方向做介紹,歡迎交流。
1. Golicz, A.A., et al., Pangenomics Comes of Age: From Bacteria to Plant and Animal Applications.?Trends Genet, 2020. 36(2): p. 132-145.
2. Shi, J., et al., Plant pan-genomics and its applications.?Mol Plant, 2023. 16(1): p. 168-186.
3. Bayer, P.E., et al., Plant pan-genomes are the new reference.?Nat Plants, 2020. 6(8): p. 914-920.
4. Huang, X., et al., The integrated genomics of crop domestication and breeding.?Cell, 2022. 185(15): p. 2828-2839.
5. He, Q., et al., A graph-based genome and pan-genome variation of the model plant Setaria.?Nat Genet, 2023. 55(7): p. 1232-1242.
6. Li, N., et al., Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species.?Nat Genet, 2023. 55(5): p. 852-860.
7. Tao, Y., et al., Exploring and Exploiting Pan-genomics for Crop Improvement.?Mol Plant, 2019. 12(2): p. 156-169.
8. Li, W., et al., Plant pan-genomics: recent advances, new challenges, and roads ahead.?J Genet Genomics, 2022. 49(9): p. 833-846.
9. Danilevicz, M.F., et al., Plant pangenomics: approaches, applications and advancements.?Curr Opin Plant Biol, 2020. 54: p. 18-25.
10. Tao, Y., D.R. Jordan, and E.S. Mace, A Graph-Based Pan-Genome Guides Biological Discovery.?Mol Plant, 2020. 13(9): p. 1247-1249.
11. Wang, S., et al., Graph-based pan-genomes: increased opportunities in plant genomics.?J Exp Bot, 2023. 74(1): p. 24-39.
12. Eizenga, J.M., et al., Pangenome Graphs.?Annu Rev Genomics Hum Genet, 2020. 21: p. 139-162.
13. Gong, Y., et al., A review of the pangenome: how it affects our understanding of genomic variation, selection and breeding in domestic animals??J Anim Sci Biotechnol, 2023. 14(1): p. 73.
14. Raza, A., A. Bohra, and R.K. Varshney, Pan-genome for pearl millet that beats the heat.?Trends Plant Sci, 2023. 28(8): p. 857-860.
15. 趙均良, 張少紅, and 劉斌, 泛基因組及其在植物功能基因組學(xué)研究中的應(yīng)用.?植物遺傳資源學(xué)報(bào), 2021. 22(01): p. 7-15.