基因測序20年后,終于搞清了垃圾DNA是干啥的
1990年,國際人類基因組計劃啟動,到2003年,絕大多數(shù)人類基因組已獲得測定。人們驚奇地發(fā)現(xiàn),人類的基因并非一條完整的信息鏈,而是被許多不能編碼遺傳信息的序列切割得支離破碎。這些不能編碼遺傳信息的DNA在當時被稱為“垃圾”。大自然為什么要在人類基因里放置那么多的垃圾?二十年來,隨著科學(xué)家的努力,真相逐漸浮出水面:這些垃圾DNA自有作用,而其中非常重要的一類就叫做“內(nèi)含子”。
撰文?|?玉寶(中科院遺傳發(fā)育所博士)
內(nèi)含子的發(fā)現(xiàn)
龍生龍,鳳生鳳,遺傳是我們生活中隨處可見的現(xiàn)象??茖W(xué)家很早就猜測,一定是有什么物質(zhì)能把上一代的性狀傳遞給下一代。十九世紀中葉,奧地利科學(xué)家孟德爾(Gregor Johann Mendel)根據(jù)他多年的植物雜交實驗結(jié)果假想出“遺傳因子”這樣一個獨立的遺傳單位,并認為生物的所有性狀都是通過遺傳因子來傳遞的。1903年,美國生物學(xué)家沃爾特·薩頓(Walter Sutton)和德國生物學(xué)家鮑維里(Theodor Heinrich Boveri)提出遺傳因子位于染色體上,染色體是遺傳物質(zhì)的載體。1909年,丹麥遺傳學(xué)家約翰遜(Wilhelm Johannsen)提出了“Gene”(基因)的概念,以此來替代孟德爾假定的“遺傳因子”。從此,“基因”一詞一直在遺傳學(xué)中沿用至今。
約翰遜認為,“基因”背后應(yīng)該有一個化學(xué)實體。人們相信只要弄清了基因的結(jié)構(gòu),基因如何編碼遺傳信息、遺傳信息如何傳代就很容易解釋了。在二十世紀五十年代以前,基因的結(jié)構(gòu)并不清晰,直到1953年美國分子生物學(xué)家沃森(James Watson)和英國生物學(xué)家克里克(Francis Crick)發(fā)現(xiàn)DNA的雙螺旋結(jié)構(gòu),這個問題才得以解決。但科學(xué)家對基因的編碼方式提出了多種理論,例如“一個基因一個酶(蛋白)”就是流行于四十年代的理論。后來人們發(fā)現(xiàn),這個理論遇到的例外越來越多:不少基因發(fā)揮功能的實體是RNA,或者數(shù)個基因編碼一個蛋白,或者一個基因編碼數(shù)個蛋白。因此,“基因”的定義變得越來越復(fù)雜。
1977年,美國科學(xué)家夏普(Philip Sharp)與英國科學(xué)家理查德·羅伯茨(Richard Roberts)?在研究腺病毒遺傳時,各自用電鏡技術(shù)獨立發(fā)現(xiàn)了內(nèi)含子[1, 2],并提出了“斷裂基因理論”,兩人因此榮獲1993年的諾貝爾生理學(xué)或醫(yī)學(xué)獎。電鏡技術(shù)對于內(nèi)含子的發(fā)現(xiàn)功不可沒,它的分辨率能夠看到納米尺度的DNA或RNA分子。不過,內(nèi)含子的命名另有其人。在1978年的一篇短文中,美國科學(xué)家沃特·吉爾伯特(Walter Gilbert)提議用“intron(內(nèi)含子)”指代mRNA前體中的非編碼序列。mRNA是基因由DNA序列“翻譯”成蛋白質(zhì)序列的模板。
1980年,吉爾伯特與弗雷德里克·桑格(Frederick Sanger)、保羅·伯格(Paul Berg)因發(fā)明基因測序技術(shù)而共同獲得諾貝爾化學(xué)獎。
斷裂基因理論認為,真核生物的基因組中,基因的序列是不連續(xù)的,在基因的編碼區(qū)域之間含有大量的不編碼序列,從而打斷了對應(yīng)的蛋白質(zhì)的氨基酸序列。內(nèi)含子,一般指的是真核生物基因中不編碼蛋白質(zhì),是在mRNA加工過程中被剪切掉的DNA序列。這個剪切反應(yīng)由“剪接體(spliceosome)”完成;剪接體的結(jié)構(gòu)十分復(fù)雜,由100多個“零件”組成。

圖1 轉(zhuǎn)錄過程中內(nèi)含子被剪切的示意圖。在真核細胞基因轉(zhuǎn)錄過程中,“剪接體”行使功能將內(nèi)含子去除,將外顯子(綠色)組合到一起,形成成熟的mRNA。圖源:李宏彬等
內(nèi)含子的功能
真核細胞蛋白質(zhì)編碼基因與原核細胞的最大區(qū)別,就在于前者中存在內(nèi)含子而后者沒有。通常,內(nèi)含子的長度遠比編碼蛋白的外顯子序列長。內(nèi)含子的存在,使得真核細胞在傳代和基因表達時消耗了大量的物質(zhì)和能量,這無疑會增加機體的生存負擔。那么,這么長的非編碼片段嵌在基因里,到底有什么用呢?
內(nèi)含子發(fā)現(xiàn)之后的20年里,人們對它的起源和功能方面的研究較少。實際上,直到21世紀初,人類基因組草圖剛完成那幾年,還有一個流行的說法:“人類基因組中95%的序列都是垃圾DNA”。相信有讀者記得當時的這個說法。當然,那時候人們所說的垃圾序列中,就包括了內(nèi)含子。在科研人員的不斷努力下,“垃圾DNA”的說法逐漸被推翻,內(nèi)含子的重要功能也逐步清晰起來。
一系列研究發(fā)現(xiàn),內(nèi)含子有助于維持基因的穩(wěn)定,還會參與基因的表達和調(diào)控。具體來說,基因中的內(nèi)含子與外顯子通過可變剪接產(chǎn)生不同的外顯子組合,進而翻譯出多種蛋白質(zhì),提高了蛋白質(zhì)組的復(fù)雜性;內(nèi)含子中的增強子(序列)等調(diào)控元件可以調(diào)控基因的轉(zhuǎn)錄效率;內(nèi)含子中的一些RNA元件還可以避免轉(zhuǎn)錄提前終止。
早期研究發(fā)現(xiàn),內(nèi)含子可以維持基因轉(zhuǎn)錄時DNA序列的穩(wěn)定:防止基因在轉(zhuǎn)錄時形成“R環(huán)”(R-loop)。所謂R環(huán),顧名思義就是“R”形的結(jié)構(gòu),它是指由轉(zhuǎn)錄出的RNA鏈與打開的雙鏈DNA的其中一條發(fā)生堿基互補配對,形成RNA-DNA雜合鏈的結(jié)構(gòu),同時,未配對的另一條DNA鏈處于游離狀態(tài)(見圖2)。而內(nèi)含子的存在可以減少R環(huán)形成,保持基因組DNA的穩(wěn)定性。不過,R環(huán)也并不都是“壞的”,后來人們發(fā)現(xiàn)細胞中的R環(huán)也是有生物功能的——它可以調(diào)節(jié)基因表達,如轉(zhuǎn)錄起始和延伸、表觀遺傳調(diào)控等。另外,R環(huán)的失調(diào)與DNA損傷、基因組不穩(wěn)定、基因高頻重組也有關(guān)。

圖2. 基因轉(zhuǎn)錄時形成“R環(huán)”(R-loop)的兩種方式。圖源:張譯勻等
內(nèi)含子還有許多其他的功能。幾年前,加拿大舍布魯克大學(xué)的Elela團隊和美國麻省理工學(xué)院的Bartel團隊同時發(fā)表了兩篇論文[4, 5],表明內(nèi)含子可以協(xié)助機體應(yīng)對營養(yǎng)缺乏的壓力,使其“扛餓”。
Elela團隊逐個敲除了釀酒酵母的200多個內(nèi)含子,看看是否會影響酵母的生存能力。通過測序以及相應(yīng)的表型分析,研究人員發(fā)現(xiàn)內(nèi)含子具有調(diào)控酵母適應(yīng)營養(yǎng)匱乏(饑餓)的功能。Bartel團隊則發(fā)現(xiàn)酵母中有34個內(nèi)含子一直存在于細胞中,以剪切后的全長或線性形式存在,它們受到經(jīng)典的TOR代謝通路的調(diào)控,在營養(yǎng)匱乏時能夠減緩酵母的生長速度,提高了酵母的適應(yīng)性和生存率。這些內(nèi)含子發(fā)揮應(yīng)對逆境的功能,與其所在基因的功能無關(guān)。內(nèi)含子關(guān)乎機體的生死存亡,那么在它生物演化過程中得以保留也就可以理解了。
內(nèi)含子可以分為四類:Ⅰ型內(nèi)含子、Ⅱ型內(nèi)含子、剪接體內(nèi)含子、tRNA內(nèi)含子。其中,一般意義上的內(nèi)含子就是剪接體內(nèi)含子,顧名思義就是自帶剪接體的內(nèi)含子,其”剪接體”的蛋白立體結(jié)構(gòu)已被解析出來。生成mRNA的剪接反應(yīng)非常精準,錯誤率極低——要知道,若移碼錯位一個堿基,就會導(dǎo)致后續(xù)轉(zhuǎn)錄過程發(fā)生異常,無法生成蛋白質(zhì)或生成錯誤的蛋白質(zhì)。
Ⅰ型內(nèi)含子存在于細菌、噬菌體、原生生物、真菌中,能夠自我剪接。Ⅱ型內(nèi)含子存在于細菌和細胞器基因組中,同樣能夠自我剪接,但是機制與1型內(nèi)含子不同,與剪接體內(nèi)含子的剪接機制類似。tRNA內(nèi)含子存在于真核細胞和古菌中,剪接過程需要內(nèi)切酶和ATP。
內(nèi)含子的產(chǎn)生機制
真核細胞里到底是怎么出現(xiàn)內(nèi)含子的?
關(guān)于內(nèi)含子的產(chǎn)生機制,目前比較流行的解釋是“introner理論”[6],它可以解釋剪接體內(nèi)含子的起源。introners可以看做是基因組中的“寄生蟲”,在基因組中通過“復(fù)制”“粘貼”的方式“制造”了大量內(nèi)含子。2009年,科學(xué)家在微單胞藻中發(fā)現(xiàn)了introner,隨后在鞭毛藻、某些真菌、尾索動物中也發(fā)現(xiàn)了它的蹤跡。
科學(xué)家的多項研究表明,這個“復(fù)制”“粘貼”的過程可以在整個基因組中大規(guī)模地重復(fù):在整個生物演化過程中,introner在不同的真核生物中不停制造著內(nèi)含子。比如,在過去的十萬年中,真菌基因組中的多數(shù)內(nèi)含子都是Introner引入的[7]。

圖3. Introner如何“制造”內(nèi)含子? Introner把內(nèi)含子序列插入基因組中,從而“割裂”原有的DNA序列,生成新的外顯子。圖源:Merrill Sherman
研究發(fā)現(xiàn),在一些物種中,introner產(chǎn)生的序列與DNA轉(zhuǎn)座子有很強的相似性,例如Polarella glacialis和Micromonas這兩種藻類就是這樣。DNA轉(zhuǎn)座子代表了一個更大的遺傳元件家族,又稱轉(zhuǎn)座元件或“跳躍基因”;轉(zhuǎn)座子可以將自身序列大量拷貝并插入基因組中。introner和轉(zhuǎn)座子的這種的相似性,提示了一部分內(nèi)含子可能來源于轉(zhuǎn)座子。Introner機制產(chǎn)生的內(nèi)含子往往在短期內(nèi)大量出現(xiàn)在基因組中,帶有很強的隨機性,這可以解釋為什么內(nèi)含子在真核生物基因組中的分布并不均勻。
不過,目前introner只發(fā)現(xiàn)于部分物種。例如,內(nèi)含子的涌現(xiàn)似乎在水生生物中更常見:內(nèi)含子出現(xiàn)在水生生物基因組中的可能性是陸生生物基因組的6倍多。此外,近3/4的含有內(nèi)含子的水生物種,其基因組擁有多個序列相似的內(nèi)含子。這種序列相似的現(xiàn)象其實就是基因水平轉(zhuǎn)移,即基因序列從一個物種轉(zhuǎn)移到另一個物種。這種形式的基因轉(zhuǎn)移,往往發(fā)生在水生環(huán)境或物種共生的情況下,例如宿主和寄生蟲之間。
水生環(huán)境有助于水平基因轉(zhuǎn)移,是因為在水性介質(zhì)中各種遺傳物質(zhì)可以自由流動。單細胞生物在水中很容易吸收或融合外源DNA;更復(fù)雜的多細胞生物在水中產(chǎn)卵或受精,也有機會接觸到外源DNA或RNA。有研究發(fā)現(xiàn),在將近300多個硬骨魚類基因組中曾發(fā)生了近1000個基因水平轉(zhuǎn)移或內(nèi)含子插入事件[8]。相比之下,陸地生物之間發(fā)生基因水平轉(zhuǎn)移的頻率要低得多。
內(nèi)含子對生物演化的意義
同樣是真核生物,哺乳動物的內(nèi)含子比酵母的更多更長。例如,人類內(nèi)含子序列長度約占基因組的25%,每個基因平均約有9個內(nèi)含子,這樣有助于基因?qū)崿F(xiàn)復(fù)雜多樣的功能。人類mRNA前體中內(nèi)含子的長度差異非常大,可以從50個堿基到百萬個堿基不等。
內(nèi)含子在物種間及物種內(nèi)部的分布也不均衡。同一物種不同個體的同一基因中,有的有內(nèi)含子,有的沒有;不同物種同一基因的內(nèi)含子的長度、數(shù)目和所處位置等都不相同。如Sccoxl.2b和Ancoxl.3這兩個同源基因的內(nèi)含子,其序列有70%相同,但內(nèi)含子旁邊的外顯子排列順序差異很大,這可能是內(nèi)含子在不同物種中發(fā)生了轉(zhuǎn)移的結(jié)果。
內(nèi)含子的存在需要有相應(yīng)的機制保證。真核生物因為細胞中有核膜,為基因轉(zhuǎn)錄和翻譯過程在空間上的分離提供了基礎(chǔ),同時細胞中的大量線粒體可以提供能量,所以內(nèi)含子的存在有其物質(zhì)基礎(chǔ)。而原核生物,沒有核膜結(jié)構(gòu),轉(zhuǎn)錄和翻譯是同步的,所以原核生物無需內(nèi)含子來保持DNA序列的穩(wěn)定性。
科學(xué)家認為,內(nèi)含子有助于推動基因家族或物種的演化?;蚪M通過組合外顯子和內(nèi)含子,通過可變剪接的機制制造新的變異,生成新的調(diào)控模式或功能模塊(酶、蛋白質(zhì)、通路等)。例如,可以產(chǎn)生毒素的物種通常需要在基因?qū)用婵焖俳M合,進而生成新的毒液(復(fù)雜的肽類混合物),以適應(yīng)不同的獵物或應(yīng)對天敵。動物的免疫系統(tǒng)則需要快速重排MHC基因,不斷產(chǎn)生新的抗體或抗原呈遞細胞,以應(yīng)對生活環(huán)境中多變的抗原。這種快速進化機制在自然界中很普遍,內(nèi)含子往往會參與到這些機制當中。
參考文獻
[1] Berget SM et al.?Spliced segments at the 5' terminus of adenovirus 2 late mRNA. PNAS.?1977, 74?(8): 3171–3175.
[2] Chow LT, et al. "An amazing sequence arrangement at the 5' ends of adenovirus 2 messenger RNA".?Cell.?1977, 12?(1): 1–8.?
[3]?Gilbert W. Why genes in pieces.?Nature. 1978,?271?(5645): 501.
[4]?Elela AS et al. Introns are mediators of cell response to starvation. Nature. 2019, 565(7741): 612-617.
[5] Bartel DP. Excised linear introns regulate growth in yeast. Nature 2019, 565(7741): 606-611
[6] A.Z. Worden, et al. Green evolution and dynamic adaptations revealed by genomes of the marine picoeukaryotes Micromonas. Science, 2009, 324 (5924), 268-272
[7] Ate van der Burgt et al. Birth of New Spliceosomal Introns in Fungi by Multiplication of Introner-like Elements. Current Biology, 2012: 22(13), 1260-1265
[8] Zhang HH et al.Horizontal transfer and evolution of transposable elements in vertebrates. Nat Commun. 2020, 11(1):1362.
本文受科普中國·星空計劃項目扶持
出品:中國科協(xié)科普部
監(jiān)制:中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司
