【普鯨甲基化小講堂】第6講 - 5mC與CpG島
在第三講中我們提到過,我們以后的小講堂只關(guān)注胞嘧啶甲基化(5mC),提到這個,大家耳熟能詳?shù)囊粋€就是“CpG”了,這里是指胞嘧啶C和鳥苷酸G形成的二核苷酸片段,字母p代表連接兩個核苷酸分子的磷酸鍵。CpG二核苷酸是最為人們所熟知的甲基化位點。
?
不只是CpG
但是,人體內(nèi)所有的甲基化模式都是CpG二核苷酸么?還真不是!
當胞嘧啶C后面跟的是其它核苷酸比如另一個C或者腺嘌呤A,胸腺嘧啶T的時候,這個胞嘧啶C依然是可以被甲基化的。這種模式被稱為CHG或者CHH,其中H是簡并堿基的意思,它代表除了G以外A\T\C的任意一種核苷酸。CpG、CHG和CHH是甲基化的三種模式。在植物中,這三種模式是普遍存在的。

而在人類中,CpG模式是占主流的,只有在配子及胚胎發(fā)育早期以及一些干細胞中會存在約1/4的CHG及CHH甲基化模式。

圖上下方的曲線圖紫色區(qū)域顯示了5mCH/CH的比例變化,可以看到在配子時期,CHG與CHH都占有很大的比重,這一時期并不是CpG一家獨大的。當然,在人生中絕大部分的時期里CpG都是占據(jù)絕對主流的。
?
CpG島
提到CpG,伴隨而來的另一個名詞就會躍入腦海:CpG島。
顧名思義,所謂CpG島就是多個CpG二核苷酸位點密集地聚集在一起,好像DNA大海中一個個孤獨的小島,所以被稱為CpG島(CpG Island)。
目前通行的CpG島的概念最早是由Gardiner-Garden和Frommer于1987年提出(J.Mol.Biol 196,261-282),而后在2002年由Takai D和Jones PA進行了一些更新,不過我們最常獲取CpG島的數(shù)據(jù)來自UCSC數(shù)據(jù)庫,在UCSC上下載的CpG島數(shù)據(jù)依然是以Frommer等提出的定義為標準的。

按照定義,一個所謂的“CpG Island”應當滿足如下三條標準:

有了這個定義,我們完全可以根據(jù)序列特征計算CpG島的存在與否了。而現(xiàn)在,我們可以從UCSC網(wǎng)站上直接去下載最新的CpG島數(shù)據(jù),具體方法是打開瀏覽器,輸入網(wǎng)址https://genome.ucsc.edu/cgi-bin/hgTables,在頁面中設置選項參數(shù)assembly = hg19,group = Regulation, track = CpG Islands,完畢后點擊【get output】即可下載了。

很多人都知道,CpG島多位于啟動子區(qū),這樣的基因占總數(shù)的比例在60-70%左右,但是更進一步嚴格點說,實際上在轉(zhuǎn)錄起始位點(TSS)附近范圍內(nèi)都是CpG富集的區(qū)域,不只是在TSS上游的promoter區(qū),很多基因在第一個外顯子區(qū)也富含CpG形成CpG島。
下面我們來看一個典型例子,這個例子是前幾日普鯨君設計焦磷酸引物時碰到的:

最終,別忘記了:不是所有的甲基化CpG都位于CpG島內(nèi),只是目前CpG島的作用及對我們的研究意義較大,請大家在小講堂結(jié)束時也不要忘記這一點,后續(xù)我們會講到散在的CpG二核苷酸甲基化的作用。