易基因|DNA甲基化研究的測(cè)序數(shù)據(jù)挖掘思路:干貨分享
大家好,這里是專注表觀組學(xué)十余年,領(lǐng)跑多組學(xué)科研服務(wù)的易基因。
總體來(lái)說(shuō),DNA甲基化一般遵循三個(gè)步驟進(jìn)行數(shù)據(jù)挖掘。
首先,進(jìn)行整體全基因組甲基化變化的分析,包括平均甲基化水平變化、甲基化水平分布變化、降維分析、聚類分析、相關(guān)性分析等。
其次,進(jìn)行甲基化差異水平分析,篩選具體差異基因,包括DMC/DMR/DMG鑒定、DMC/DMR在基因組元件上的分布、DMC/DMR的TF結(jié)合分析、時(shí)序甲基化數(shù)據(jù)的分析策略、DMG的功能分析等。
最后,將甲基化組學(xué)&轉(zhuǎn)錄組學(xué)關(guān)聯(lián)分析,包括Meta genes整體關(guān)聯(lián)、DMG-DEG對(duì)應(yīng)關(guān)聯(lián)、網(wǎng)絡(luò)關(guān)聯(lián)等。
一、甲基化圖譜分析
(1)平均甲基化水平的比較
平均甲基化水平能反應(yīng)樣本整體的甲基化水平。
但是平均水平差異不大并不能說(shuō)明樣本間甲基化圖譜沒(méi)有差異。



不同物種中,甲基化修飾可能傾向于發(fā)生在不同類型的C位點(diǎn)上,該分析有助于反應(yīng)甲基化發(fā)生位點(diǎn)類型的偏好性。
甲基化水平分布的組間比較,能夠更進(jìn)一步了解組間甲基化水平的變化。
不同基因組元件(CGI相關(guān)元件、重復(fù)序列元件、基因元件等)的甲基化水平分布規(guī)律不同。特別是在不同物種中,基因元件的甲基化水平可能有一定的特點(diǎn)。
比較特定元件甲基化水平的組間差異也能發(fā)現(xiàn)潛在的功能差異。





(3)降維分析
降維分析嘗試找到最能反映數(shù)據(jù)點(diǎn)真實(shí)分布情況的兩個(gè)維度,以方便對(duì)數(shù)據(jù)進(jìn)行直觀把握。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析:
主成分分析(PCA)
非度量多維標(biāo)度法(NMDS)
主坐標(biāo)分析(PCoA)

可采用統(tǒng)計(jì)檢驗(yàn)分析組間差異的顯著性:
? 相似性分析(ANOSIM)
? 置換多元方差分析(ADONIS)


(4)聚類分析
聚類分析考慮的是各樣本之間的距離,即不相似性。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析。
與降維分析的差別在于,聚類分析更真實(shí)地反映樣本的差距,而非僅考慮兩個(gè)代表性維度。


(5)相關(guān)性分析
相關(guān)性分析考慮的是各樣本之間的相似性。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析。
一般采用皮爾森相關(guān)系數(shù)


二、差異甲基化位點(diǎn)/區(qū)域分析DMC/DMR分析)
(1)DMC/DMR鑒定
差異甲基化位點(diǎn):DMC
差異甲基化區(qū)域:DMR
(甲基化位點(diǎn)一般是與附近的位點(diǎn)一起起作用的)
鑒定實(shí)驗(yàn)組與對(duì)照組甲基化圖譜的具體差異。
如果實(shí)驗(yàn)設(shè)計(jì)包括多個(gè)時(shí)間節(jié)點(diǎn),也可以比較相鄰時(shí)間節(jié)點(diǎn)/感興趣的時(shí)間節(jié)點(diǎn)之間的甲基化圖譜的差異。





主要關(guān)注Promoter和Enhancer等調(diào)控區(qū)域DMC/DMR的TF結(jié)合位點(diǎn)。


(3)時(shí)序甲基化數(shù)據(jù)的分析策略(Time Course)
比較相鄰時(shí)間點(diǎn)的差異
直接篩選時(shí)間階段相關(guān)的DMC和DMR
線性模型/混合線性模型
(可以排除混雜因素干擾,如性別)
共甲基化模式分析(階段特異性Cluster篩選)
WGCNA(權(quán)重基因共表達(dá)網(wǎng)絡(luò)分析)
MEGENA(多尺度嵌入式基因共表達(dá)網(wǎng)絡(luò)分析)
mfuzz
... ...


(4)DMC/DMR在基因元件上的分布
TE(轉(zhuǎn)座元件):影響基因組穩(wěn)定性
Promoter:影響基因表達(dá)
Genebody


(5)差異甲基化基因集(DMGs)的功能分析
分析策略:
可以分為Hyper-DMG和Hypo-DMG
可以分為Promoter-DMG和Genebody-DMG
Gene Ontology
KEGG pathway
Reactome pathway
DisGeNET disease
Disease Ontology



三、組學(xué)關(guān)聯(lián)分析:甲基化組學(xué)&轉(zhuǎn)錄組學(xué)
(1)Meta genes整體關(guān)聯(lián)
同一樣本/組別內(nèi),所有基因的表達(dá)水平與對(duì)應(yīng)基因的甲基化水平進(jìn)行關(guān)聯(lián)。
研究的是基因甲基化與表達(dá)的整體關(guān)系。

Genebody區(qū)正相關(guān)

(2)DMG-DEG對(duì)應(yīng)關(guān)聯(lián)
重疊分析:
特點(diǎn):簡(jiǎn)單粗暴,也適用于樣本量少的情況。
分析結(jié)果:韋恩圖。

皮爾森/斯皮爾曼相關(guān)性分析
特點(diǎn):準(zhǔn)確計(jì)算相關(guān)性程度(R值),及其顯著性(p值)。
分析結(jié)果:散點(diǎn)圖(+擬合線);相關(guān)性熱圖



(3)網(wǎng)絡(luò)關(guān)聯(lián)
基于基因表達(dá)具有功能和通路的富集性。有最低樣本數(shù)量要求。
共表達(dá)-共甲基化網(wǎng)絡(luò)關(guān)聯(lián):
WGCNA module correlation
EMDN algorithm
融合網(wǎng)絡(luò)關(guān)聯(lián):
SNF algorithm


以上就是關(guān)于DNA甲基化測(cè)序的數(shù)據(jù)挖掘思路分享,易基因科技提供全面的DNA甲基化研究整體解決方案,技術(shù)詳情了解請(qǐng)致電易基因。
