EWAS數(shù)據(jù)分析(3) — 數(shù)據(jù)校正篇
EWAS分析,數(shù)據(jù)過濾和數(shù)據(jù)質(zhì)控已經(jīng)做完了,數(shù)據(jù)和樣本已經(jīng)審核完畢,接下來做什么呢?能進(jìn)行關(guān)聯(lián)分析了么?別急,接下來是數(shù)據(jù)校正過程。
1. 探針信號校準(zhǔn)
探針信號校準(zhǔn)也叫數(shù)據(jù)歸一化。850k芯片設(shè)計(jì)中包含兩類探針。由于兩類探針設(shè)計(jì)方式具有本質(zhì)的不同,這導(dǎo)致兩類探針的信號數(shù)據(jù)分布不一致,所以如果一開始就將兩類探針CpG位點(diǎn)檢測結(jié)果作為整體去分析,所得結(jié)果將不準(zhǔn)確。

從圖1可以看出,兩種探針類型的beta值分布模式是不一致的。已知beta值越趨于0,則意味著該位點(diǎn)甲基化可能性低;趨于1則意味著甲基化可能性高。因此曲線的兩個峰,可以視為甲基化(U)和非甲基化(M)位點(diǎn)的比例。對于Type II來說,可以看到其曲線近似關(guān)于beta=0.5呈對稱分布,同時(shí)略偏向于信號值更高的甲基化位點(diǎn)區(qū)。研究認(rèn)為,這可能是因?yàn)椋琓ype II探針有更高的背景噪聲,比如其GC含量、特制堿基或者一個探針釋放兩種熒光導(dǎo)致的。因此往往根據(jù)Type I探針的分布來校準(zhǔn)Type II探針。
對甲基化數(shù)據(jù)進(jìn)行良好的預(yù)處理,可以減小組內(nèi)數(shù)據(jù)波動性,減小無關(guān)變量對數(shù)據(jù)的影響,從而提升統(tǒng)計(jì)檢驗(yàn)效力。目前常用的探針信號校準(zhǔn)方法是BMIQ算法。

2. 批間差校準(zhǔn)
由于EWAS分析通常是大樣本,實(shí)驗(yàn)的時(shí)間跨度很大,也有可能是同一個項(xiàng)目,來源不同實(shí)驗(yàn)室的數(shù)據(jù)。因此,需要對不同批次,不同來源的數(shù)據(jù)進(jìn)行批間差校準(zhǔn)。
目前批間差校準(zhǔn)主要通過PCA或SVD方法,分析各樣本beta值數(shù)據(jù),歸納其中的隱藏協(xié)變量,在后續(xù)回歸分析中,對隱藏協(xié)變量進(jìn)行校正。
可以通過SVD圖觀測協(xié)變量的影響。例如下圖只有分組信息對主成分有顯著影響,其他協(xié)變量對主成分沒有顯著影響。

3. 細(xì)胞異質(zhì)性校準(zhǔn)
當(dāng)樣本來源于細(xì)胞異質(zhì)性組織時(shí),需要對甲基化數(shù)據(jù)進(jìn)行細(xì)胞異質(zhì)性校正。例如全血樣本,其中包含紅細(xì)胞、白細(xì)胞等多種不同類型的血細(xì)胞,其甲基化分布模式至少有5種。這些異質(zhì)細(xì)胞的組成比例在各種疾病狀態(tài)下往往不相同。一般這種異質(zhì)性因素造成的甲基化差異并非我們關(guān)注的重點(diǎn),因此在后續(xù)分析之前,需要對細(xì)胞異質(zhì)性進(jìn)行校正。
按照有無參照數(shù)據(jù)庫,可以把細(xì)胞異質(zhì)性校正分為兩種:有參照校正(主要用于全血細(xì)胞樣本)、無參照校正。
經(jīng)過數(shù)據(jù)過濾、質(zhì)控、探針信號校準(zhǔn)、批間差校正、細(xì)胞異質(zhì)性校準(zhǔn)后,就得到最終甲基化beta表:

經(jīng)過以上過程,終于可以得到進(jìn)行關(guān)聯(lián)分析得甲基化位點(diǎn)數(shù)據(jù),那么,接下來得關(guān)聯(lián)分析怎么做?請耐心等待下回分解!