EWAS數(shù)據(jù)分析(1) — 數(shù)據(jù)過濾
?????? 闡明人類復(fù)雜疾病的遺傳和非遺傳的致病因素是生物醫(yī)學(xué)研究的主要挑戰(zhàn)之一。全表觀基因組關(guān)聯(lián)研究(epigenome-wide association studies,EWAS)與GWAS類似,都是在全基因組水平上對疾病的復(fù)雜性狀進(jìn)行關(guān)聯(lián)分析,兩者的差別在于GWAS關(guān)注于SNP位點(diǎn)的差異而EWAS關(guān)注于表觀修飾(特別是DNA甲基化修飾)的差異。Illumina的甲基化芯片Infinium MethylationEPIC BeadChip(簡稱850K芯片)是目前進(jìn)行EWAS研究的主要數(shù)據(jù)來源。那么,當(dāng)有了850K的芯片數(shù)據(jù)之后,怎么來進(jìn)行EWAS分析呢?
總體來說,EWAS的基本分析主要分為5個(gè)過程,分別是(1)數(shù)據(jù)過濾;(2)數(shù)據(jù)質(zhì)控;(3)探針信號校準(zhǔn);(4)批間差與異質(zhì)性校準(zhǔn);(5)關(guān)聯(lián)分析。
一、數(shù)據(jù)過濾篇
高通量芯片數(shù)據(jù),一般的研究分析,在數(shù)據(jù)過濾方面要求不是很高。但是,基于甲基化芯片EWAS分析, 數(shù)據(jù)要求更高,所以數(shù)據(jù)過濾就會(huì)嚴(yán)格很多,具體的過程包括以下幾部分:
1)根據(jù)detectionP值進(jìn)行過濾
每個(gè)樣本每個(gè)CpG位點(diǎn)都對應(yīng)一個(gè)detection P值。p值越小,則位點(diǎn)信息越可靠。
通常的過濾標(biāo)準(zhǔn):
i)若某樣本有超過10%的CpG位點(diǎn)detection P值大于0.01,則考慮濾除該樣本;
ii)若過濾樣本后,某CpG位點(diǎn)仍有detection P值大于0.01,則濾除該位點(diǎn);
該斷則斷,不斷則亂!!
2)根據(jù)beadcounts進(jìn)行過濾
850k芯片中,每個(gè)CpG位點(diǎn)對應(yīng)的探針都分布在多個(gè)磁珠(Beads)上。每個(gè)樣本每個(gè)CpG位點(diǎn)都對應(yīng)一個(gè)NBeads值,即產(chǎn)生熒光信號的Beads數(shù)。該值越大,則探針信號越可靠。一般認(rèn)為NBeads小于3的探針是不可靠的。
過濾標(biāo)準(zhǔn):在超過5%的樣本中,某CpG位點(diǎn)NBeads數(shù)小于3,則濾除該位點(diǎn);
大家都說好的,才留下??!
3)根據(jù)Non CpG位點(diǎn)進(jìn)行過濾
在850k芯片中,包含大量質(zhì)控探針等非CpG檢測探針,如59個(gè)SNP位點(diǎn)、635個(gè)各類質(zhì)控探針等等,在EWAS分析時(shí)應(yīng)予以濾除。
無關(guān)人員,請速離開!!
4)根據(jù)CpG位點(diǎn)多態(tài)性進(jìn)行過濾
據(jù)研究,某些CpG位點(diǎn)在部分人群中具有較高頻率的單核苷酸多態(tài)性(SNP)。由于甲基化芯片本質(zhì)上是一種SNP芯片,所以SNP多態(tài)性會(huì)影響DNA甲基化檢測。故應(yīng)濾除這些CpG位點(diǎn)。
搖擺不定,也請走!!
5)根據(jù)CpG位點(diǎn)探針非特異比對進(jìn)行過濾
據(jù)研究,某些CpG位點(diǎn)對應(yīng)探針可以blast到多個(gè)不同的染色體區(qū)域。這類探針將不能準(zhǔn)確判斷設(shè)計(jì)位點(diǎn)處的甲基化水平。故應(yīng)濾除這些CpG位點(diǎn)。
腳踏多船,請下船?。?/strong>
6)過濾性染色體CpG位點(diǎn)
在進(jìn)行EWAS分析時(shí),如果所關(guān)注的樣本性狀與性別無關(guān),則需要濾除性染色體上的CpG位點(diǎn)。因?yàn)檫@些位點(diǎn)的甲基化分布與性別有明顯關(guān)聯(lián),會(huì)影響后續(xù)EWAS分析。
7)根據(jù)甲基化水平波動(dòng)程度進(jìn)行過濾
在進(jìn)行EWAS分析時(shí),一般關(guān)注差異位點(diǎn)。如果CpG位點(diǎn)Beta值在各樣本間標(biāo)準(zhǔn)差很小,則意味著該位點(diǎn)在各樣本間幾乎沒有差異,在預(yù)處理時(shí)便可予以濾除。
過濾標(biāo)準(zhǔn):若CpG一般認(rèn)為標(biāo)準(zhǔn)差小于0.01的,即可視為沒有差異的CpG位點(diǎn)。
有差異,才有價(jià)值??!
8)缺失值處理
目前缺失值處理以過濾為主,即濾除存在缺失值的CpG位點(diǎn)。因?yàn)槟壳凹谆矫鏇]有合適的人群參考數(shù)據(jù)集進(jìn)行缺失值填補(bǔ)(Imputation)。
若已知對應(yīng)CpG位點(diǎn)的基因型(genotype),則可以根據(jù)基因型信息和相關(guān)樣本的甲基化水平進(jìn)行Beta值的缺失值填補(bǔ)。
你有我無,不行??!
通過上述8大嚴(yán)格數(shù)據(jù)過濾條件,剩下相對比較可靠的甲基化位點(diǎn)數(shù)據(jù),為后面的EWAS分析打下基礎(chǔ)。那么,數(shù)據(jù)質(zhì)控又需要做些什么?請關(guān)注下回分解!