EWAS數(shù)據(jù)分析(2) — 數(shù)據(jù)質(zhì)控篇
上一篇的EWAS數(shù)據(jù)分析系列技術(shù)分享介紹了EWAS數(shù)據(jù)分析的第一步:數(shù)據(jù)過濾,這一篇主要跟大家分享接下來的分析流程:數(shù)據(jù)質(zhì)控。

好的數(shù)據(jù)質(zhì)控是非常重要的,數(shù)據(jù)質(zhì)控過了,后面的分析拿到的結(jié)果才有可能是客觀,而不是假陽性的。那么,數(shù)據(jù)質(zhì)控又需要哪些過程呢?
1.?樣本性別分析
X染色體上的CpG位點可以作為質(zhì)控指標(biāo)。因為女性染色體上,其中一個X染色體處于不活躍狀態(tài),大量位點被甲基化。因此對于男性、女性進行比較時,女性樣本應(yīng)該有50%以上的X染色體CpG位點被甲基化,而男性則明顯較少。通過與給定樣本性別進行比較,可以確定異常樣本予以剔除。

2.?Bisulfite轉(zhuǎn)化信號
亞硫酸鹽轉(zhuǎn)化效率是850k芯片質(zhì)控的重要指標(biāo)。850k芯片上內(nèi)置bisulfite conversion I型探針,其信號值可以反映亞硫酸鹽轉(zhuǎn)化效率。通過對其繪制散點圖,可以找出轉(zhuǎn)化信號離群的異常樣本,予以剔除。

3.?整體信號中位值分析
對于各樣本而言,其所有CpG位點上Methylated和Unmethylated信號中位值應(yīng)該比較接近。因此,以橫坐標(biāo)為Methylated信號中位值、縱坐標(biāo)為Unmethylated信號中位值,繪制各樣本散點圖,可以從中找到離群樣本,予以剔除。

4.?Beta值曲線分析
通過繪制Type I、Type II探針的Beta值曲線,前后比較數(shù)據(jù)標(biāo)準化效果。對于偏離異常樣本,予以剔除。

5.?PCA主成分分析
經(jīng)過上述過濾后,在所有CpG位點的層面上,利用所有樣本進行PCA主成分分析。在第一、二、三主成分空間上,可以展示樣本分布。一般認為在第一、二主成分的維度上,位于4倍標(biāo)準差范圍之外的樣本是異常樣本,可以考慮予以舍去。

例如,上述PCA圖中可以看到有2個樣本位于4倍標(biāo)準差范圍之外。
通過以上5個過程的數(shù)據(jù)質(zhì)控,實現(xiàn)了對偏離樣本的識別與剔除,為后續(xù)的工作打下了堅實的基礎(chǔ)。那么,接下來是否就可以進行關(guān)聯(lián)分析了呢?別急,請耐心等待下回分解!