GWAS分析<三>之?dāng)?shù)據(jù)質(zhì)控

對(duì)于GWAS分析而言,數(shù)據(jù)質(zhì)控是非常關(guān)鍵的一步。因此,本篇推文主要針對(duì)數(shù)據(jù)質(zhì)控的命令和結(jié)果解讀進(jìn)行闡述,希望能夠幫助讀者實(shí)現(xiàn)從源頭上實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的可控,從而避免因此產(chǎn)生的數(shù)據(jù)解析錯(cuò)誤。
一?命令與結(jié)果可視化
首先,需要強(qiáng)調(diào)三個(gè)變量:source_data_dir、analysis_dir、plink_path。這三個(gè)變量所指定的意義如下:
source_data_dir:存放分析數(shù)據(jù)的文件夾
analysis_dir:存放結(jié)果的文件夾
plink_path:plink的軟件目錄,內(nèi)含有已經(jīng)編譯好的plink二進(jìn)制文件,可以直接調(diào)用。
接下來(lái),開(kāi)始進(jìn)行數(shù)據(jù)質(zhì)控相關(guān)的分析。
1.1 SNP檢查
這一步的命令是調(diào)用plink軟件檢查每個(gè)個(gè)體缺失的snp比例和每個(gè)snp在所有個(gè)體中缺失的比例。
隨后,我們可以調(diào)用GWAS_analysis.R腳本對(duì)結(jié)果進(jìn)行進(jìn)一步的可視化。
這一步會(huì)產(chǎn)生下圖

從圖1中可以看出僅少部分的樣本均存在5%的SNP的缺失現(xiàn)象,僅少部分SNP在1.5%的個(gè)體中存在缺失。
1.2?性別檢查
通過(guò)--geno和--mind兩個(gè)參數(shù)是用于分別去除低表型相關(guān)的SNP特征和存在高比例遺傳缺失的個(gè)體,防止這些數(shù)據(jù)對(duì)結(jié)果產(chǎn)生偏差。當(dāng)plink軟件調(diào)用這一參數(shù)時(shí),會(huì)同時(shí)對(duì)bed、bim和fam文件進(jìn)行過(guò)濾,即每次過(guò)濾都會(huì)產(chǎn)生三個(gè)文件,方便后續(xù)的分析。
通過(guò)上述腳本,我們可以完成性別分析,即根據(jù)X染色體雜合/純合率檢查數(shù)據(jù)集中記錄的個(gè)體性別與性別之間的差異,并移除性別差異的部分。

從圖2中可以看出,這次分析的樣本中女性群體X染色體純合性估計(jì)值小于0.2,男性群體X染色體純合性明顯大于0.995。Gender群體(男性與女性)的X染色體純合性估計(jì)值存在兩個(gè)極端。
整理好的可視化腳本(R語(yǔ)言編寫),我也已經(jīng)放在下面,方便各位讀者取用(不過(guò)后續(xù)的可視化腳本部分將會(huì)單獨(dú)整理成一期)。
二?慣例小結(jié)
GWAS的質(zhì)控需要對(duì)獲得測(cè)序數(shù)據(jù)進(jìn)行多個(gè)維度的檢查分析,這樣才能避免可能存在的誤差現(xiàn)象。考慮到太長(zhǎng)不看的原則,本篇推文介紹的內(nèi)容就不再額外增加了(作者借口偷懶)。
本公眾號(hào)開(kāi)發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號(hào)在其他平臺(tái)的賬戶,也歡迎大家關(guān)注并多提意見(jiàn)。
簡(jiǎn)書(shū):WJ的生信小院
公眾號(hào):生信小院
博客園:生信小院
最后,也歡迎各位大佬能夠在本平臺(tái)上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對(duì)某一科研領(lǐng)域的看法;3:想要達(dá)成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機(jī)會(huì);5:博導(dǎo)提供博后工作或者博士攻讀機(jī)會(huì),都可以后臺(tái)給筆者留言。希望本平臺(tái)在進(jìn)行生信知識(shí)分享的同時(shí),能夠成為生信分析者的交流平臺(tái),能夠?qū)崿F(xiàn)相應(yīng)的利益互補(bǔ)和雙贏(不一定能實(shí)現(xiàn),但是夢(mèng)想總得是有的吧)。
另外,怎么說(shuō)呢,投幣也可,不強(qiáng)求,但奢求。


