GWAS分析<四>之?dāng)?shù)據(jù)質(zhì)控最終章

上一篇推文《GWAS分析<三>之?dāng)?shù)據(jù)質(zhì)控》已經(jīng)介紹了GWAS分析中數(shù)據(jù)質(zhì)控的部分內(nèi)容,但是,受限于篇幅原因,僅介紹了一半的內(nèi)容。本篇推文算上一篇推文的延續(xù),繼續(xù)將數(shù)據(jù)質(zhì)控分析中剩下的部分介紹完畢。
一?命令與可視化結(jié)果
1.1?常染色上SNPs的獲得
因?yàn)槿梭w染色體中第1到第22號(hào)染色體均為常染色體,所以本教程通過(guò)unix中的awk命令提取1-22染色體的數(shù)據(jù),并存儲(chǔ)在snp_1_22.txt文件中。隨后,通過(guò)—extract和--freq參數(shù)分別進(jìn)行常染色體中SNPs信息的提取和MAF分布情況統(tǒng)計(jì)。再調(diào)用可視化腳本GWAS_analysis.R展示MAF分布情況(見(jiàn)圖1)。最后,通過(guò)--maf 0.05過(guò)濾掉MAF值較高的SNPs位點(diǎn)。

1.2 SNPs的HWP分布情況調(diào)查
本步驟主要是檢查所有SNP的HWP分布的p值,并選擇低于0.00001的SNP,并可視化存在強(qiáng)烈偏移的SNP(見(jiàn)圖2)。本教程使用兩個(gè)步驟,首先對(duì)控制使用嚴(yán)格的HWE閾值,然后對(duì)病例數(shù)據(jù)使用不太嚴(yán)格的閾值。。
注意:第二次篩選僅只關(guān)注病例樣本。

1.3?篩選符合雜合率要求的個(gè)體
本步驟的目標(biāo)是去除雜合率偏離平均值超過(guò)3 SD的個(gè)體。使用Rscript生成雜合率分布圖(見(jiàn)圖3),并進(jìn)行統(tǒng)計(jì)分析,輸出fail-het-qc.txt文件。當(dāng)使用我們的HapMap示例數(shù)據(jù)時(shí),該列表包含2個(gè)體(即兩個(gè)個(gè)體的雜合率雜合率偏離平均值超過(guò)3 SD)。調(diào)整這個(gè)文件,使其與PLINK兼容,從文件中去掉所有引號(hào),只選擇前兩列,從而完成雜合率異常值個(gè)體的篩除。

1.4?檢查數(shù)據(jù)集是否存在隱形關(guān)聯(lián)
檢查所分析的數(shù)據(jù)集的隱性親緣關(guān)系是至關(guān)重要的,所有高于pihat閾值0.2的個(gè)體可能會(huì)干擾GWAS的分析結(jié)果,因此需要進(jìn)行篩除。在本教程中,我們的目標(biāo)是去除數(shù)據(jù)集中的所有?"相關(guān)度"。HapMap數(shù)據(jù)集包含父母與子女的關(guān)系,而教程演示的目的,我們將親緣關(guān)系視為隨機(jī)人口樣本中的隱性親緣關(guān)系。通過(guò)使用z值具體地可視化這些親子關(guān)系,能夠生成一個(gè)圖來(lái)評(píng)估關(guān)系的類(lèi)型。通常情況下,基于家族的數(shù)據(jù)應(yīng)使用特定的基于家族的方法進(jìn)行分析。
首先,獲取pihat閾值低于0.2的個(gè)體,并去除創(chuàng)始者,可視化不同個(gè)體間的親緣關(guān)系。隨后,調(diào)用’--genome --min 0.2’以及0.2_low_call_rate_pihat.txt文件刪除pihat閾值低于0.2的個(gè)體和低召回率的個(gè)體。



祝賀各位?。?!到這里,你已經(jīng)成功地完成了GWAS分析的第一步。后面,你就可以使用質(zhì)控之后的數(shù)據(jù)進(jìn)行適當(dāng)?shù)腉WAS分析啦。
二?慣例小結(jié)
通過(guò)上述內(nèi)容,我們完成了GWAS分析中質(zhì)控環(huán)節(jié)。這些結(jié)果的完成為我們后續(xù)的分析提供了堅(jiān)實(shí)可靠的依據(jù),也避免了因數(shù)據(jù)清洗不完全帶來(lái)的結(jié)果分析偏差。后續(xù)推文中,我們將以前人基因組為例,展示如何進(jìn)行完整的GWAS分析。可視化腳本也會(huì)在后面進(jìn)行介紹,歡迎大家持續(xù)關(guān)注。
本公眾號(hào)開(kāi)發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號(hào)在其他平臺(tái)的賬戶(hù),也歡迎大家關(guān)注并多提意見(jiàn)。
簡(jiǎn)書(shū):WJ的生信小院
公眾號(hào):生信小院
博客園:生信小院
最后,也歡迎各位大佬能夠在本平臺(tái)上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對(duì)某一科研領(lǐng)域的看法;3:想要達(dá)成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機(jī)會(huì);5:博導(dǎo)提供博后工作或者博士攻讀機(jī)會(huì),都可以后臺(tái)給筆者留言。希望本平臺(tái)在進(jìn)行生信知識(shí)分享的同時(shí),能夠成為生信分析者的交流平臺(tái),能夠?qū)崿F(xiàn)相應(yīng)的利益互補(bǔ)和雙贏(yíng)(不一定能實(shí)現(xiàn),但是夢(mèng)想總得是有的吧)。
另外,怎么說(shuō)呢,投幣也可,不強(qiáng)求,但奢求。



GWAS分析<四>之?dāng)?shù)據(jù)質(zhì)控最終章的評(píng)論 (共 條)
