之?dāng)?shù)據(jù)質(zhì)控最終章,"> 之?dāng)?shù)據(jù)質(zhì)控最終章。">

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

GWAS分析<四>之?dāng)?shù)據(jù)質(zhì)控最終章

2022-11-25 14:05 作者:生信小院  | 我要投稿


上一篇推文《GWAS分析<三>之?dāng)?shù)據(jù)質(zhì)控》已經(jīng)介紹了GWAS分析中數(shù)據(jù)質(zhì)控的部分內(nèi)容,但是,受限于篇幅原因,僅介紹了一半的內(nèi)容。本篇推文算上一篇推文的延續(xù),繼續(xù)將數(shù)據(jù)質(zhì)控分析中剩下的部分介紹完畢。

一?命令與可視化結(jié)果

1.1?常染色上SNPs的獲得

因?yàn)槿梭w染色體中第1到第22號(hào)染色體均為常染色體,所以本教程通過(guò)unix中的awk命令提取1-22染色體的數(shù)據(jù),并存儲(chǔ)在snp_1_22.txt文件中。隨后,通過(guò)—extract和--freq參數(shù)分別進(jìn)行常染色體中SNPs信息的提取和MAF分布情況統(tǒng)計(jì)。再調(diào)用可視化腳本GWAS_analysis.R展示MAF分布情況(見(jiàn)圖1)。最后,通過(guò)--maf 0.05過(guò)濾掉MAF值較高的SNPs位點(diǎn)。

圖1 常染色SNPs的MAF分布情況統(tǒng)計(jì)

1.2 SNPs的HWP分布情況調(diào)查

本步驟主要是檢查所有SNP的HWP分布的p值,并選擇低于0.00001的SNP,并可視化存在強(qiáng)烈偏移的SNP(見(jiàn)圖2)。本教程使用兩個(gè)步驟,首先對(duì)控制使用嚴(yán)格的HWE閾值,然后對(duì)病例數(shù)據(jù)使用不太嚴(yán)格的閾值。。

注意:第二次篩選僅只關(guān)注病例樣本。

圖2 未過(guò)濾前所有樣本中SNPs的HWE分布

1.3?篩選符合雜合率要求的個(gè)體

本步驟的目標(biāo)是去除雜合率偏離平均值超過(guò)3 SD的個(gè)體。使用Rscript生成雜合率分布圖(見(jiàn)圖3),并進(jìn)行統(tǒng)計(jì)分析,輸出fail-het-qc.txt文件。當(dāng)使用我們的HapMap示例數(shù)據(jù)時(shí),該列表包含2個(gè)體(即兩個(gè)個(gè)體的雜合率雜合率偏離平均值超過(guò)3 SD)。調(diào)整這個(gè)文件,使其與PLINK兼容,從文件中去掉所有引號(hào),只選擇前兩列,從而完成雜合率異常值個(gè)體的篩除。

圖3 所有個(gè)體雜合率分布的統(tǒng)計(jì)

1.4?檢查數(shù)據(jù)集是否存在隱形關(guān)聯(lián)

檢查所分析的數(shù)據(jù)集的隱性親緣關(guān)系是至關(guān)重要的,所有高于pihat閾值0.2的個(gè)體可能會(huì)干擾GWAS的分析結(jié)果,因此需要進(jìn)行篩除。在本教程中,我們的目標(biāo)是去除數(shù)據(jù)集中的所有?"相關(guān)度"。HapMap數(shù)據(jù)集包含父母與子女的關(guān)系,而教程演示的目的,我們將親緣關(guān)系視為隨機(jī)人口樣本中的隱性親緣關(guān)系。通過(guò)使用z值具體地可視化這些親子關(guān)系,能夠生成一個(gè)圖來(lái)評(píng)估關(guān)系的類(lèi)型。通常情況下,基于家族的數(shù)據(jù)應(yīng)使用特定的基于家族的方法進(jìn)行分析。

首先,獲取pihat閾值低于0.2的個(gè)體,并去除創(chuàng)始者,可視化不同個(gè)體間的親緣關(guān)系。隨后,調(diào)用’--genome --min 0.2’以及0.2_low_call_rate_pihat.txt文件刪除pihat閾值低于0.2的個(gè)體和低召回率的個(gè)體。

圖4 ?放大尺度下(z0和z1均縮小到0.02)的親緣關(guān)系
圖5 全尺度下的親緣關(guān)系
圖6 所有樣品的Pihat分布

祝賀各位?。?!到這里,你已經(jīng)成功地完成了GWAS分析的第一步。后面,你就可以使用質(zhì)控之后的數(shù)據(jù)進(jìn)行適當(dāng)?shù)腉WAS分析啦。

二?慣例小結(jié)

通過(guò)上述內(nèi)容,我們完成了GWAS分析中質(zhì)控環(huán)節(jié)。這些結(jié)果的完成為我們后續(xù)的分析提供了堅(jiān)實(shí)可靠的依據(jù),也避免了因數(shù)據(jù)清洗不完全帶來(lái)的結(jié)果分析偏差。后續(xù)推文中,我們將以前人基因組為例,展示如何進(jìn)行完整的GWAS分析。可視化腳本也會(huì)在后面進(jìn)行介紹,歡迎大家持續(xù)關(guān)注

本公眾號(hào)開(kāi)發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號(hào)在其他平臺(tái)的賬戶(hù),也歡迎大家關(guān)注并多提意見(jiàn)。

簡(jiǎn)書(shū):WJ的生信小院

公眾號(hào):生信小院

博客園:生信小院

最后,也歡迎各位大佬能夠在本平臺(tái)上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對(duì)某一科研領(lǐng)域的看法;3:想要達(dá)成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機(jī)會(huì);5:博導(dǎo)提供博后工作或者博士攻讀機(jī)會(huì),都可以后臺(tái)給筆者留言。希望本平臺(tái)在進(jìn)行生信知識(shí)分享的同時(shí),能夠成為生信分析者的交流平臺(tái),能夠?qū)崿F(xiàn)相應(yīng)的利益互補(bǔ)和雙贏(yíng)(不一定能實(shí)現(xiàn),但是夢(mèng)想總得是有的吧)。

另外,怎么說(shuō)呢,投幣也可,不強(qiáng)求,但奢求。


GWAS分析<四>之?dāng)?shù)據(jù)質(zhì)控最終章的評(píng)論 (共 條)

使用qq登录你需要登录后才可以评论。
揭西县| 庆城县| 岐山县| 平武县| 砚山县| 昭觉县| 宜春市| 金平| 萝北县| 蒙山县| 墨竹工卡县| 织金县| 延安市| 桓仁| 新乐市| 龙里县| 肥东县| 年辖:市辖区| 吴桥县| 和静县| 迁安市| 宜良县| 温泉县| 手游| 汕头市| 安仁县| 潮安县| 牟定县| 甘肃省| 平罗县| 焉耆| 安义县| 烟台市| 古田县| 饶河县| 宁国市| 二连浩特市| 泾源县| 台中市| 阿合奇县| 琼中|