之數(shù)據(jù)質(zhì)控的原理,"> 之數(shù)據(jù)質(zhì)控的原理。">

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

GWAS分析<二>之數(shù)據(jù)質(zhì)控的原理

2022-11-25 14:03 作者:生信小院  | 我要投稿


對于一個組學分析項目而言,無論是轉(zhuǎn)錄組、基因組和蛋白組,第一步需要做的就是數(shù)據(jù)質(zhì)控。通過質(zhì)控,分析人員可以避免分析的結(jié)果受到前期實驗數(shù)據(jù)的影響。對于GWAS分析而言,樣本采集(樣本混雜)、DNA提?。ㄌ崛》椒ㄔ斐傻奶崛∑眯裕?、測序(探針、測序方法的誤差)等原因都可能干擾分析結(jié)果。因此,為保證好的結(jié)果,我們需要借助plink軟件對數(shù)據(jù)進行質(zhì)控,并使用R對質(zhì)控結(jié)果進行可視化。

一數(shù)據(jù)來源

需要注意的是,本次GWAS分析的數(shù)據(jù)來源分別為HapMap項目(the International HapMap Project千人基因組項目(the 1000 Genomesproject。其中,千人基因組項目數(shù)據(jù)比較大, 本教程會在下一章教大家如何使用最少的數(shù)據(jù)完成本次項目的分析。本次質(zhì)控所使用的軟件為Plink。如果該軟件接收的數(shù)據(jù)均為文本數(shù)據(jù)的話,則數(shù)據(jù)源為兩種:基因型數(shù)據(jù)(以ped為后綴)和包含基因標記的信息數(shù)據(jù)(以map為后綴)。但是,考慮到GWAS的輸入數(shù)據(jù)可能很大,因此,用戶可以將部分數(shù)據(jù)壓縮成二進制數(shù)據(jù)后再進行輸入。如果是二進制數(shù)據(jù),plink軟件需要的數(shù)據(jù)源為三類:包含獨立ID和基因型的數(shù)據(jù)(以bed為后綴,可能既包含病人樣本和正常樣本),包含個體信息的數(shù)據(jù)(以fam為后綴,包括遺傳信息、性別和臨床診斷結(jié)果),和基因標記的信息數(shù)據(jù)(以bim為結(jié)尾,包含snp的物理位置)。


圖1(Marees et al)

另外,PRS分析也包括在本次教程之內(nèi)。PRS分析即多基因風險分析(polygenic risk score),用來闡述SNP與疾病發(fā)生風險之間的關系。因為本項目僅使用了猶他州居民(祖先來自于北歐和西歐)的數(shù)據(jù),樣本較少,需要修改遺傳效應大?。ㄔO置的很大)完成PRS分析。如果PRS分析的樣本數(shù)較大,則需要檢測復雜性狀的遺傳風險因子。

二?GWAS分析中部分關鍵定義的解釋

Linkage disequilibrium (LD):給定群體中同一染色體不同位點等位基因之間非隨機關聯(lián)的度量。進行群體遺傳結(jié)構分析時,如果位點之間有強連鎖的關系則會影響分析的結(jié)果,因此需要過濾掉互相之間連鎖(LD)不平衡的SNP。

Minor allele frequency (MAF)?:特定位置出現(xiàn)頻率最低的等位基因的頻率。大多數(shù)研究在檢測與MAF較低的SNPs的關聯(lián)方面動力不足,因此排除這些SNPs。

Pruning:用于選擇處于近似連鎖平衡的標記子集的方法。通過軟件計算染色體特定區(qū)域內(nèi)SNPs之間的LD強度,并基于指定的LD閾值選擇近似不相關的SNPs。注意的是修剪不考慮SNP的p值。

Sex discrepancy:這是指定性別和基于基因型確定的性別之間的差異。差異可能來自于實驗室分析中樣本混合現(xiàn)象。注意,需要在對性染色體(X和Y)上的SNP進行評估后才能進行該測試。

The Hardy–Weinberg (dis)equilibrium (HWE)law:HWE原則僅與等位基因和基因型頻率之間的關系有關,并且需要基于一個假設,即存在無限大的群體,沒有選擇、突變或遷移。該定律的一個結(jié)論是基因型和等位基因頻率在世代之間是恒定的。違反HWE定律表明,基因型頻率與預期顯著不同(例如,如果等位基因A的頻率=0.20,等位基因T的頻率=0.80;基因型AT的預期頻率為2*0.2*0.8=0.32),觀察到的頻率不應顯著不同。在GWAS中,通常認為與HWE的偏差是基因分型錯誤的結(jié)果?;疾颖局械腍WE閾值通常不如對照組嚴格,因為患病樣本違反HWE法則可能表明真正的遺傳與疾病風險相關。

multidimensional scaling(MDS) approach:通過計算樣本中任何一對個體之間共享的等位基因的全基因組平均比例,以生成每個個體遺傳變異的定量指數(shù)(成分)。本分析類似于PCA分析,用于篩除每個種族或重復的離群樣本。

三?plink軟件的質(zhì)控參數(shù)

質(zhì)控分為七步:(1)個體與SNP缺失;(2)受試者的指定性別和遺傳性別不一致(見性別間差異);(3)次要等位基因頻率(MAF);(4)與哈代-溫伯格平衡(HWE)的偏差;(5)雜合率;(6)不同樣本的親緣性/關聯(lián)性;(7)種群異常值(通過人口分層,去除單個種群中離群個體)。下面是質(zhì)控時所需要使用到的一些參數(shù),可視化部分則是通過R腳本實現(xiàn)。

--geno:去除低表型相關的SNP特征

--mind:去除存在高比例遺傳缺失的個體

--check-sex:根據(jù)X染色體雜合/純合率檢查數(shù)據(jù)集中記錄的個體性別與性別之間的差異。

--maf:去除包括低于設定MAF閾值的SNP。

--hwe:去除偏離HWE原則的標記

--genome:根據(jù)所有樣本對的血緣同一性(identity by descent,IBD)的計算。

--min:設置閾值并創(chuàng)建關聯(lián)度高于所選閾值的個人列表。這意味著可以檢測到在pi-hat>0.2(即第二層級親緣性)等方面有關聯(lián)的受試者。

--cluster –mds-plot k:根據(jù)IBS生成數(shù)據(jù)中任何子結(jié)構的k維表示。

需要注意的是,質(zhì)控還需要排除雜合率高或低的個體,這個將在后面通過plink和R腳本進行分析和數(shù)據(jù)可視化。

三慣例小結(jié)

GWAS的分析的正確實施需要依賴多學科的理論知識,包括生物學、統(tǒng)計學、計算科學等。上文介紹的一些定義雖然不夠詳細,但對于本教程的實施已經(jīng)足夠了。如果讀者想要從更高的理論高度解釋這個GWAS結(jié)果,則需要在多個領域深耕。比如,使用GWAS分析社群中某個生理或精神疾病的發(fā)生機制,這可能需要了解社群所處社會背景,而這可能也需要一些社會學知識的背景。綜上所述,本教程僅僅介紹的是一個很簡單的案例,但是讀者可以在這種簡單的案例上繼續(xù)改良,從而挖掘出更多有效信息(順便發(fā)個大文章)

本公眾號開發(fā)的相關軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號在其他平臺的賬戶,也歡迎大家關注并多提意見。

簡書:WJ的生信小院

公眾號:生信小院

博客園:生信小院

最后,也歡迎各位大佬能夠在本平臺上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對某一科研領域的看法;3:想要達成的合作或者相應的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機會;5:博導提供博后工作或者博士攻讀機會,都可以后臺給筆者留言。希望本平臺在進行生信知識分享的同時,能夠成為生信分析者的交流平臺,能夠?qū)崿F(xiàn)相應的利益互補和雙贏(不一定能實現(xiàn),但是夢想總得是有的吧)。

另外,怎么說呢,投幣也可,不強求,但奢求。


GWAS分析<二>之數(shù)據(jù)質(zhì)控的原理的評論 (共 條)

分享到微博請遵守國家法律
永修县| 平安县| 白城市| 长乐市| 汨罗市| 江永县| 北辰区| 逊克县| 虹口区| 任丘市| 鄱阳县| 蛟河市| 保德县| 玉树县| 江永县| 治多县| 贵阳市| 古蔺县| 鱼台县| 杭州市| 开封县| 娄烦县| 拉萨市| 汉沽区| 广元市| 灌阳县| 甘洛县| 渭源县| 平陆县| 通榆县| 辉县市| 赤水市| 商河县| 晋江市| 天长市| 遂川县| 肇东市| 陆良县| 正安县| 广丰县| 北安市|