GWAS——復(fù)雜疾病相關(guān)的遺傳因素的研究方法及實(shí)操

前言:與復(fù)雜疾病相關(guān)的遺傳因素的研究方法
? ? ?基于當(dāng)前流行病學(xué)研究的進(jìn)展及研究熱點(diǎn),小云在這里為大家簡(jiǎn)單介紹一下關(guān)于全基因組關(guān)聯(lián)研究(Genome-wide association study,GWAS)(以下簡(jiǎn)稱GWAS)。全基因組關(guān)聯(lián)研究發(fā)展已有二十多年了,研究人員們發(fā)現(xiàn)了大量和人類疾病以及其它表型相關(guān)聯(lián)的基因,GWAS是現(xiàn)代遺傳學(xué)的重要組成部分,推動(dòng)了孟德爾隨機(jī)化和多基因風(fēng)險(xiǎn)評(píng)分的發(fā)展與應(yīng)用。
一、基本概念:
? ? ?GWAS是對(duì)多個(gè)個(gè)體在全基因組范圍的遺傳變異(標(biāo)記)多態(tài)性進(jìn)行檢測(cè),獲得基因型,進(jìn)而將基因型與可觀測(cè)的性狀,即表型,進(jìn)行群體水平的統(tǒng)計(jì)學(xué)分析,根據(jù)統(tǒng)計(jì)量或顯著性 p 值篩選出最有可能影響該性狀的遺傳變異(標(biāo)記),挖掘與性狀變異相關(guān)的基因。
? ? ?相對(duì)于連鎖分析的優(yōu)勢(shì)
? 關(guān)聯(lián)定位的相對(duì)優(yōu)勢(shì):
? 1)分辨率高(單堿基水平)
? 2)研究材料來(lái)源廣泛,可捕獲的變異豐富
? 3)節(jié)省時(shí)間
? ?材料選擇與群體設(shè)計(jì)
材料選擇的基本原則
基本原則
1)遺傳變異和表型變異豐富
2)群體結(jié)構(gòu)分化不能過(guò)于明顯(如亞種以上,發(fā)生生殖隔離是不能做GWAS的)
樣本量
非稀有變異中,對(duì)中等變異解釋率(10%左右)的位點(diǎn)的檢測(cè)功效要達(dá)到80%以上時(shí),需要的樣本量在400左右。
位點(diǎn)的效應(yīng)越低,需要的樣本量越大。
? ? ?關(guān)聯(lián)分析的三要素:
1、測(cè)定某一群體的表型數(shù)據(jù)
2、測(cè)量該群體的基因型數(shù)據(jù)
3、進(jìn)行關(guān)聯(lián)計(jì)算
? ? ?實(shí)操:
作為生信分析里最基礎(chǔ)的技能之一,有人花了很大的時(shí)間和精力都不能夠完成一次GWAS,

小云在這里用最簡(jiǎn)單的數(shù)據(jù)和代碼跑一遍GWAS,希望能夠幫助大家更好的理解GWAS。
數(shù)據(jù):測(cè)試一組狗全基因組的遺傳變異與分類形狀(毛皮顏色)之間的關(guān)系。
操作系統(tǒng):Linux
1)、下載樣品vcf文件和表型數(shù)據(jù)
Wget?https://de.cyverse.org/dl/d/E0A502CC-F806-4857-9C3A-BAEAA0CCC694/pruned_coatColor_maf_geno.vcf.gz
wget https://de.cyverse.org/dl/d/3B5C1853-C092-488C-8C2F-CE6E8526E96B/coatColor.phen
?
2)、解壓VCF文件之后 查看數(shù)據(jù)
gunzip pruned_coatColor_maf_geno.vcf.gz
#表型數(shù)據(jù) 前兩列也是FID and IID,第三列是表型。
##查看文件發(fā)現(xiàn),這個(gè)數(shù)據(jù)涉及53只小狗的476840個(gè)SNP,表型:24只黃毛犬 29只深色毛犬
3)、安裝pink和vcftools
###安裝plink
wget http://zzz.bwh.harvard.edu/plink/dist/plink-1.07-x86_64.zip
rm -f plink_linux_x86_64.zip
cd plink-1.07-x86_64/
echo export PATH=$PATH:$(pwd) >> ~/.bashrc
source ~/.bashrc
###安裝vcftools
git clone https://github.com/vcftools/vcftools.git
cd vcftools
./autogen.sh
./configure
make
sudo make install
?
當(dāng)然也可以直接用conda 裝
4)、將vcf文件轉(zhuǎn)換成map、ped格式,然后轉(zhuǎn)換為Plink二進(jìn)制格式(fam,bed,bim)? ?
vcftools --vcf pruned_coatColor_maf_geno.vcf --plink --out coatColor
?plink --file coatColor --allow-no-sex --dog --make-bed --noweb --out coatColor.binary

5)、#候選等位基因列表創(chuàng)建,awk編輯文本
cat pruned_coatColor_maf_geno.vcf | awk?'BEGIN{FS="\t";OFS="\t";}/#/{next;}{{if($3==".")$3=$1":"$2;}print $3,$5;}' ?> alt_alleles
?
6)、關(guān)聯(lián)分析
plink --bfile coatColor.binary --make-pheno coatColor.phen "yellow" --assoc --reference-allele alt_alleles --allow-no-sex --adjust --dog --noweb --out coatColor
?
7)、畫圖
#數(shù)據(jù)處理
unad_cutoff_sug=$(tail -n+2 coatColor.assoc.adjusted | awk '$10>=0.05' | head -n1 | awk '{print $3}')
unad_cutoff_conf=$(tail -n+2 coatColor.assoc.adjusted | awk '$10>=0.01' | head -n1 | awk '{print $3}')
#R繪圖
data=read.table("coatColor.assoc", header=TRUE); data=data[!is.na(data$P),]
bitmap("coatColor_man.bmp", width=20, height=10)
library(qqman)
png(“man.pdf”)
manhattan(data, p = "P", col = c("blue4", "orange3"),suggestiveline = 12,genomewideline = 15,chrlabs = c(1:38, "X"), annotateTop=TRUE, cex = 1.2);
dev.off();
###最后的結(jié)果圖和生成文件,是不是很簡(jiǎn)單呢?關(guān)注小云,下期將為大家?guī)?lái)更多使用生信技巧。


最后小云祝大家學(xué)業(yè)有成,事事順心
