GWAS——復雜疾病相關的遺傳因素的研究方法及實操
爾云間? 一個專門做科研的團隊
? ?

前言:與復雜疾病相關的遺傳因素的研究方法
基于當前流行病學研究的進展及研究熱點,小果在這里為大家簡單介紹一下關于全基因組關聯(lián)研究(Genome-wide association study,GWAS)(以下簡稱GWAS)。全基因組關聯(lián)研究發(fā)展已有二十多年了,研究人員們發(fā)現(xiàn)了大量和人類疾病以及其它表型相關聯(lián)的基因,GWAS是現(xiàn)代遺傳學的重要組成部分,推動了孟德爾隨機化和多基因風險評分的發(fā)展與應用。
基本概念
GWAS是對多個個體在全基因組范圍的遺傳變異(標記)多態(tài)性進行檢測,獲得基因型,進而將基因型與可觀測的性狀,即表型,進行群體水平的統(tǒng)計學分析,根據(jù)統(tǒng)計量或顯著性 p 值篩選出最有可能影響該性狀的遺傳變異(標記),挖掘與性狀變異相關的基因。
相對于連鎖分析的優(yōu)勢
?關聯(lián)定位的相對優(yōu)勢:
? 分辨率高(單堿基水平)
? 研究材料來源廣泛,可捕獲的變異豐富
? 節(jié)省時間
材料選擇與群體設計
材料選擇的基本原則
1)遺傳變異和表型變異豐富
2)群體結構分化不能過于明顯(如亞種以上,發(fā)生生殖隔離是不能做GWAS的)
樣本量
非稀有變異中,對中等變異解釋率(10%左右)的位點的檢測功效要達到80%以上時,需要的樣本量在400左右。
位點的效應越低,需要的樣本量越大。
關聯(lián)分析的三要素
??測定某一群體的表型數(shù)據(jù)
??測量該群體的基因型數(shù)據(jù)
??進行關聯(lián)計算
實操
作為生信分析里最基礎的技能之一,有人花了很大的時間和精力都不能夠完成一次GWAS。

小果在這里用最簡單的數(shù)據(jù)和代碼跑一遍GWAS,希望能夠幫助大家更好的理解GWAS。

數(shù)據(jù):測試一組狗全基因組的遺傳變異與分類形狀(毛皮顏色)之間的關系。
操作系統(tǒng):Linux
1、下載樣品vcf文件和表型數(shù)據(jù)
Wget https://de.cyverse.org/dl/d/E0A502CC-F806-4857-9C3A-BAEAA0CCC694/pruned_coatColor_maf_geno.vcf.gz
wget https://de.cyverse.org/dl/d/3B5C1853-C092-488C-8C2F-CE6E8526E96B/coatColor.phen
2、解壓VCF文件之后 查看數(shù)據(jù)
gunzip pruned_coatColor_maf_geno.vcf.gz
#表型數(shù)據(jù) 前兩列也是FID and IID,第三列是表型。
##查看文件發(fā)現(xiàn),這個數(shù)據(jù)涉及53只小狗的476840個SNP,表型:24只黃毛犬 29只深色毛犬。
3、安裝pink和vcftools
###安裝plink
wget http://zzz.bwh.harvard.edu/plink/dist/plink-1.07-x86_64.zip
rm -f plink_linux_x86_64.zip
cd plink-1.07-x86_64/
echo export PATH=$PATH:$(pwd) >> ~/.bashrc
source ~/.bashrc
###安裝vcftools
git clone https://github.com/vcftools/vcftools.git
cd vcftools
./autogen.sh
./configure
make
sudo make install
當然也可以直接用conda 裝
4、將vcf文件轉換成map、ped格式,然后轉換為Plink二進制格式(fam,bed,bim)
vcftools --vcf pruned_coatColor_maf_geno.vcf --plink --out coatColor
?plink --file coatColor --allow-no-sex --dog --make-bed --noweb --out coatColor.binary

5、候選等位基因列表創(chuàng)建,awk編輯文本
cat pruned_coatColor_maf_geno.vcf | awk 'BEGIN{FS="\t";OFS="\t";}/#/{next;}{{if($3==".")$3=$1":"$2;}print $3,$5;}'? > alt_alleles
6、關聯(lián)分析
plink --bfile coatColor.binary --make-pheno coatColor.phen "yellow" --assoc --reference-allele alt_alleles --allow-no-sex --adjust --dog --noweb --out coatColor
7、畫圖
#數(shù)據(jù)處理
unad_cutoff_sug=$(tail -n+2 coatColor.assoc.adjusted | awk '$10>=0.05' | head -n1 | awk '{print $3}')
unad_cutoff_conf=$(tail -n+2 coatColor.assoc.adjusted | awk '$10>=0.01' | head -n1 | awk '{print $3}')
#R繪圖
data=read.table("coatColor.assoc", header=TRUE); data=data[!is.na(data$P),]
bitmap("coatColor_man.bmp", width=20, height=10)
library(qqman)
png(“man.pdf”)
manhattan(data, p = "P", col = c("blue4", "orange3"),suggestiveline = 12,genomewideline = 15,chrlabs = c(1:38, "X"), annotateTop=TRUE, cex = 1.2);
dev.off();
最后的結果圖和生成文件,是不是很簡單呢?關注小果,下期將為大家?guī)砀嗍褂蒙偶记伞?/p>
最后小果祝大家學業(yè)有成,事事順心。

推薦閱讀
R語言ConsensusClusterPlus包無監(jiān)督聚類