GWAS的群體分層:使用plink對(duì)基因型進(jìn)行PCA
相信各位在學(xué)習(xí)GWAS原理時(shí)對(duì)GWAS的作圖群體有了一定的了解,在林木、農(nóng)作物等生長(zhǎng)時(shí)間較長(zhǎng)的物種來(lái)說(shuō),構(gòu)建子代、RIL甚至NAM群體需要較長(zhǎng)的時(shí)間,在群體構(gòu)建完成之前,GWAS是少有的自然群體適合做的分析之一。盡管如此,受限于自然群體的特性,自然群體無(wú)法獲得明確的譜系,一般都是通過(guò)基因型PCA確定親緣關(guān)系,減少假陽(yáng)性。因此我們需要在關(guān)聯(lián)分析前對(duì)該群體做PCA分析,隨后將PCA結(jié)果作為協(xié)變量加入關(guān)聯(lián)分析中。
1.plink的安裝
plink2.0 網(wǎng)站:https://www.cog-genomics.org/plink/2.0/

Plink的二進(jìn)制文件支持Intel、AMD、M1等芯片。下載對(duì)應(yīng)的文件后使用make、configure安裝即可。
2.使用plink進(jìn)行PCA分析
運(yùn)行分析之前,需要自己準(zhǔn)備基因型數(shù)據(jù)。
plink --bfile myfile --pca 3 #這里只取前3個(gè)PCA結(jié)果,如果想取其他數(shù)值,請(qǐng)自行設(shè)置
輸出的結(jié)果文件中包括以下兩個(gè)文件
plink.eigenval,特征值,共有3行數(shù)據(jù),分別是3個(gè)PCA的特征值
plink.eigenvec,特征向量,第三四五列是3個(gè)PCA的特征向量,作圖用前兩個(gè)PCA
文件如圖所示

PCA的可視化:
library(tidyverse)
re1a=fread("plink.eigenval")
re1b=fread("plink.eigenvec")
?
re1a$por=re1a$V1/sum(re1a$V1)*100
head(re1a)
?
ggplot(re1b,aes(x=V3,y=V4))+geom_point()+
xlab(paste0("PC1(",round(re1a$por[1],2),"%)"))+
ylab(paste0("PC2(",round(re1a$por[2],2),"%)"))

如上圖所示,群體間存在明顯的群體分層,需要PCA結(jié)果作為協(xié)變量加入關(guān)聯(lián)分析中。如果gwas沒(méi)有明顯的信號(hào),可以將多個(gè)群體獨(dú)立進(jìn)行GWAS分析,然后再做meta分析。
至于meta分析怎么做,歡迎關(guān)注小云,小云將在后續(xù)繼續(xù)為您推出meta分析的教程。

