GWAS分析<一>之原理介紹

本公眾號最近因為主業(yè)太忙,占據(jù)了大量的時間,因此,也拖更了很長一段時間了。不過想想,時間就像海綿,擠一擠總是有的。另外,也考慮到GWAS也是最近比較熱門的一種技術,自己后面可能也會用到,因此,也開辟一個教程,用來學習GWAS分析,分享一下踩過的坑和學習的心得。本文的話主要介紹一些GWAS的原理和需要使用的基本軟件,后續(xù)的推文將逐步介紹如何通過腳本撰寫,軟件調(diào)用,結(jié)果解讀完成GWAS分析。一 為什么要做GWAS

從上圖可以看出,有3類蘋果,分別是青蘋果(#1)、紅蘋果1(#2)、紅蘋果2(#3)。雖然,都是蘋果,但是不同的核苷酸突變導致果實的顏色出現(xiàn)差異。而對于生物而言,不同物種間存在成千上萬個單核苷酸的差異,即使是不同個體間,也存在數(shù)量不少的單核苷酸的差異。這些差異可能導致了物種多樣性,也可能導致個體間的表型差異。而為了研究這種差異,人們開發(fā)一種方法,通過將應用基因組中數(shù)以百萬計的單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)為分子遺傳標記,進行全基因組水平上的對照分析或相關性分析,比較發(fā)現(xiàn)影響復雜性狀的基因變異的一種新策略,也就是常說的全基因組水平關聯(lián)分析即GWAS分析。
二 GWAS分析之常用軟件
那么,對于這種分析,我們需要使用到哪些軟件呢。這里就為大家提幾種常見,也是本文后續(xù)會用到的幾個軟件plink、samtools、TASSEL、bwa、admixture、gatk。
PLINK: 該軟件提供了一個強大的、用戶友好的工具,用于對全基因組數(shù)據(jù)進行許多常見分析,包括但不限于數(shù)據(jù)轉(zhuǎn)存、質(zhì)控、親緣關系檢測分析、近交系數(shù)分析、連鎖不平衡值計算,單倍型分析等。
TASSEL:該軟件用于性狀關聯(lián)、進化模式、連鎖不平衡的評估。該軟件能夠為關聯(lián)映射提高了許多新的,強大的統(tǒng)計學方法,處理各種索引(包括插入和刪除)。
Admixture:用于群體結(jié)構分析。
Gatk:該軟件最初是為了人類遺傳學而開發(fā)的,但是后續(xù)經(jīng)過開發(fā)者的補充和迭代,現(xiàn)在已經(jīng)能夠用于處理處理Illumina測序技術產(chǎn)生的外顯子組和整個基因組,用于鑒定種系中DNA和RNAseq數(shù)據(jù)中SNP和INDEL,處理范圍包括細胞短變異體呼叫,拷貝數(shù)變異(CNV)和結(jié)構變異(SV)。
Bwa和samtools就不過多介紹了,熟悉測序的童鞋應該都知道這兩個軟件一個是比對軟件,一個是格式整理的軟件。
三 慣例小結(jié)
在當今大數(shù)據(jù)的背景下,通過GWAS分析挖掘snp,并將其作為育種的理論依據(jù),已經(jīng)成為現(xiàn)如今生信分析必須掌握的技能之一了。掌握了這么手藝,應該能幫助大家更好的找工作或者求學,為自己的技能樹上再點亮一個新方向。
本公眾號開發(fā)的相關軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號在其他平臺的賬戶,也歡迎大家關注并多提意見。
簡書:WJ的生信小院
公眾號:生信小院
博客園:生信小院
最后,也歡迎各位大佬能夠在本平臺上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對某一科研領域的看法;3:想要達成的合作或者相應的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機會;5:博導提供博后工作或者博士攻讀機會,都可以后臺給筆者留言。希望本平臺在進行生信知識分享的同時,能夠成為生信分析者的交流平臺,能夠?qū)崿F(xiàn)相應的利益互補和雙贏(不一定能實現(xiàn),但是夢想總得是有的吧)。
另外,怎么說呢,投幣也可,不強求,但奢求。


