震驚!這個快速找變異的方法你還不知道?
爾云間? 一個專門做科研的團隊
歡迎點贊+收藏+關(guān)注
生信人R語言學習必備
立刻擁有一個Rstudio賬號
開啟升級模式吧
(56線程,256G內(nèi)存,個人存儲1T)

各位生信狗們好呀,這里是攢錢買米諾地爾的小果子,今天咱來嘮嘮一個神奇的黑科技:BSA分析(Bulked Segregant Analysis)。
咱就是說,在咱生物學領(lǐng)域,基因突變一直是最關(guān)鍵的內(nèi)容之一。為了找到影響生物表型變異的基因,咱從QTL做到GWAS(都給我心疼小果三分鐘,小果可是做林木的),工作繁瑣而費時,但是,BSA的橫空出世,為尋找基因突變提供了一種更快、更便宜的方法。
BSA簡介:
首先BSA需要構(gòu)建遺傳群體(F2、BC、RIL),它的原理是將群體中的極端樣本進行測序,從而找出極端樣本之間的遺傳差異。該分析對窮逼課題組極其友好(回想當初小果的課題組,呆過的人才知道個中滋味),僅需要對親本進行重測序,子代的極端樣本混合成兩個混池(為什么是兩個?廢話,極端肯定有極大極小兩個?。瑢⒒斐匕凑諛颖緮?shù)量和基因組大小進行測序(怎么樣,是不是很便宜,GWAS測不起的苦有誰懂啊)。
BSA的原理:
SNP-index作為主流的BSA定位的算法,在2013年由Takagi提出(熱乎的新分析喲)。其原理為,子代分離群體中極端性狀的樣本構(gòu)建混池后以親本為參考基因組進行SNP calling,然后分析兩個混池等位基因頻率。與參考基因組不同的基因型的比例,就是為該位點的SNP-index。從下圖可以看到,兩個位點的SNP-index分別為0.4和1。SNP-index在1和-1處的峰即為與性狀相關(guān)的SNP。

實際情況當然不可能是理想狀態(tài),比如林木構(gòu)建分析群體困難(小果我哭死),親本數(shù)據(jù)缺失等。這時候就需要萬能的歐氏距離出馬了(how old are you)。
?

歐氏距離計算混池間的等位基因頻率,原理與SNP-index法類似,在實際分析中,我們會對一個滑窗內(nèi)所有位點的ED值進行擬合,消除抽樣偏差產(chǎn)生的假陽性。再去ED值的平方,放大ED值的差異,使定位區(qū)間更加明顯。

“生信果”,生信入門、R語言、生信圖解讀與繪制、軟件操作、代碼復現(xiàn)、生信硬核知識技能、服務(wù)器、生物信息學的教程,以及基于R的分析和可視化等原創(chuàng)內(nèi)容,一起見證小白和大佬的成長。