最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

育種技術(shù)的驕子:全基因組選擇

2021-10-15 15:48 作者:上海歐易生物  | 我要投稿

?

What is GS??

全基因組選擇(Genomic Selection,簡(jiǎn)稱(chēng)GS)這一概念由挪威生命科學(xué)大學(xué)的Theo Meuwissen 教授于2001年提出。它是一種利用覆蓋全基因組的高密度分子標(biāo)記進(jìn)行選擇育種的方法,可通過(guò)構(gòu)建預(yù)測(cè)模型,根據(jù)基因組估計(jì)育種值(Genomic Estimated Breeding Value, GEBV)進(jìn)行早期個(gè)體的預(yù)測(cè)和選擇,從而縮短世代間隔,加快育種進(jìn)程,節(jié)約大量成本。

野豬到家豬身體比例變化圖與玉米野生種到栽培種的變化圖



?GS預(yù)測(cè)模型?

統(tǒng)計(jì)模型是全基因組選擇的核心,極大地影響了預(yù)測(cè)的準(zhǔn)確度和效率。根據(jù)統(tǒng)計(jì)模型的不同,主要有以下幾類(lèi):


1、BLUP ALPHABET(BLUB系列)

又稱(chēng)為直接法,此方法把個(gè)體作為隨機(jī)效應(yīng),訓(xùn)練群體(參考群體)和預(yù)測(cè)群體(候選群體)遺傳信息構(gòu)建的親緣關(guān)系矩陣作為方差協(xié)方差矩陣,通過(guò)迭代法估計(jì)方差組分,進(jìn)而求解混合模型獲取待預(yù)測(cè)個(gè)體的估計(jì)育種值;

根據(jù)不同信息構(gòu)建的親緣關(guān)系矩陣可建立不同的模型,比如以傳統(tǒng)系譜矩陣構(gòu)建的ABLUP模型,以基因型矩陣構(gòu)建的GBLUP模型,以系譜和基因型結(jié)合矩陣構(gòu)建的ssBLUP模型(single-step BLUP)等(如下圖,BLUP發(fā)展歷程)。



2、BAYESIAN ALPHABET(貝葉斯系列)

又稱(chēng)為間接法,此方法則首先在訓(xùn)練群體(參考群體)中估計(jì)標(biāo)記效應(yīng),然后結(jié)合預(yù)測(cè)群體(候選群體)的基因型信息將標(biāo)記效應(yīng)進(jìn)行累加,最后獲得預(yù)測(cè)群體(候選群體)的個(gè)體估計(jì)育種值;


根據(jù)預(yù)先假定基因的數(shù)量和基因效應(yīng)值分布的不同,可以建立不同的貝葉斯模型,如BayesA、BayesB、BayesC、BayesCπ、Bayes LASSO等,其差別主要在于:是否所有標(biāo)記都有效應(yīng)值,標(biāo)記效應(yīng)是否符合相同分布以及標(biāo)記效應(yīng)方差服從何種分布。


簡(jiǎn)言之,直接法是通過(guò)構(gòu)建A/G/D/H等矩陣求解育種值,間接法是通過(guò)計(jì)算標(biāo)記效應(yīng)來(lái)獲得育種值。性狀遺傳構(gòu)建復(fù)雜多樣,目前還沒(méi)有一種模型能廣泛適用于所有性狀。間接法的假設(shè)更加復(fù)雜,但是更加符合性狀的遺傳構(gòu)建,對(duì)于性狀的遺傳解析具有很好的理論研究?jī)r(jià)值,缺陷是計(jì)算速度較慢,需要多次迭代才能達(dá)到收斂。


3、MACHINE LEARNING(ML,機(jī)器學(xué)習(xí))

機(jī)器學(xué)習(xí)(ML)是計(jì)算機(jī)科學(xué)的一個(gè)領(lǐng)域,它使用算法來(lái)獲得從經(jīng)驗(yàn)中自動(dòng)學(xué)習(xí)和改進(jìn)的能力,而無(wú)需明確編程。在大基因組數(shù)據(jù)分析中,與傳統(tǒng)統(tǒng)計(jì)方法相比,ML方法的一些主要優(yōu)勢(shì)包括:

1. 它們能夠處理“l(fā)arge p, small n”問(wèn)題;

2. 它們是black-box方法,不需要任何關(guān)于影響性狀的可靠變量分布或優(yōu)先遺傳模型的先驗(yàn)知識(shí);

3. 它們可以考慮特征之間的多重交互或相關(guān)性;


由于單個(gè)算法的過(guò)程中內(nèi)置了訓(xùn)練和驗(yàn)證程序,允許用戶預(yù)定義訓(xùn)練和驗(yàn)證數(shù)據(jù)集,或者允許ML對(duì)大量群體應(yīng)用隨機(jī)分配的交叉驗(yàn)證方法來(lái)預(yù)測(cè)個(gè)體表型,因此它們可以提供較高的預(yù)測(cè)精度;


親屬關(guān)系矩陣(kinship matrix)在工程領(lǐng)域被稱(chēng)為“kernel”。親屬關(guān)系矩陣K可以自身相乘,從而導(dǎo)出一個(gè)新的kernel K2=K'K。這個(gè)過(guò)程可以迭代,直到乘法沒(méi)有進(jìn)一步的變化。在矩陣乘法趨于均衡的過(guò)程中,乘法的最佳水平可以通過(guò)機(jī)器學(xué)習(xí)的典型訓(xùn)練過(guò)程來(lái)確定,eg. 通過(guò)將整個(gè)群體劃分為訓(xùn)練和測(cè)試群體。最近,機(jī)器學(xué)習(xí)在基因組預(yù)測(cè)中的應(yīng)用已經(jīng)擴(kuò)展到機(jī)器學(xué)習(xí)的許多領(lǐng)域,包括神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)等,這里只介紹幾種用于基因組預(yù)測(cè)的機(jī)器學(xué)習(xí)方法,包括支持向量回歸、隨機(jī)森林、Gradient Boosting Machine和深度學(xué)習(xí)。


3.1 支持向量回歸(Support Vector Regression,SVR)

支持向量機(jī)(Support Vector Machine,SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來(lái)的算法,是一種典型的非參數(shù)方法,屬于監(jiān)督學(xué)習(xí)方法。SVM的一個(gè)特點(diǎn)是它能同時(shí)最小化包含模型復(fù)雜度和訓(xùn)練數(shù)據(jù)誤差的目標(biāo)函數(shù),可以基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,兼顧了模型擬合和訓(xùn)練樣本的復(fù)雜性,尤其是當(dāng)我們對(duì)自己的群體數(shù)據(jù)不夠了解時(shí),SVM或許是基因組預(yù)測(cè)的備選方法。SVR通過(guò)使用kernel functions將輸入空間映射到高維特征空間,利用線性模型實(shí)現(xiàn)非線性回歸。


3.2 Random Forest (RF) and Gradient Boosting Machine (GBM)

RF和GBM都是基于決策樹(shù)的集成方法。RF和GBM之間的主要區(qū)別在于,RF中的決策樹(shù)是獨(dú)立生成的,其中個(gè)體特征(例如SNP)的更替和預(yù)測(cè)誤差由可變重要性度量值表示(variable importance measurement value),它是通過(guò)平均包含特定特征的所有決策樹(shù)的預(yù)測(cè)誤差來(lái)計(jì)算的。GBM通過(guò)許多“weak learners”(例如,SNP的小子集)的逐步組合來(lái)構(gòu)建預(yù)測(cè)模型。


3.3 Deep learning

深度學(xué)習(xí)(Deep learning)是另一類(lèi)ML方法,可用于有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)。它通過(guò)使用多層單元(神經(jīng)元)從輸入數(shù)據(jù)中獲得代表性信息。每個(gè)神經(jīng)元計(jì)算其輸入的加權(quán)和,加權(quán)和通過(guò)非線性函數(shù)傳遞。然后,每個(gè)層將輸入數(shù)據(jù)轉(zhuǎn)換為越來(lái)越抽象的表示形式。使用輸入數(shù)據(jù)為該神經(jīng)網(wǎng)絡(luò)尋找最佳權(quán)重是深度學(xué)習(xí)的目標(biāo)。


目前已經(jīng)有研究表明,在存在顯性和上位性的情況下,非參數(shù)機(jī)器學(xué)習(xí)方法BART(Bayesian additive regression trees)與隨機(jī)森林、BLASSO、GBLUP和RKHS回歸方法相比,給出了更小的基因組預(yù)測(cè)誤差和更高的表型值預(yù)測(cè)精度。使用模擬數(shù)據(jù)集(一個(gè)性狀),比較了三種機(jī)器學(xué)習(xí)方法(RF、GBM和SVM)對(duì)性狀的基因組育種值(GEBVs)的預(yù)測(cè)準(zhǔn)確性,發(fā)現(xiàn)GBM表現(xiàn)最好,其次是SVM,然后是RF。比較遺憾的是研究并沒(méi)有在真實(shí)數(shù)據(jù)集中評(píng)估這些方法的效率,也沒(méi)有選擇用于基因組預(yù)測(cè)的SNPs子集。總的來(lái)說(shuō),在存在顯性和上位性的情況下ML方法預(yù)測(cè)的效果確實(shí)優(yōu)于傳統(tǒng)線性統(tǒng)計(jì)模型,特別是多種ML方法組合預(yù)測(cè)效果。



?GS預(yù)測(cè)準(zhǔn)確性評(píng)估?

交叉驗(yàn)證是在建立模型和驗(yàn)證模型參數(shù)時(shí)常用的辦法,一般被用于評(píng)估一個(gè)模型的表現(xiàn)。更多的情況下,我們也用交叉驗(yàn)證來(lái)進(jìn)行模型選擇(model selection)。

一般有下面三種方法:


1)簡(jiǎn)單交叉驗(yàn)證

隨機(jī)將樣本數(shù)據(jù)集分為兩部分(比如:70%的訓(xùn)練集,30%的測(cè)試集),然后用訓(xùn)練集來(lái)訓(xùn)練模型,在測(cè)試集上驗(yàn)證模型及參數(shù)。隨后將樣本打亂,重新選擇訓(xùn)練集和測(cè)試集,繼續(xù)訓(xùn)練數(shù)據(jù)和檢驗(yàn)?zāi)P?。最后選擇損失函數(shù)評(píng)估最優(yōu)的模型和參數(shù)。

2)K折交叉驗(yàn)證(K-Folder Cross Validation)

是經(jīng)常用到的一種驗(yàn)證方法,與第一種不同,K折交叉驗(yàn)證先將數(shù)據(jù)集D隨機(jī)劃分為K個(gè)大小相同的互斥子集,每次隨機(jī)選擇K-1份作為訓(xùn)練集,剩下一份做測(cè)試集。當(dāng)這一輪完成后,下一輪重新隨機(jī)選擇K-1份來(lái)訓(xùn)練數(shù)據(jù),最后多輪結(jié)果取均值。


3)留一交叉驗(yàn)證(Leave-one-out Cross Validation)

是K折交叉驗(yàn)證的特例,即K等于樣本數(shù)N。每次N-1樣本訓(xùn)練,留一個(gè)樣本驗(yàn)證。一般用于樣本量很少的情況(如小于50)。



?參考文獻(xiàn)?

[1]McGowan M, Wang J, Dong H, et al. Ideas in genomic selection with the potential to transform plant molecular breeding: A review[J]. 2020.

[2]尹立林, 馬云龍, 項(xiàng)韜, 朱猛進(jìn), 余梅, 李新云, 劉小磊, 趙書(shū)紅. 全基因組選擇模型研究進(jìn)展及展望[J]. 畜牧獸醫(yī)學(xué)報(bào), 2019, 50(2): 233-242.

[3]Moser G, Tier B, Crump R E, et al. A comparison of five methods to predict genomic breeding values of dairy bulls from genome-wide SNP markers[J]. Genetics Selection Evolution, 2009, 41(1): 1-16.

[4]Li B, Zhang N, Wang Y G, et al. Genomic prediction of breeding values using a subset of SNPs identified by three machine learning methods. Front Genet 9: 1–20[J]. 2018.

[5]Montesinos-López O A, Martín-Vallejo J, Crossa J, et al. New deep learning genomic-based prediction model for multiple traits with binary, ordinal, and continuous phenotypes[J]. G3: Genes, genomes, genetics, 2019, 9(5): 1545-1556.


育種技術(shù)的驕子:全基因組選擇的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
泾源县| 福建省| 平遥县| 乐业县| 亚东县| 聂拉木县| 吴川市| 开阳县| 清水县| 鄯善县| 共和县| 岗巴县| 宁化县| 白玉县| 南丰县| 资阳市| 咸宁市| 探索| 涟源市| 二连浩特市| 鲁甸县| 恩施市| 高淳县| 霍山县| 济阳县| 阿拉善右旗| 拜城县| 长岛县| 上饶县| 淅川县| 沙河市| 清水县| 桓仁| 郑州市| 高碑店市| 镇远县| 平谷区| 峡江县| 盘山县| 淮滨县| 商南县|