最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

案例 | 基于JMP Pro的Lasso及嶺回歸在水稻全基因組預(yù)測中的應(yīng)用

2021-01-07 14:06 作者:JMP數(shù)據(jù)分析  | 我要投稿

全基因組選擇是21世紀動植物育種的一種重要的選擇策略,其核心就是全基因組預(yù)測,即基于分布在整個基因組上的多樣性分子標記來對育種值進行預(yù)測,為個體的選擇提供依據(jù)。但目前提出的大多數(shù)全基因組預(yù)測方法都涉及到相當復(fù)雜的算法并要求使用者具備熟練的編程能力,因此很少在實際育種中得到有效的應(yīng)用。

本文作者利用JMP Pro在水稻全基因組預(yù)測中的應(yīng)用做了探索研究,運用JMP Pro中的兩種正則化回歸方法(Lasso和嶺回歸)預(yù)測產(chǎn)量及其相關(guān)性狀的育種值,為育種工作者在選擇應(yīng)用全基因組預(yù)測的分析工具方面提供了較好的參考。【本文載于湖北大學(xué)學(xué)報(自科版)2020年04期】


01 1分鐘快速了解全基因組選擇

全基因組選擇(genomic selection,GS),是利用分布在整個基因組上的分子標記來估算育種值的一種高效、經(jīng)濟的方法。它實質(zhì)上是估計所有基因或染色體片段的聯(lián)合效應(yīng),并結(jié)合這些效應(yīng)來預(yù)測基因組估計的育種值(genomic estimated breeding value,GEBV)。


由于GEBV的計算可以不依賴系譜記錄和表型信息,這就為早期選擇提供了可能,可以大幅度縮短育種年限,提高遺傳進展,降低育種成本。


02 預(yù)測分析之探索

2.1 實驗數(shù)據(jù)的收集
水稻的產(chǎn)量等性狀的原始數(shù)據(jù)來自Yu等[7],實驗人員將珍汕97 A和明恢63兩個水稻品種作為親本,雜交產(chǎn)生210個重組自交系(recombinant inbred lines,RIL),從這些重組自交系中收集4個產(chǎn)量相關(guān)性狀的表型數(shù)據(jù),它們分別是水稻產(chǎn)量(YD),千粒重(KGW),分蘗數(shù)(TP)和單株谷粒數(shù)(GN)。


將各個重復(fù)的性狀的平均表型值作為響應(yīng)變量?;蚪M數(shù)據(jù)由水稻基因組的約270,000個SNP推斷的1 619個組(bin)表示。組內(nèi)的所有SNP都具有完全相同的分離模式(完全的連鎖不平衡(LD)),因此來自一組的一個SNP足以代表整個組。

210個RIL的基因型編碼為:1代表珍汕97 A基因型,0代表明恢63基因型。


2.2 統(tǒng)計模型之Lasso回歸

在全基因組選擇中,預(yù)測變量的數(shù)目(p)通常遠遠大于個體的數(shù)目(n)。在這種情況下,普通最小二乘法(ordinary least-squares,OLS)的估計值具有很差的預(yù)測能力,因為標記效應(yīng)被視為固定效應(yīng),這導(dǎo)致預(yù)測變量之間的多重共線性和過度擬合,從而使該模型不可行。

Lasso是一種基于線性回歸模型的降維方法,對高維小樣本數(shù)據(jù)的稀疏模型十分有用,在基因表達譜分析中被廣泛應(yīng)用,是一種吸引人且極受歡迎的變量選擇方法。此外,Lasso及其擴展(包括彈性網(wǎng)和自適應(yīng)Lasso)已用于各種QTL作圖或基因組選擇研究。

2.3 統(tǒng)計模型之嶺回歸
如果有許多預(yù)測變量,則嶺回歸是理想的選擇。
嶺回歸往往優(yōu)于一般的全基因組選擇方法,因為它可以同時估計所有標記的影響。此外,嶺回歸方法比一般方法更適合于很少或沒有大效應(yīng)和許多小效應(yīng)的情況下的預(yù)測,與大多數(shù)數(shù)量性狀的情況一樣。

2.4 數(shù)據(jù)分析
由于目前大多數(shù)全基因組預(yù)測方法都需要使用者具備編程能力,例如R語言,Matlab等,這對于實際育種工作者來說是非常大的挑戰(zhàn)。


而JMP旗下的專業(yè)預(yù)測建模軟件JMP Pro無需編程,特別強調(diào)以統(tǒng)計方法的實際應(yīng)用為導(dǎo)向,其強大的分析能力、交互性及可視化能力,使用方便,尤其適合非統(tǒng)計專業(yè)的數(shù)據(jù)分析人員使用。因此,這里作者選用 JMP Pro進行數(shù)據(jù)分析。

Lasso回歸和嶺回歸均在JMP Pro“分析”菜單下“擬合模型 >廣義回歸”對話窗口中進行設(shè)置和運行。

利用“模型比較”命令對兩種預(yù)測方法的效果進行評價,用于比較預(yù)測效果的指標是決定系數(shù)(R2)、均方根誤差RASE(root average squared error)、平均絕對誤差A(yù)AE(average absolute error)和預(yù)測值與實際值的相關(guān)系數(shù)(r)。


03 Lasso回歸VS嶺回歸,孰更優(yōu)?

表1列出了用嶺回歸和Lasso回歸對產(chǎn)量、千粒重、分蘗數(shù)及單株谷粒數(shù)等4個性狀進行全基因組預(yù)測的模型性能和預(yù)測效果評價指標的估計值,并在圖1中對兩種預(yù)測方法和不同性狀的預(yù)測效果進行了比較。

表1 用Lasso回歸和嶺回歸對水稻4個性狀進行全基因組預(yù)測的效果
**表示相關(guān)系數(shù)在α=0.01的水平上具有統(tǒng)計學(xué)意義



圖1 各性狀的Lasso回歸和嶺回歸預(yù)測效果的比較

  • 決定系數(shù)(R2)反映的是模型的擬合優(yōu)度;

  • 均方根誤差RASE和平均絕對誤差A(yù)AE也是模型性能評價的常用指標,其中AAE受離群值影響較??;

  • 預(yù)測值與實際值的相關(guān)系數(shù)(r)在全基因組選擇中通常被用來衡量預(yù)測的準確性。

表1和圖1的結(jié)果表明,兩種預(yù)測方法對于4個性狀都有較好的預(yù)測效果(最小的r=0.7218),但Lasso回歸的模型擬合及預(yù)測效果一致地優(yōu)于嶺回歸,其中擬合最好的是千粒重的Lasso回歸預(yù)測模型(R2=0.9325),即模型解釋了該性狀變異的93.25%。

圖2是各性狀的實際值-預(yù)測值圖,從中可以看出嶺回歸預(yù)測值的變異性都大于Lasso回歸。對于這兩種預(yù)測方法,4個性狀的模型擬合及預(yù)測效果的次序為:千粒重 >分蘗數(shù) >單株谷粒數(shù)>產(chǎn)量。

圖2 各性狀的實際值-預(yù)測值圖
紅色ο代表嶺回歸,藍色+代表Lasso回歸


04 正確的預(yù)測分析工具,助力育種工作者事半功倍

本研究利用JMP Pro軟件對水稻組合珍汕97A×明恢63衍生的一個RIL群體的4個與產(chǎn)量相關(guān)的性狀進行了全基因組預(yù)測。

因為要從很少數(shù)目的表型觀察值估計大量的標記效應(yīng),而且標記之間可能有高度的共線性,所以采用了兩種正則化回歸方法——Lasso回歸和嶺回歸,這兩種方法都屬于懲罰模型,通過犧牲一些無偏性,可以大幅度減小方差,從而使整體的平均誤差低于無偏模型。

4個性狀的結(jié)果表明,這兩種預(yù)測方法都有較好的預(yù)測效果,但Lasso回歸在所有性狀中都優(yōu)于嶺回歸,而且Lasso回歸的運算速度遠遠快于嶺回歸。

另外,嶺回歸雖然可以將參數(shù)估計值向0進行收縮,但它不能將系數(shù)取值變?yōu)閲栏竦?,因此并沒有進行變量選擇的能力。

而Lasso回歸使用了與嶺回歸類似的懲罰項,并且在對模型進行控制的同時,還能夠進行變量選擇。比如在產(chǎn)量的Lasso回歸分析中,經(jīng)過兩輪迭代后,模型中只剩下34個對模型有貢獻的預(yù)測變量(標記),而在嶺回歸中,所有預(yù)測變量都沒有從模型中剔除(圖3)。其余性狀也有類似的情況。


圖3 產(chǎn)量的Lasso回歸(a)和嶺回歸(b)的解路徑圖
圖中的每一條線代表了一個預(yù)測變量的模型參數(shù)

基于以上的結(jié)果,我們認為可以運用JMP Pro軟件來對作物進行全基因組預(yù)測。對于所分析的4個水稻性狀而言,選用Lasso回歸比嶺回歸更好。工欲善其事必先利其器,選擇適合的預(yù)測分析工具,可助育種工作者事半功倍。

如果對JMP Pro的Lasso回歸與嶺回歸感興趣的話,歡迎申請JMP Pro試用評估,復(fù)制以下鏈接到瀏覽器即可申請:jmp.com/zh_cn/software/


案例 | 基于JMP Pro的Lasso及嶺回歸在水稻全基因組預(yù)測中的應(yīng)用的評論 (共 條)

分享到微博請遵守國家法律
田阳县| 内乡县| 汽车| 自贡市| 杭锦后旗| 棋牌| 南投县| 江门市| 新丰县| 金门县| 余姚市| 淮南市| 容城县| 汕头市| 黎城县| 清流县| 扶绥县| 贵南县| 金川县| 新竹县| 常熟市| 彰化县| 辉南县| 仪陇县| 马尔康县| 嵊泗县| 图们市| 通榆县| 五莲县| 舟曲县| 保定市| 许昌市| 大邑县| 刚察县| 探索| 麻江县| 阆中市| 乐安县| 利辛县| 上饶市| 罗平县|