R語言lasso懲罰稀疏加法(相加)模型SPAM擬合非線性數(shù)據(jù)和可視化
全文鏈接:https://tecdat.cn/?p=33462
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
本文將關(guān)注R語言中的LASSO(Least Absolute Shrinkage and Selection Operator)懲罰稀疏加法模型(Sparse Additive Model,簡稱SPAM)。SPAM是一種用于擬合非線性數(shù)據(jù)的強(qiáng)大工具,它可以通過估計(jì)非線性函數(shù)的加法組件來捕捉輸入變量與響應(yīng)變量之間的復(fù)雜關(guān)系。
通過本文,我們將展示如何幫助客戶在R語言中使用LASSO懲罰稀疏加法模型(SPAM)來擬合非線性數(shù)據(jù),并進(jìn)行相應(yīng)的可視化分析。
本文提供了一個(gè)代碼來設(shè)置、擬合和可視化加法模型。數(shù)值特征會(huì)自動(dòng)使用樣條基函數(shù)進(jìn)行擴(kuò)展。這個(gè)基本思想最早是由Ravikumar等人在2009年提出的,他們稱之為SPAM,即稀疏加法模型。最初的提議涉及到組套索lasso懲罰,但grpreg的任何懲罰函數(shù)都可以代替?;居梅ㄈ缦滤?。
非線性數(shù)據(jù):
dim(Data$X)# [1] 1000 ? 16
矩陣包含 16 個(gè)數(shù)字特征。
生成的對(duì)象是一個(gè)列表,其中包含擴(kuò)展矩陣和分組分配,以及一些內(nèi)部函數(shù)所需的元數(shù)據(jù)。使用具有三個(gè)自由度的自然三次樣條曲線。
現(xiàn)在可以將擴(kuò)展后的矩陣傳遞給 :grpreg()
fit <- grpreg
請(qǐng)注意,在這種情況下不必傳遞分組信息,因?yàn)榉纸M信息包含在對(duì)象中。
plot_spline(fit,
偏殘差也可包含在這些圖中:
plot_splinpartial=TRUE)
默認(rèn)情況下,這些圖的居中值為 x(的平均值(其中 x表示正在繪制的特征)的平均值為零時(shí),y值為零。另一種情況是,如果指定了plot_spline()x,則將繪制一幅縱軸代表模型預(yù)測值的曲線圖,所有其他特征都固定為平均值:
plot_spline(fit, "V02, type='conditional')
在比較這兩幅圖時(shí),請(qǐng)注意總體輪廓是相同的,唯一不同的是縱軸的值。下面是前 9 個(gè)系數(shù)的曲線圖:
for (i in 1:9) ploline(fit
在生成模型中,變量 3 和 4 與結(jié)果呈線性關(guān)系,變量 1、2、5 和 6 呈非線性關(guān)系,而所有其他變量均不相關(guān)。稀疏加法模型很好地捕捉到了這一點(diǎn)。
進(jìn)行交叉驗(yàn)證(默認(rèn)情況下會(huì)繪制出使交叉驗(yàn)證誤差最小的擬合結(jié)果):
cvfit <- cv.grpplot_line
最后,這些工具還可用于生存模型和 glm 模型。在這里,所有繪圖都以線性預(yù)測尺度返回,殘差為偏差殘差。
最受歡迎的見解
1.數(shù)據(jù)類崗位需求的數(shù)據(jù)面
2.探析大數(shù)據(jù)期刊文章研究熱點(diǎn)
3.機(jī)器學(xué)習(xí)助推快時(shí)尚精準(zhǔn)銷售預(yù)測
4.用機(jī)器學(xué)習(xí)識(shí)別不斷變化的股市狀況—隱馬爾科夫模型(HMM)的應(yīng)用
5.數(shù)據(jù)聆聽人民網(wǎng)留言板的那些“網(wǎng)事”
6.在r語言中使用GAM(廣義相加模型)進(jìn)行電力負(fù)荷時(shí)間序列分析
7.用數(shù)據(jù)解讀體育決策:挖掘體育賽事新價(jià)值
8.把握出租車行駛的數(shù)據(jù)脈搏
9.智能門鎖“剁手”數(shù)據(jù)攻略