最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

拓端tecdat|R語(yǔ)言中實(shí)現(xiàn)廣義相加模型GAM和普通最小二乘(OLS)回歸

2021-07-15 11:01 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=20882?

原文出處:拓端數(shù)據(jù)部落公眾號(hào)

1導(dǎo)言

這篇文章探討了為什么使用廣義相加模型?是一個(gè)不錯(cuò)的選擇。為此,我們首先需要看一下線(xiàn)性回歸,看看為什么在某些情況下它可能不是最佳選擇。


?

2回歸模型

假設(shè)我們有一些帶有兩個(gè)屬性Y和X的數(shù)據(jù)。如果它們是線(xiàn)性相關(guān)的,則它們可能看起來(lái)像這樣:

為了檢查這種關(guān)系,我們可以使用回歸模型。線(xiàn)性回歸是一種使用X來(lái)預(yù)測(cè)變量Y的方法。將其應(yīng)用于我們的數(shù)據(jù)將預(yù)測(cè)成紅線(xiàn)的一組值:

這就是“直線(xiàn)方程式”。根據(jù)此等式,我們可以從直線(xiàn)在y軸上開(kāi)始的位置(“截距”或α)開(kāi)始描述,并且每個(gè)單位的x都增加了多少y(“斜率”),我們將它稱(chēng)為x的系數(shù),或稱(chēng)為β)。還有一點(diǎn)自然的波動(dòng),如果沒(méi)有的話(huà),所有的點(diǎn)都將是完美的。我們將此稱(chēng)為“殘差”(?)。數(shù)學(xué)上是:

或者,如果我們用實(shí)際數(shù)字代替,則會(huì)得到以下結(jié)果:

這篇文章通過(guò)考慮每個(gè)數(shù)據(jù)點(diǎn)和線(xiàn)之間的差異(“殘差)然后最小化這種差異來(lái)估算模型。我們?cè)诰€(xiàn)的上方和下方都有正誤差和負(fù)誤差,因此,通過(guò)對(duì)它們進(jìn)行平方并最小化“平方和”,使它們對(duì)于估計(jì)都為正。這稱(chēng)為“普通最小二乘法”或OLS。


?

3非線(xiàn)性關(guān)系如何?

因此,如果我們的數(shù)據(jù)看起來(lái)像這樣,我們?cè)撛趺崔k:

我們剛剛看到的模型的關(guān)鍵假設(shè)之一是y和x線(xiàn)性相關(guān)。如果我們的y不是正態(tài)分布的,則使用廣義線(xiàn)性模型?(Nelder&Wedderburn,1972),其中y通過(guò)鏈接函數(shù)進(jìn)行變換,但再次假設(shè)f(y)和x線(xiàn)性相關(guān)。如果不是這種情況,并且關(guān)系在x的范圍內(nèi)變化,則可能不是最合適的。我們?cè)谶@里有一些選擇:

  • 我們可以使用線(xiàn)性擬合,但是如果這樣做的話(huà),我們會(huì)在數(shù)據(jù)的某些部分上面或者下面。

  • 我們可以分為幾類(lèi)。我在下面的圖中使用了三個(gè),這是一個(gè)合理的選擇。同樣,我們可能處于數(shù)據(jù)某些部分之下或之上,而在類(lèi)別之間的邊界附近似乎是準(zhǔn)確的。例如,如果x = 49時(shí),與x = 50相比,y是否有很大不同?

  • 我們可以使用多項(xiàng)式之類(lèi)的變換。下面,我使用三次多項(xiàng)式,因此模型適合:

  • 。這些的組合使函數(shù)可以光滑地近似變化。這是一個(gè)很好的選擇,但可能會(huì)極端波動(dòng),并可能在數(shù)據(jù)中引起相關(guān)性,從而降低擬合度。


?

4樣條曲線(xiàn)

多項(xiàng)式的進(jìn)一步細(xì)化是擬合“分段”多項(xiàng)式,我們?cè)跀?shù)據(jù)范圍內(nèi)將多項(xiàng)式鏈在一起以描述形狀?!皹訔l線(xiàn)”是分段多項(xiàng)式,以繪圖員用來(lái)繪制曲線(xiàn)的工具命名。物理樣條曲線(xiàn)是一種柔性條,可以彎曲成形,并由砝碼固定。在構(gòu)造數(shù)學(xué)樣條曲線(xiàn)時(shí),我們有多項(xiàng)式函數(shù),二階導(dǎo)數(shù)連續(xù),固定在“結(jié)”點(diǎn)上。

下面是一個(gè)?對(duì)象,該?對(duì)象的??的公式包含?函數(shù)中的“自然三次樣條”? 。這種樣條曲線(xiàn)為“三次”

,并且使用10個(gè)結(jié)


?

5光滑函數(shù)

樣條曲線(xiàn)可以是光滑的或“搖擺的”,這可以通過(guò)改變節(jié)點(diǎn)數(shù)(k)或使用光滑懲罰γ來(lái)控制。如果我們?cè)黾咏Y(jié)的數(shù)目,它將更“搖擺”。這可能會(huì)更接近數(shù)據(jù),而且誤差也會(huì)更小,但我們開(kāi)始“過(guò)度擬合”關(guān)系,并擬合我們數(shù)據(jù)中的噪聲。當(dāng)我們結(jié)合光滑懲罰時(shí),我們會(huì)懲罰模型中的復(fù)雜度,這有助于減少過(guò)度擬合。


?

6廣義相加模型(GAM)

廣義加性模型(GAM)(Hastie,1984)使用光滑函數(shù)(如樣條曲線(xiàn))作為回歸模型中的預(yù)測(cè)因子。這些模型是嚴(yán)格可加的,這意味著我們不能像正?;貧w那樣使用交互項(xiàng),但是我們可以通過(guò)重新參數(shù)化作為一個(gè)更光滑的模型來(lái)實(shí)現(xiàn)同樣的效果。事實(shí)并非如此,但本質(zhì)上,我們正轉(zhuǎn)向一種模型,如:

摘自Wood?(2017)的GAM的更正式示例?是:

其中:

  • μi≡E(Yi),Y的期望

  • Yi?EF(μi,?i),Yi是一個(gè)響應(yīng)變量,根據(jù)均值μi和形狀參數(shù)?的指數(shù)族分布。

  • Ai是任何嚴(yán)格參數(shù)化模型分量的模型矩陣的一行,其中θ為對(duì)應(yīng)的參數(shù)向量。

  • fi是協(xié)變量xk的光滑函數(shù),其中k是每個(gè)函數(shù)的基礎(chǔ)。

如果您要建立回歸模型,但懷疑光滑擬合會(huì)做得更好,那么GAM是一個(gè)不錯(cuò)的選擇。它們適合于非線(xiàn)性或有噪聲的數(shù)據(jù)。
?

7 gam擬合

那么,如何?為上述S型數(shù)據(jù)建立?GAM模型?在這里,我將使用三次樣條回歸?:

上面的設(shè)置意味著:

  • s函數(shù)計(jì)算出要使用的默認(rèn)結(jié)數(shù),但是您可以將其更改為k=10,例如10個(gè)結(jié)。


?

8模型輸出:

查看模型摘要:

  • 顯示了我們截距的模型系數(shù),所有非光滑參數(shù)將在此處顯示

  • 每個(gè)光滑項(xiàng)的總體含義如下。

  • 這是基于“有效自由度”(edf)的,因?yàn)槲覀兪褂玫臉訔l函數(shù)可以擴(kuò)展為許多參數(shù),但我們也在懲罰它們并減少它們的影響。


?

9檢查模型:

該??函數(shù)可用于查看殘差圖,但它也可以測(cè)試光滑器以查看是否有足夠的結(jié)來(lái)描述數(shù)據(jù)。但是如果p值很低,則需要更多的結(jié)。


?

10它比線(xiàn)性模型好嗎?

讓我們對(duì)比具有相同數(shù)據(jù)的普通線(xiàn)性回歸模型:

我們的方差分析函數(shù)在這里執(zhí)行了f檢驗(yàn),我們的GAM模型明顯優(yōu)于線(xiàn)性回歸。

11小結(jié)

所以,我們看了什么是回歸模型,我們是如何解釋一個(gè)變量y和另一個(gè)變量x的。其中一個(gè)基本假設(shè)是線(xiàn)性關(guān)系,但情況并非總是這樣。當(dāng)關(guān)系在x的范圍內(nèi)變化時(shí),我們可以使用函數(shù)來(lái)改變這個(gè)形狀。一個(gè)很好的方法是在“結(jié)”點(diǎn)處將光滑曲線(xiàn)鏈接在一起,我們稱(chēng)之為“樣條曲線(xiàn)”

我們可以在常規(guī)回歸中使用這些樣條曲線(xiàn),但是如果我們?cè)贕AM的背景中使用它們,我們同時(shí)估計(jì)了回歸模型以及如何使我們的模型更光滑。

上面的示例顯示了基于樣條的GAM,其擬合度比線(xiàn)性回歸模型好得多。


?

12參考:

  • Nelder, J. A. & WEDDERBURN, R. W. M. 1972. Generalized Linear Models. Journal of the Royal Statistical Society. Series A (General), 135, 370-384.

  • HARRELL, F. E., JR. 2001. Regression Modeling Strategies, New York, Springer-Verlag New York.
    ?

最受歡迎的見(jiàn)解

1.R語(yǔ)言多元Logistic邏輯回歸 應(yīng)用案例

2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)

3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)

4.R語(yǔ)言泊松Poisson回歸模型分析案例

5.R語(yǔ)言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)

6.r語(yǔ)言中對(duì)LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)

7.在R語(yǔ)言中實(shí)現(xiàn)Logistic邏輯回歸

8.python用線(xiàn)性回歸預(yù)測(cè)股票價(jià)格

9.R語(yǔ)言如何在生存分析與Cox回歸中計(jì)算IDI,NRI指標(biāo)


拓端tecdat|R語(yǔ)言中實(shí)現(xiàn)廣義相加模型GAM和普通最小二乘(OLS)回歸的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
廊坊市| 海伦市| 新蔡县| 南江县| 庄河市| 安化县| 库伦旗| 台湾省| 陕西省| 鹤庆县| 宜春市| 阿鲁科尔沁旗| 济宁市| 晋江市| 永顺县| 康乐县| 化州市| 贞丰县| 文化| 双桥区| 灵宝市| 泰州市| 龙里县| 勐海县| 金坛市| 濉溪县| 图木舒克市| 阜南县| 合阳县| 建宁县| 莎车县| 武夷山市| 大连市| 阆中市| 邳州市| 伽师县| 邻水| 廊坊市| 渝北区| 晋中市| 宁城县|