數(shù)據(jù)分享|多變量多元多項(xiàng)式曲線回歸線性模型分析母親吸煙對(duì)新生嬰兒體重影響可視化|附
全文鏈接:http://tecdat.cn/?p=26147?
本文使用的數(shù)據(jù)集記錄了 1236 名新生嬰兒的體重(查看文末了解數(shù)據(jù)獲取方式),以及他們母親的其他協(xié)變量
本研究的目的是測(cè)量吸煙對(duì)新生兒體重的影響。研究人員需要通過控制其他協(xié)變量(例如母親的體重和身高)來隔離其影響。這可以通過使用多元回歸模型來完成,例如,通過考慮權(quán)重? Y_i ?可以建模為
str(babis)
數(shù)據(jù)集的描述如下:
bwt
?是因變量,新生兒體重以盎司為單位。數(shù)據(jù)集使用 999 作為缺失值。gestation
?是懷孕的時(shí)間,以天為單位。999 是缺失值的代碼。parity
?第一胎使用 0,否則使用 1,缺失值使用 9。age
?是母親的年齡,整數(shù)。99 是缺失值。height
?是母親的身高。99 是缺失值。weight
?是母親的體重,以磅為單位。999 是一個(gè)缺失值。smoke
?是一個(gè)分類變量,表示母親現(xiàn)在是否吸煙 (1) (0)。9 是缺失值。
這個(gè)問題的研究人員想要判斷以下內(nèi)容:
吸煙的母親會(huì)增加早產(chǎn)率。
吸煙者的新生兒在每個(gè)胎齡都較小。
與母親的孕前身高和體重、產(chǎn)次、既往妊娠結(jié)局史或嬰兒性別(這最后兩個(gè)協(xié)變量不可用)相比,吸煙似乎是出生體重的一個(gè)更重要的決定因素。
我們將專注于第二個(gè)判斷:
從str()命令中注意到,所有的變量都被存儲(chǔ)為整數(shù)。我將把缺失值轉(zhuǎn)換為NAs,這是R中缺失值的正確表示。
bwt?==?999]?<-?NA#?有多少觀察結(jié)果是缺失的?sapply(babies,?couna)
每當(dāng)您在 R 中使用函數(shù)時(shí),請(qǐng)記住,默認(rèn)情況下它可能有也可能沒有 na-action。例如,該?mean()
?函數(shù)沒有,并且?NA
?在將缺少值的參數(shù)傳遞給它時(shí)簡(jiǎn)單地返回:
sapply(babies,?mean)
您可以通過檢查?mean()
?函數(shù)幫助來糾正它,通過一個(gè)參數(shù)?na.rm=TRUE
,它刪除了?NA
s。
sapply(babies,?mean,?na.rm?=?TRUE)
另一方面,?默認(rèn)情況下summary()
?會(huì)刪除?NA
s,并輸出找到的?NA
s 數(shù)量,這使其成為匯總數(shù)據(jù)時(shí)的首選。
summary(babies)
我們可以看到轉(zhuǎn)換因子顯示了不同的摘要,因?yàn)?summary() 操作根據(jù)變量類型而變化:
parity?<-?factor(parity,?levels?)
繪制數(shù)據(jù)是您應(yīng)該采取的第一個(gè)操作。我將使用?lattice
?包來繪制它,因?yàn)樗淖畲髢?yōu)勢(shì)在于處理多變量數(shù)據(jù)。
require(lattice)
xyplot
為了擬合多元回歸模型,我們使用命令?lm()
。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
使用R語言進(jìn)行多項(xiàng)式回歸、非線性回歸模型曲線擬合
左右滑動(dòng)查看更多
01
02
03
04
model?<-?lm(bwt?~?.,?data?=?babies)
這是總結(jié):
summary(model)
注意R的默認(rèn)動(dòng)作是刪除信息缺失的行。不過,如何解釋這些系數(shù)呢?
如果j協(xié)變量xj是實(shí)值,那么系數(shù)βj的值就是在其他協(xié)變量不變的情況下,將xij增加1個(gè)單位對(duì)Yi的平均影響。
如果j協(xié)變量xj是分類的,那么系數(shù)βj的值是對(duì)Yi從參考類別到指定水平的平均增量影響,而其他協(xié)變量保持不變。參考類別的平均值是截距(或參考類別,如果模型中有一個(gè)以上的分類協(xié)變量)。
為了驗(yàn)證這些假設(shè),R有一個(gè)繪圖方案。
殘差中的曲率表明,需要進(jìn)行一些轉(zhuǎn)換。嘗試取bwt的對(duì)數(shù),以獲得更好的擬合(與妊娠期相比)。
summary(model.log)
為了簡(jiǎn)單起見,我會(huì)保留線性模型。給妊娠期增加一個(gè)二次項(xiàng)可能有用。公式通常保存^作為交互作用的快捷方式,所以(妊娠期+煙)^2與妊娠期*煙或妊娠期+煙+妊娠期:煙相同。
改進(jìn)仍然很小,但它現(xiàn)在確實(shí)將觀察樣本 261 顯示為異常值。這個(gè)觀察有什么問題?
babies[261,?]
我們可以看到,而母親的身高、年齡等都非常合理;這個(gè)嬰兒異常早產(chǎn)。因此,將他/她剔除出模型。
擬合度有所提高,但現(xiàn)在870號(hào)嬰兒顯示為異常值......這可以繼續(xù)下去,直到我們都滿意為止。你還會(huì)做哪些轉(zhuǎn)化?將吸煙和妊娠期交互作用會(huì)更好嗎?
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
面板平滑轉(zhuǎn)換回歸(PSTR)分析案例實(shí)現(xiàn)
R語言時(shí)變面板平滑轉(zhuǎn)換回歸模型TV-PSTR分析債務(wù)水平對(duì)投資的影響
面板平滑轉(zhuǎn)換回歸(PSTR)分析案例實(shí)現(xiàn)
R語言自適應(yīng)平滑樣條回歸分析
R語言時(shí)間序列數(shù)據(jù)指數(shù)平滑法分析交互式動(dòng)態(tài)可視化
R語言中的廣義線性模型(GLM)和廣義相加模型(GAM):多元(平滑)回歸分析保險(xiǎn)資金投資組合信用風(fēng)險(xiǎn)敞口
R語言預(yù)測(cè)人口死亡率:用李·卡特(Lee-Carter)模型、非線性模型進(jìn)行平滑估計(jì)
基于R統(tǒng)計(jì)軟件的三次樣條和平滑樣條模型數(shù)據(jù)擬合及預(yù)測(cè)
R語言實(shí)現(xiàn)CNN(卷積神經(jīng)網(wǎng)絡(luò))模型進(jìn)行回歸數(shù)據(jù)分析
R語言中的多項(xiàng)式回歸、B樣條曲線(B-spline Curves)回歸
R語言泊松Poisson回歸模型分析案例
在R語言中實(shí)現(xiàn)Logistic邏輯回歸
R語言用多項(xiàng)式回歸和ARIMA模型預(yù)測(cè)電力負(fù)荷時(shí)間序列數(shù)據(jù)
R語言用邏輯回歸、決策樹和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)
R語言機(jī)器學(xué)習(xí)實(shí)戰(zhàn)之多項(xiàng)式回歸
R語言自適應(yīng)平滑樣條回歸分析
R語言區(qū)間數(shù)據(jù)回歸分析
R語言邏輯回歸和泊松回歸模型對(duì)發(fā)生交通事故概率建模R語言線性回歸和時(shí)間序列分析北京房?jī)r(jià)影響因素可視化案例
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
R語言用標(biāo)準(zhǔn)最小二乘OLS,廣義相加模型GAM?,樣條函數(shù)進(jìn)行邏輯回歸LOGISTIC分類
R語言實(shí)現(xiàn)CNN(卷積神經(jīng)網(wǎng)絡(luò))模型進(jìn)行回歸數(shù)據(jù)分析
R語言中實(shí)現(xiàn)廣義相加模型GAM和普通最小二乘(OLS)回歸
R語言中使用非凸懲罰函數(shù)回歸(SCAD、MCP)分析前列腺數(shù)據(jù)
【視頻】R語言實(shí)現(xiàn)CNN(卷積神經(jīng)網(wǎng)絡(luò))模型進(jìn)行回歸數(shù)據(jù)分析
R語言ISLR工資數(shù)據(jù)進(jìn)行多項(xiàng)式回歸和樣條回歸分析
R語言中的多項(xiàng)式回歸、局部回歸、核平滑和平滑樣條回歸模型
R語言隨機(jī)搜索變量選擇SSVS估計(jì)貝葉斯向量自回歸(BVAR)模型
R語言如何和何時(shí)使用glmnet嶺回歸
R語言基于線性回歸的資本資產(chǎn)定價(jià)模型(CAPM)
Matlab馬爾可夫區(qū)制轉(zhuǎn)換動(dòng)態(tài)回歸模型估計(jì)GDP增長(zhǎng)率
R語言MCMC:Metropolis-Hastings采樣用于回歸的貝葉斯估計(jì)