拓端tecdat|R語言多變量(多元)多項(xiàng)式曲線回歸線性模型分析母親吸煙對新生嬰兒體重影
原文鏈接:http://tecdat.cn/?p=26147?
原文出處:拓端數(shù)據(jù)部落公眾號
本文使用的數(shù)據(jù)集記錄了 1236 名新生嬰兒的體重,以及他們母親的其他協(xié)變量。
本研究的目的是測量吸煙對新生兒體重的影響。研究人員需要通過控制其他協(xié)變量(例如母親的體重和身高)來隔離其影響。這可以通過使用多元回歸模型來完成,例如,通過考慮權(quán)重? Y_i? 可以建模為
str(babis)
數(shù)據(jù)集的描述如下:
bwt
?是因變量,新生兒體重以盎司為單位。數(shù)據(jù)集使用 999 作為缺失值。gestation
?是懷孕的時間,以天為單位。999 是缺失值的代碼。parity
?第一胎使用 0,否則使用 1,缺失值使用 9。age
?是母親的年齡,整數(shù)。99 是缺失值。height
?是母親的身高。99 是缺失值。weight
?是母親的體重,以磅為單位。999 是一個缺失值。smoke
?是一個分類變量,表示母親現(xiàn)在是否吸煙 (1) (0)。9 是缺失值。
這個問題的研究人員想要判斷以下內(nèi)容:
吸煙的母親會增加早產(chǎn)率。
吸煙者的新生兒在每個胎齡都較小。
與母親的孕前身高和體重、產(chǎn)次、既往妊娠結(jié)局史或嬰兒性別(這最后兩個協(xié)變量不可用)相比,吸煙似乎是出生體重的一個更重要的決定因素。
我們將專注于第二個判斷
從str()命令中注意到,所有的變量都被存儲為整數(shù)。我將把缺失值轉(zhuǎn)換為NAs,這是R中缺失值的正確表示。
bwt == 999] <- NA
# 有多少觀察結(jié)果是缺失的?
sapply(babies, couna)
每當(dāng)您在 R 中使用函數(shù)時,請記住,默認(rèn)情況下它可能有也可能沒有 na-action。例如,該?mean()
?函數(shù)沒有,并且?NA
?在將缺少值的參數(shù)傳遞給它時簡單地返回:
sapply(babies, mean)
您可以通過檢查?mean()
?函數(shù)幫助來糾正它,通過一個參數(shù)?na.rm=TRUE
,它刪除了?NA
s。
sapply(babies, mean, na.rm = TRUE)
另一方面,?默認(rèn)情況下summary()
?會刪除?NA
s,并輸出找到的?NA
s 數(shù)量,這使其成為匯總數(shù)據(jù)時的首選。
summary(babies)
我們可以看到轉(zhuǎn)換因子顯示了不同的摘要,因?yàn)?summary() 操作根據(jù)變量類型而變化:
parity <- factor(parity, levels )
繪制數(shù)據(jù)是您應(yīng)該采取的第一個操作。我將使用?lattice
?包來繪制它,因?yàn)樗淖畲髢?yōu)勢在于處理多變量數(shù)據(jù)。
require(lattice)
xyplot
為了擬合多元回歸模型,我們使用命令?lm()
。
model <- lm(bwt ~ ., data = babies)
這是總結(jié):
summary(model)
注意R的默認(rèn)動作是刪除信息缺失的行。不過,如何解釋這些系數(shù)呢?
如果j協(xié)變量xj是實(shí)值,那么系數(shù)βj的值就是在其他協(xié)變量不變的情況下,將xij增加1個單位對Yi的平均影響。
如果j協(xié)變量xj是分類的,那么系數(shù)βj的值是對Yi從參考類別到指定水平的平均增量影響,而其他協(xié)變量保持不變。參考類別的平均值是截距(或參考類別,如果模型中有一個以上的分類協(xié)變量)。
為了驗(yàn)證這些假設(shè),R有一個繪圖方案。
?
殘差中的曲率表明,需要進(jìn)行一些轉(zhuǎn)換。嘗試取bwt的對數(shù),以獲得更好的擬合(與妊娠期相比)。?
summary(model.log)
為了簡單起見,我會保留線性模型。給妊娠期增加一個二次項(xiàng)可能有用。公式通常保存^作為交互作用的快捷方式,所以(妊娠期+煙)^2與妊娠期*煙或妊娠期+煙+妊娠期:煙相同。二次項(xiàng)。
改進(jìn)仍然很小,但它現(xiàn)在確實(shí)將觀察 261 顯示為異常值。這個觀察有什么問題?
babies[261, ]
我們可以看到,而母親的身高、年齡等都非常合理;這個嬰兒異常早產(chǎn)。因此,將他/她剔除出模型。
擬合度有所提高,但現(xiàn)在870號嬰兒顯示為異常值......這可以繼續(xù)下去,直到我們都滿意為止。你還會做哪些轉(zhuǎn)化?將吸煙和妊娠期交互作用會更好嗎?
最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機(jī)森林算法預(yù)測心臟病
8.python用線性回歸預(yù)測股票價格
9.R語言用邏輯回歸、決策樹和隨機(jī)森林對信貸數(shù)據(jù)集進(jìn)行分類預(yù)測