R語(yǔ)言MCMC的lme4二元對(duì)數(shù)Logistic邏輯回歸混合效應(yīng)模型分析吸煙、喝酒和賭博影響數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=29196?
全文出處:拓端數(shù)據(jù)部落公眾號(hào)
?
吸煙、喝酒和賭博被認(rèn)為是由許多因素造成的。Logistic回歸分析是一個(gè)非常有效的模型,可以檢驗(yàn)各種解釋變量和二元反應(yīng)變量之間的關(guān)系。同時(shí),雙變量模型分析也被用于檢驗(yàn)單變量模型之間的相關(guān)性。本項(xiàng)目的目的是利用統(tǒng)計(jì)方法來(lái)檢驗(yàn)?zāi)硞€(gè)因素是否對(duì)吸煙、喝酒或賭博偏好有顯著影響。然后用這個(gè)結(jié)果來(lái)預(yù)測(cè)這些習(xí)慣之間的組合。
緒論?
本章介紹了 "解釋吸煙喝酒和賭博的參與 "的研究背景。實(shí)際上,由于吸煙、喝酒和賭博的雙重性和復(fù)雜性,它們的爭(zhēng)論從未停止。大量的人把吸煙、喝酒和賭博當(dāng)作壞習(xí)慣,有許多原因使他們反對(duì)這些習(xí)慣,許多研究也支持他們的觀點(diǎn)。
文獻(xiàn)回顧
涉及吸煙、飲酒和賭博習(xí)慣的關(guān)聯(lián)的文獻(xiàn)越來(lái)越多。在早期的研究中,許多研究者認(rèn)為,吸煙、喝酒和賭博有明顯的結(jié)合。每天吸煙的人比非每天吸煙的人更有可能參與賭博活動(dòng)。每日吸煙者比非每日吸煙者在賭博上花費(fèi)更多的時(shí)間和金錢(Nancy M. Petry和Cheryl Oncken,2002)。
方法論
模型假設(shè)
從數(shù)據(jù)集來(lái)看,吸煙、喝酒和賭博的反應(yīng)顯然只有是或不是,這是二進(jìn)制的。而且,所有的解釋因素都可以被歸類或被視為連續(xù)的。因此,使用Logistic回歸作為基本模型是可靠的。
基礎(chǔ)知識(shí)。Logistic回歸可以是二元的,也可以是多元的。在二進(jìn)制中,結(jié)果只能是0或1,而在多進(jìn)制中,結(jié)果可以是三個(gè)或更多,例如,A、B和C三個(gè)級(jí)別。
Logistic函數(shù)是
然后
?
如果有多個(gè)解釋變量,上述表達(dá)式β0+β1x可以修改為β0+β1x1+β2x2+...。+ βmxm。在這種情況下,我們假設(shè):Y1=吸煙,Y2=喝酒,Y3=賭博。我們有8個(gè)解釋者,每個(gè)解釋者可以分為幾個(gè)類別。因此
和
其中i = 1, 2, 3
那么,如果吸煙,y1=1,否則y1=0。
y2 = 1,如果喝酒,y2 = 0,否則。
y3=1,如果賭博,y3=0,否則。?
?此外,隨機(jī)效應(yīng)也應(yīng)該被添加到模型中。
帶隨機(jī)效應(yīng)的Logistic回歸
分析數(shù)據(jù)
以下顯示了我們?nèi)绾芜M(jìn)行這項(xiàng)研究。首先,我們參考文獻(xiàn)和以前所做的研究,以確定那些被認(rèn)為對(duì)吸煙、喝酒和賭博有重大影響的潛在變量。
結(jié)果
在這一部分中,我們將對(duì)單一分類的解釋因素進(jìn)行分析。首先,將使用箱形圖來(lái)顯示連續(xù)變量與吸煙、飲酒和賭博等的關(guān)聯(lián)。箱形圖將顯示連續(xù)變量與Yi的關(guān)系。同時(shí),條形圖將被用來(lái)顯示分類變量的影響。
吸煙結(jié)果
ggplot(smoke_age,aes(as.factor(smoking),age))+
geom_boxplot()+labs(title="Smoking-age",x="smoking",y="age")
從圖1可以看出,吸煙者的年齡中位數(shù)比非吸煙者小。吸煙者的年齡段在18至87歲之間,而非吸煙者則分布在各個(gè)年齡段。該圖表明,年輕人更有可能吸煙。年齡對(duì)吸煙有明顯的影響,年齡的估計(jì)值為-0.1017,這意味著吸煙和年齡有負(fù)相關(guān)。
ggplot(smoke_gender, aes(gender,fill=as.factor(smoking)))+
geom_bar(position = "fill")+
labs(title ="Smoking-gender", x = "gender", y = "smoking")
參照?qǐng)D2,1代表吸煙者,0代表不吸煙者。圖中顯示,男性吸煙者比女性吸煙者多一點(diǎn),這意味著性別對(duì)吸煙偏好有影響。R輸出也給出了同樣的結(jié)論,P值是顯著的,男性的估計(jì)值為0.20793,這意味著男性更可能吸煙。
?
圖3表明,教育水平對(duì)吸煙習(xí)慣有顯著影響。吸煙的概率按照教育水平的順序排列。擁有較高教育水平的人吸煙的可能性較小。盡管數(shù)據(jù)不詳,但很明顯,擁有學(xué)位的人最不可能吸煙,而沒(méi)有學(xué)歷的人最可能吸煙。HNC組的吸煙者比EDU-18以下組少。圖4右側(cè)的估計(jì)值與圖中的數(shù)據(jù)相符。隨著教育水平的提高,吸煙者的概率明顯下降。吸煙的概率與教育水平呈負(fù)相關(guān)。
帶有隨機(jī)效應(yīng)的單變量模型
檢查隨機(jī)效應(yīng)的顯著性
fit.no < ?glm(gambler 1, f amily = binomial(logit0))
And check significance using
anova(f it.ID, f it.no)
在'fit.no'中加入隨機(jī)效應(yīng)后,AIC從1269.5降低到895.3,P值顯示了家庭ID的顯著影響。因此,在單變量模型中加入隨機(jī)效應(yīng)是合理的。
使用'lme4'擬合單變量模型
在這一節(jié)中,吸煙、喝酒和賭博的數(shù)據(jù)將在單變量模型中被擬合。以下是來(lái)自R的結(jié)果。
re.smoker=glmer(smoker~male+age+income+whiteO+mixed+asian+chinese+african+other+degresummary(re.smoker)
?表2包含對(duì)吸煙偏好有明顯影響的變量??梢缘贸鼋Y(jié)論:男性、年輕、收入低、無(wú)學(xué)歷、單身、分居或失業(yè)的人更有可能成為吸煙者。而女性、年齡較大、收入較高、有學(xué)位、學(xué)生或退休的人則不太可能成為煙民。飲酒模型也有和吸煙模型一樣的問(wèn)題,所以我們也需要放棄一些列以確保模型能夠收斂。
以上是本項(xiàng)目中的單變量模型,每個(gè)模型都已經(jīng)分析過(guò)了,接下來(lái)我們將使用這些單變量模型來(lái)擬合雙變量模型。
使用 "MCMCglmm "擬合單變量模型
由于每個(gè)單變量模型都是由一系列因素?cái)M合的,為了了解反應(yīng)是如何相互影響的,我們可能還要考慮到與其他性狀可能存在的協(xié)方差。?
model.smoker<- MCMCglmm(smoker~male+age+income+whiteO+mixed+asian+chinese+african+arasummary(model.smoker)
表5中的顯著變量與表2非常相似,唯一不同的是,被放棄的變量 "edu unknown "和 "employother "在表5中是顯著變量。
從表6和表3可以看出,使用'lme4'和'MCMCglmm'的飲酒模型預(yù)測(cè)了相同的顯著效果。
與表7和表4相比,大多數(shù)重要的變量是相同的,只有 "失業(yè) "在使用 "lme4 "的賭博模型中不顯著。
使用'MCMCglmm'的雙變量模型
在本節(jié)中,我們將計(jì)算出本項(xiàng)目的最終結(jié)果,即吸煙、喝酒和賭博習(xí)慣之間的關(guān)系。
在這里,我們可以計(jì)算出吸煙者和飲酒者之間的相關(guān)關(guān)系,其方差為
相關(guān)性=posterior.mode(correlation) = 0.16
正相關(guān)表明,在這個(gè)雙變量模型中,喜歡吸煙的人更可能是飲酒者。
在分析了吸煙者和飲酒者之間的相關(guān)性之后,我們現(xiàn)在用雙變量的'MCMCglmm'模型來(lái)測(cè)試吸煙者和賭博者之間的關(guān)系船。表9顯示了單變量模型的協(xié)變量。
啟示
通過(guò)使用邏輯回歸法,我們能夠確定導(dǎo)致吸煙、喝酒和賭博的重要因素。在本項(xiàng)目中,似乎對(duì)這三種習(xí)慣都有影響的重要因素是性別、教育水平和婚姻狀況。同時(shí),本研究還給出了每個(gè)分類因素的估計(jì)值,這可以用來(lái)說(shuō)明某個(gè)因素對(duì)這些習(xí)慣的影響是積極的還是消極的。
吸煙、飲酒和賭博之間的組合是通過(guò)雙變量模型來(lái)檢驗(yàn)的。利用這個(gè)模型,我們可以得到吸煙模型、飲酒模型和賭博模型之間的固定和隨機(jī)效應(yīng)的相關(guān)關(guān)系。例如,通過(guò)正相關(guān)關(guān)系,我們可以說(shuō)明喜歡吸煙的人也會(huì)喜歡喝酒。
References
Kenneth J.Mukamal. The effects of smoking and drinking on cardiovascular disease and risk factors. Alcohol Research & Health Vol. 29, No. 3, 2006
William J. Blot, Joseph K. McLaughlin, Deborah M. Winn, et al. 吸煙和飲酒與口腔和咽喉癌的關(guān)系. 癌癥研究》1988;48:3282-3287。
最受歡迎的見(jiàn)解
1.R語(yǔ)言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語(yǔ)言泊松Poisson回歸模型分析案例
5.R語(yǔ)言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語(yǔ)言中對(duì)LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.R語(yǔ)言邏輯回歸、Naive Bayes貝葉斯、決策樹(shù)、隨機(jī)森林算法預(yù)測(cè)心臟病
8.python用線性回歸預(yù)測(cè)股票價(jià)格
9.R語(yǔ)言用邏輯回歸、決策樹(shù)和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)