R語言MCMC的lme4二元對數(shù)Logistic邏輯回歸混合效應(yīng)模型分析吸煙、喝酒和賭博影響數(shù)據(jù)
原文下載鏈接:http://tecdat.cn/?p=29196
最近我們被客戶要求撰寫關(guān)于邏輯回歸混合效應(yīng)模型的研究報告,包括一些圖形和統(tǒng)計輸出。
吸煙、喝酒和賭博被認為是由許多因素造成的。Logistic回歸分析是一個非常有效的模型,可以檢驗各種解釋變量和二元反應(yīng)變量之間的關(guān)系。同時,雙變量模型分析也被用于檢驗單變量模型之間的相關(guān)性。本項目的目的是利用統(tǒng)計方法來檢驗?zāi)硞€因素是否對吸煙、喝酒或賭博偏好有顯著影響。然后用這個結(jié)果來預(yù)測這些習(xí)慣之間的組合
緒論
本節(jié)介紹了 "解釋吸煙喝酒和賭博的參與 "的研究背景。實際上,由于吸煙、喝酒和賭博的雙重性和復(fù)雜性,它們的爭論從未停止。大量的人把吸煙、喝酒和賭博當作壞習(xí)慣,有許多原因使他們反對這些習(xí)慣,許多研究也支持他們的觀點。
文獻回顧
涉及吸煙、飲酒和賭博習(xí)慣的關(guān)聯(lián)的文獻越來越多。在早期的研究中,許多研究者認為,吸煙、喝酒和賭博有明顯的結(jié)合。每天吸煙的人比非每天吸煙的人更有可能參與賭博活動。每日吸煙者比非每日吸煙者在賭博上花費更多的時間和金錢(Nancy M. Petry和Cheryl Oncken,2002)。
方法論
模型假設(shè)
從數(shù)據(jù)集來看,吸煙、喝酒和賭博的反應(yīng)顯然只有是或不是,這是二進制的。而且,所有的解釋因素都可以被歸類或被視為連續(xù)的。因此,使用Logistic回歸作為基本模型是可靠的。
基礎(chǔ)知識。Logistic回歸可以是二元的,也可以是多元的。在二進制中,結(jié)果只能是0或1,而在多進制中,結(jié)果可以是三個或更多,例如,A、B和C三個級別。
Logistic函數(shù)是
然后
如果有多個解釋變量,上述表達式β0+β1x可以修改為β0+β1x1+β2x2+...。+ βmxm。在這種情況下,我們假設(shè):Y1=吸煙,Y2=喝酒,Y3=賭博。我們有8個解釋變量,每個解釋變量可以分為幾個類別。因此
和
其中i = 1, 2, 3
那么,如果吸煙,y1=1,否則y1=0。
y2 = 1,如果喝酒,y2 = 0,否則。
y3=1,如果賭博,y3=0,否則。?
此外,隨機效應(yīng)也應(yīng)該被添加到模型中。
帶隨機效應(yīng)的Logistic回歸
分析數(shù)據(jù)
以下顯示了我們?nèi)绾芜M行這項研究。首先,我們參考文獻和以前所做的研究,以確定那些被認為對吸煙、喝酒和賭博有重大影響的潛在變量。
結(jié)果
在這一部分中,我們將對單一分類的解釋因素進行分析。首先,將使用箱形圖來顯示連續(xù)變量與吸煙、飲酒和賭博等的關(guān)聯(lián)。箱形圖將顯示連續(xù)變量與Yi的關(guān)系。同時,條形圖將被用來顯示分類變量的影響。
吸煙結(jié)果
ggplot(smoke_age,aes(as.factor(smoking),age))+geom_boxplot()+labs(title="Smoking-age",x="smoking",y="age")
從圖1可以看出,吸煙者的年齡中位數(shù)比非吸煙者小。吸煙者的年齡段在18至87歲之間,而非吸煙者則分布在各個年齡段。該圖表明,年輕人更有可能吸煙。年齡對吸煙有明顯的影響,年齡的估計值為-0.1017,這意味著吸煙和年齡有負相關(guān)。
ggplot(smoke_gender,?aes(gender,fill=as.factor(smoking)))+geom_bar(position?=?"fill")+labs(title?="Smoking-gender",?x?=?"gender",?y?=?"smoking")
參照圖2,1代表吸煙者,0代表不吸煙者。圖中顯示,男性吸煙者比女性吸煙者多一點,這意味著性別對吸煙偏好有影響。R輸出也給出了同樣的結(jié)論,P值是顯著的,男性的估計值為0.20793,這意味著男性更可能吸煙。
圖3表明,教育水平對吸煙習(xí)慣有顯著影響。吸煙的概率按照教育水平的順序排列。擁有較高教育水平的人吸煙的可能性較小。盡管數(shù)據(jù)不詳,但很明顯,擁有學(xué)位的人最不可能吸煙,而沒有學(xué)歷的人最可能吸煙。HNC組的吸煙者比EDU-18以下組少。圖4右側(cè)的估計值與圖中的數(shù)據(jù)相符。隨著教育水平的提高,吸煙者的概率明顯下降。吸煙的概率與教育水平呈負相關(guān)。
點擊標題查閱往期內(nèi)容
R語言線性混合效應(yīng)模型(固定效應(yīng)&隨機效應(yīng))和交互可視化3案例
左右滑動查看更多
01
02
03
04
帶有隨機效應(yīng)的單變量模型
檢查隨機效應(yīng)的顯著性
fit.no?<??glm(gambler?1,?f?amily?=?binomial(logit0))
And check significance using
anova(f?it.ID,?f?it.no)
在'fit.no'中加入隨機效應(yīng)后,AIC從1269.5降低到895.3,P值顯示了家庭ID的顯著影響。因此,在單變量模型中加入隨機效應(yīng)是合理的。
使用'lme4'擬合單變量模型
在這一節(jié)中,吸煙、喝酒和賭博的數(shù)據(jù)將在單變量模型中被擬合。以下是來自R的結(jié)果。
re.smoker=glmer(smoker~male+age+income+whiteO+mixed+asian+chinese+african+other+degresummary(re.smoker)
表2包含對吸煙偏好有明顯影響的變量??梢缘贸鼋Y(jié)論:男性、年輕、收入低、無學(xué)歷、單身、分居或失業(yè)的人更有可能成為吸煙者。而女性、年齡較大、收入較高、有學(xué)位、學(xué)生或退休的人則不太可能成為煙民。飲酒模型也有和吸煙模型一樣的問題,所以我們也需要放棄一些列以確保模型能夠收斂。
以上是本項目中的單變量模型,每個模型都已經(jīng)分析過了,接下來我們將使用這些單變量模型來擬合雙變量模型。
使用 "MCMCglmm "擬合單變量模型
由于每個單變量模型都是由一系列因素擬合的,為了了解反應(yīng)是如何相互影響的,我們可能還要考慮到與其他性狀可能存在的協(xié)方差。
model.smoker<-?MCMCglmm(smoker~male+age+income+whiteO+mixed+asian+chinese+african+arasummary(model.smoker)
表5中的顯著變量與表2非常相似,唯一不同的是,被放棄的變量 "edu unknown "和 "employother "在表5中是顯著變量。
從表6和表3可以看出,使用'lme4'和'MCMCglmm'的飲酒模型預(yù)測了相同的顯著效果。
與表7和表4相比,大多數(shù)重要的變量是相同的,只有 "失業(yè) "在使用 "lme4 "的賭博模型中不顯著。
使用'MCMCglmm'的雙變量模型
在本節(jié)中,我們將計算出本項目的最終結(jié)果,即吸煙、喝酒和賭博習(xí)慣之間的關(guān)系。
在這里,我們可以計算出吸煙者和飲酒者之間的相關(guān)關(guān)系,其方差為
相關(guān)性=posterior.mode(correlation) = 0.16
正相關(guān)表明,在這個雙變量模型中,喜歡吸煙的人更可能是飲酒者。
在分析了吸煙者和飲酒者之間的相關(guān)性之后,我們現(xiàn)在用雙變量的'MCMCglmm'模型來測試吸煙者和賭博者之間的關(guān)系船。表9顯示了單變量模型的協(xié)變量。
啟示
通過使用邏輯回歸法,我們能夠確定導(dǎo)致吸煙、喝酒和賭博的重要因素。在本項目中,似乎對這三種習(xí)慣都有影響的重要因素是性別、教育水平和婚姻狀況。同時,本研究還給出了每個分類因素的估計值,這可以用來說明某個因素對這些習(xí)慣的影響是積極的還是消極的。
吸煙、飲酒和賭博之間的組合是通過雙變量模型來檢驗的。利用這個模型,我們可以得到吸煙模型、飲酒模型和賭博模型之間的固定和隨機效應(yīng)的相關(guān)關(guān)系。例如,通過正相關(guān)關(guān)系,我們可以說明喜歡吸煙的人也會喜歡喝酒。
References
Kenneth J.Mukamal. The effects of smoking and drinking on cardiovascular disease and risk factors. Alcohol Research & Health Vol. 29, No. 3, 2006
William J. Blot, Joseph K. McLaughlin, Deborah M. Winn, et al. 吸煙和飲酒與口腔和咽喉癌的關(guān)系. 癌癥研究》1988;48:3282-3287。
?
點擊文末?“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《R語言MCMC的lme4二元對數(shù)Logistic邏輯回歸混合效應(yīng)模型分析吸煙、喝酒和賭博影響數(shù)據(jù)》。
點擊標題查閱往期內(nèi)容
R語言線性混合效應(yīng)模型(固定效應(yīng)&隨機效應(yīng))和交互可視化3案例
非線性混合效應(yīng) NLME模型對抗哮喘藥物茶堿動力學(xué)研究
生態(tài)學(xué)模擬對廣義線性混合模型GLMM進行功率(功效、效能、效力)分析power analysis環(huán)境監(jiān)測數(shù)據(jù)
有限混合模型聚類FMM、廣義線性回歸模型GLM混合應(yīng)用分析威士忌市場和研究專利申請數(shù)據(jù)
如何用潛類別混合效應(yīng)模型(Latent Class Mixed Model ,LCMM)分析老年癡呆年齡數(shù)據(jù)
R語言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級調(diào)查數(shù)據(jù)R語言 線性混合效應(yīng)模型實戰(zhàn)案例
R語言混合效應(yīng)邏輯回歸(mixed effects logistic)模型分析肺癌數(shù)據(jù)
R語言如何用潛類別混合效應(yīng)模型(LCMM)分析抑郁癥狀
R語言基于copula的貝葉斯分層混合模型的診斷準確性研究
R語言建立和可視化混合效應(yīng)模型mixed effect model
R語言LME4混合效應(yīng)模型研究教師的受歡迎程度
R語言 線性混合效應(yīng)模型實戰(zhàn)案例
R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)
R語言基于copula的貝葉斯分層混合模型的診斷準確性研究
R語言如何解決線性混合模型中畸形擬合(Singular fit)的問題
基于R語言的lmer混合線性回歸模型
R語言用WinBUGS 軟件對學(xué)術(shù)能力測驗建立層次(分層)貝葉斯模型
R語言分層線性模型案例
R語言用WinBUGS 軟件對學(xué)術(shù)能力測驗(SAT)建立分層模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
R語言用WinBUGS 軟件對學(xué)術(shù)能力測驗建立層次(分層)貝葉斯模型
SPSS中的多層(等級)線性模型Multilevel linear models研究整容手術(shù)數(shù)據(jù)
用SPSS估計HLM多層(層次)線性模型模型