最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)據(jù)分享|R語言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級(jí)

2023-06-12 22:15 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=22813

最近我們被客戶要求撰寫關(guān)于混合效應(yīng)的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。

本教程為讀者提供了使用頻率學(xué)派的廣義線性模型(GLM)的基本介紹。具體來說,本教程重點(diǎn)介紹邏輯回歸在二元結(jié)果和計(jì)數(shù)/比例結(jié)果情況下的使用,以及模型評(píng)估的方法

本教程使用教育數(shù)據(jù)例子進(jìn)行模型的應(yīng)用。此外,本教程還簡(jiǎn)要演示了用R對(duì)GLM模型進(jìn)行的多層次擴(kuò)展。最后,還討論了GLM框架中的更多分布和鏈接函數(shù)。

本教程包含以下結(jié)構(gòu)。

  1. 準(zhǔn)備工作。

  2. 介紹GLM。

  3. 加載教育數(shù)據(jù)。

  4. 數(shù)據(jù)準(zhǔn)備。

  5. 二元(伯努利)Logistic回歸。

  6. 二項(xiàng)式 Logistic 回歸。

  7. 多層次Logistic回歸。

  8. 其他族和鏈接函數(shù)。

本教程介紹了:

  • 假設(shè)檢驗(yàn)和統(tǒng)計(jì)推斷的基本知識(shí)。

  • 回歸的基本知識(shí)。

  • R語言編碼的基本知識(shí)。

  • 進(jìn)行繪圖和數(shù)據(jù)處理的基本知識(shí)。

廣義線性模型(GLM)簡(jiǎn)介

對(duì)于y是連續(xù)值得情況,我們可以用這種方式處理,但當(dāng)y是離散值我們用普通線性模型就不合適了,這時(shí)我們引用另外一種模型 --- Generalised Linear Models 廣義線性模型。

為了獲取GLM模型,我們列出3個(gè)條件:

  1. ,也就是y|x為指數(shù)族分布,指數(shù)族分布形式:

  1. 如果我們判斷y的假設(shè)為?

  1. ,則

  1. 。

  2. 自然參數(shù)和輸入x呈線性關(guān)系:

這3個(gè)條件的來由我們不討論,我們只知道做這樣的假設(shè)是基于“設(shè)計(jì)”的選擇,而非必然。

我們以泊松回歸為例, y服從泊松分布?

,化為指數(shù)族形式,我們可以得到

。所以

之后即為最大似然法的過程。

教育數(shù)據(jù)

本教程中使用的數(shù)據(jù)是教育數(shù)據(jù)。

該數(shù)據(jù)來源于全國(guó)性的小學(xué)教育調(diào)查。數(shù)據(jù)中的每一行都是指一個(gè)學(xué)生。結(jié)果變量留級(jí)是一個(gè)二分變量,表示一個(gè)學(xué)生在小學(xué)教育期間是否留過級(jí)。學(xué)校變量表示一個(gè)學(xué)生所在的學(xué)校。個(gè)人層面的預(yù)測(cè)因素包括。??性別(0=女性,1=男性)和學(xué)前教育(受過學(xué)前教育,0=沒有,1=有)。學(xué)校層面是學(xué)校平均SES(社會(huì)經(jīng)濟(jì)地位)得分。

本教程利用教育數(shù)據(jù)試圖回答的主要研究問題是。

忽略數(shù)據(jù)的結(jié)構(gòu),性別和學(xué)前教育對(duì)學(xué)生是否留級(jí)的影響是什么?
忽略數(shù)據(jù)的結(jié)構(gòu),學(xué)校平均SES對(duì)學(xué)生留級(jí)比例的影響是什么?
考慮到數(shù)據(jù)的結(jié)構(gòu),性別、學(xué)前教育和學(xué)校平均SES對(duì)學(xué)生是否留級(jí)有什么影響?
這三個(gè)問題分別用以下這些模型來回答:二元邏輯回歸;二項(xiàng)邏輯回歸;多層次二元邏輯回歸。

數(shù)據(jù)準(zhǔn)備

加載必要的軟件包

#?如果你還沒有安裝這些包,請(qǐng)使用install.packages("package_name")命令。library(lme4)?#?用于多層次模型library(tidyverse)?#?用于數(shù)據(jù)處理和繪圖

導(dǎo)入數(shù)據(jù)

head(Edu)

數(shù)據(jù)處理

??mutate(學(xué)校?=?factor(學(xué)校),?????????性別?=?if_else(性別?==?0,?"girl",?"boy"),?????????性別?=?factor(性別,?levels?=?c("girl",?"boy")),?????????受過學(xué)前教育?=?if_else(受過學(xué)前教育?==?0,?"no",?"yes"),?????????受過學(xué)前教育?=?factor(受過學(xué)前教育,?levels?=?c("no",?"yes")))

檢查缺失的數(shù)據(jù)

??summarise_each((~sum(is.na(.))

數(shù)據(jù)中,經(jīng)濟(jì)地位變量有1066個(gè)觀測(cè)值缺失。對(duì)缺失數(shù)據(jù)的處理本身就是一個(gè)復(fù)雜的話題。為了方便起見,我們?cè)诒窘坛讨泻?jiǎn)單地將數(shù)據(jù)缺失的案例刪除。

二元邏輯回歸

探索數(shù)據(jù):按性別和學(xué)前教育分類的留級(jí)數(shù)量?

??group_by(性別)?%>%??summarise(是否留過級(jí)?=?sum(是否留過級(jí)))

看來,留級(jí)的學(xué)生人數(shù)在男女之間有很大的不同,更多的男學(xué)生留級(jí)。更多沒有接受過學(xué)前教育的學(xué)生留級(jí)。這一觀察結(jié)果表明,性別和學(xué)前教育可能對(duì)留級(jí)有預(yù)測(cè)作用。

構(gòu)建二元邏輯回歸模型

R默認(rèn)安裝了基礎(chǔ)包,其中包括運(yùn)行GLM的glm函數(shù)。glm的參數(shù)與lm的參數(shù)相似:公式和數(shù)據(jù)。然而,glm需要一個(gè)額外的參數(shù):family,它指定了結(jié)果變量的假設(shè)分布;在family中我們還需要指定鏈接函數(shù)。family的默認(rèn)值是gaussian(link = "identity"),這導(dǎo)致了一個(gè)線性模型,相當(dāng)于由lm指定的模型。在二元邏輯回歸的情況下,glm要求我們指定一個(gè)帶有l(wèi)ogit鏈接的二項(xiàng)分布,即family = binomial(link = "logit") 。

glm(formula?,????????????????????family?=?binomial(link?=?"logit"))

解釋

從上面的總結(jié)輸出中,我們可以看到,性別對(duì)學(xué)生留級(jí)的概率有正向和顯著的預(yù)測(cè),而學(xué)前教育則有負(fù)向和顯著的預(yù)測(cè)。具體來說,與女孩相比,男孩更有可能留級(jí)。以前上過學(xué)的學(xué)生不太可能導(dǎo)致留級(jí)。

為了解釋參數(shù)估計(jì)值,我們需要對(duì)估計(jì)值進(jìn)行指數(shù)化處理。

請(qǐng)注意,參數(shù)估計(jì)的解釋與幾率而不是概率有關(guān)。賠率的定義是。P(事件發(fā)生)/P(事件未發(fā)生)。在本分析中,假設(shè)其他一切保持不變,與女孩相比,男孩增加了54%的留級(jí)幾率;與沒有學(xué)前教育相比,假設(shè)其他一切保持不變,擁有學(xué)前教育降低了(1-0.54)%=46%的留級(jí)幾率。

參數(shù)效應(yīng)的可視化

為了使參數(shù)效應(yīng)的解釋更加容易,我們可以對(duì)參數(shù)效應(yīng)可視化。

plot(Effects)

請(qǐng)注意,在這兩張圖中,Y刻度指的是留級(jí)的概率,而不是幾率。概率比幾率更容易解釋。每個(gè)變量的概率分?jǐn)?shù)是通過假設(shè)模型中的其他變量是常數(shù)并采取其平均值來計(jì)算的。正如我們所看到的,假設(shè)一個(gè)學(xué)生有平均的學(xué)前教育,作為一個(gè)男孩比作為一個(gè)女孩有更高的留級(jí)概率(~0.16)~0.11)。同樣,假設(shè)一個(gè)學(xué)生有一個(gè)平均的性別,有學(xué)前教育的學(xué)生比沒有學(xué)前教育的學(xué)生留級(jí)的概率低(~0.11)(~0.18)。請(qǐng)注意,在這兩幅圖中,還包括了估計(jì)值的置信區(qū)間,以使我們對(duì)估計(jì)值的不確定性有一些了解。

請(qǐng)注意,平均學(xué)前教育和性別的概念可能聽起來很奇怪,因?yàn)樗鼈兪欠诸愖兞浚匆蛩兀?。如果你?duì)假設(shè)一個(gè)平均因素的想法感到奇怪,你可以指定你的預(yù)期因素水平作為參考點(diǎn)。

??predictors?=?list(?values=c(性別boy=0,?受過學(xué)前教育yes?=?0))

設(shè)置性別boy = 0意味著在學(xué)前教育效應(yīng)圖中,性別變量的參考水平被設(shè)置為0;學(xué)前教育yes = 0導(dǎo)致0成為性別效應(yīng)圖中學(xué)前教育變量的參考水平。

因此,正如上面兩幅圖所示,假設(shè)學(xué)生沒有接受過學(xué)前教育,作為男孩的留級(jí)概率(~0.20)比作為女孩的留級(jí)概率(~0.14)要高;假設(shè)學(xué)生是女性,有學(xué)前教育的留級(jí)概率(~0.09)比沒有學(xué)前教育的留級(jí)概率(~0.15)要低。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

多水平模型、分層線性模型HLM、混合效應(yīng)模型研究教師的受歡迎程度

左右滑動(dòng)查看更多

01

02

03

04

模型評(píng)估:擬合度

評(píng)價(jià)邏輯回歸模型的擬合度有不同的方法。

似然比檢驗(yàn)

如果一個(gè)邏輯回歸模型與預(yù)測(cè)因子較少的模型相比,顯示出擬合度的提高,則該模型對(duì)數(shù)據(jù)有較好的擬合度。這是用似然比檢驗(yàn)進(jìn)行的,它將完整模型下數(shù)據(jù)的似然性與較少預(yù)測(cè)因素的模型下數(shù)據(jù)的似然性進(jìn)行比較。從一個(gè)模型中刪除預(yù)測(cè)變量幾乎總是會(huì)使模型的擬合度降低(即模型的對(duì)數(shù)似然率較低),但測(cè)試觀察到的模型擬合度差異是否具有統(tǒng)計(jì)學(xué)意義是很有用的。

#指定一個(gè)只有`性別'變量的模型#使用`anova()`函數(shù)來運(yùn)行似然比測(cè)試anova(ModelTest,?Model,?test?="Chisq")

我們可以看到,同時(shí)包含性別和學(xué)前教育的預(yù)測(cè)因子的模型比只包含性別變量的模型對(duì)數(shù)據(jù)的擬合效果要好得多。請(qǐng)注意,這種方法也可以用來確定是否有必要包括一個(gè)或一組變量。

?AIC

Akaike信息準(zhǔn)則(AIC)是另一個(gè)模型選擇的衡量標(biāo)準(zhǔn)。與似然比檢驗(yàn)不同,AIC的計(jì)算不僅要考慮模型的擬合度,還要考慮模型的簡(jiǎn)單性。通過這種方式,AIC處理了模型的擬合度和復(fù)雜性之間的權(quán)衡,因此,不鼓勵(lì)過度擬合。較小的AIC是首選。

在AIC值較小的情況下,同時(shí)具有性別和學(xué)前教育預(yù)測(cè)因子的模型優(yōu)于只具有性別預(yù)測(cè)因子的模型。

正確分類率

正確分類率是另一個(gè)有用的衡量標(biāo)準(zhǔn),可以看出模型對(duì)數(shù)據(jù)的合適程度。

#使用`predict()`函數(shù),從擬合的模型中計(jì)算出原始數(shù)據(jù)中學(xué)生的預(yù)測(cè)概率Pred?<-?if_else(Pred?>?0.5,?1,?0)ConfusionMatrix?<-?table(Pred,?TRUE)#正確的分類率

我們可以看到,該模型對(duì)所有觀測(cè)值的85.8%進(jìn)行了正確分類。然而,仔細(xì)觀察可以發(fā)現(xiàn),模型預(yù)測(cè)所有的觀察值都屬于 "0 "類,也就是說,所有的學(xué)生都被預(yù)測(cè)為不留級(jí)??紤]到留級(jí)變量的多數(shù)類別是0(不),該模型在分類上的表現(xiàn)并不比簡(jiǎn)單地將所有觀測(cè)值分配到多數(shù)類別0(不)更好。

AUC(曲線下面積)

使用正確分類率的一個(gè)替代方法是曲線下面積(AUC)測(cè)量。AUC測(cè)量區(qū)分度,即測(cè)試對(duì)有目標(biāo)反應(yīng)和無目標(biāo)反應(yīng)的人進(jìn)行正確分類的能力。在目前的數(shù)據(jù)中,目標(biāo)變量是留級(jí)。我們從 "留級(jí) "組和 "不留級(jí) "組中隨機(jī)抽取一名學(xué)生。預(yù)測(cè)概率較高的學(xué)生應(yīng)該是 "留級(jí) "組中的學(xué)生。AUC是隨機(jī)抽出的對(duì)子的百分比。這個(gè)程序?qū)UC與正確分類率區(qū)分開來,因?yàn)锳UC不依賴于結(jié)果變量中類的比例的變化。0.50的值意味著該模型的分類效果不比隨機(jī)好。一個(gè)好的模型應(yīng)該有一個(gè)遠(yuǎn)遠(yuǎn)高于0.50的AUC分?jǐn)?shù)(最好高于0.80)。

#?計(jì)算用該模型預(yù)測(cè)類別的AUCAUC?<-?performance(Pred,?measure?=?"auc")AUC?<-?AUC@y.values[[1]]AUC

AUC分?jǐn)?shù)為0.60,該模型的判別能力不強(qiáng)。

二項(xiàng)式 Logistic 回歸

正如開頭提到的,邏輯回歸也可以用來為計(jì)數(shù)或比例數(shù)據(jù)建模。二項(xiàng)邏輯回歸假設(shè)結(jié)果變量來自伯努利分布(這是二項(xiàng)分布的一個(gè)特例),其中試驗(yàn)次數(shù)n為1,因此結(jié)果變量只能是1或0。相反,二項(xiàng)邏輯回歸假設(shè)目標(biāo)事件的數(shù)量遵循二項(xiàng)分布,試驗(yàn)次數(shù)n,概率q。這樣一來,二項(xiàng)邏輯回歸允許結(jié)果變量取任何非負(fù)整數(shù)值,因此能夠處理計(jì)數(shù)數(shù)據(jù)。

教育數(shù)據(jù)記錄了集中在學(xué)校內(nèi)的個(gè)別學(xué)生的信息。通過匯總各學(xué)校留級(jí)的學(xué)生人數(shù),我們得到一個(gè)新的數(shù)據(jù)集,其中每一行代表一所學(xué)校,并有關(guān)于該學(xué)校留級(jí)學(xué)生的比例信息。學(xué)校平均社會(huì)經(jīng)濟(jì)地位(平均SES分?jǐn)?shù))也是在學(xué)校層面上的;因此,它可以用來預(yù)測(cè)在某個(gè)學(xué)校留級(jí)的學(xué)生的比例或數(shù)量。

轉(zhuǎn)換數(shù)據(jù)

在這個(gè)新的數(shù)據(jù)集中,留級(jí)指的是留級(jí)的學(xué)生人數(shù);TOTAL指的是某所學(xué)校的學(xué)生總數(shù)。

探索數(shù)據(jù)

??ggplot(aes(x?,?y))?+??geom_smooth(method?=?"lm")

我們可以看到,留級(jí)的學(xué)生比例與學(xué)校平均社會(huì)經(jīng)濟(jì)地位的反對(duì)數(shù)呈負(fù)相關(guān)。請(qǐng)注意,我們將變量學(xué)校平均社會(huì)經(jīng)濟(jì)地位建模為其反對(duì)數(shù),因?yàn)樵诙?xiàng)式回歸模型中,我們假設(shè)線性預(yù)測(cè)因子的反對(duì)數(shù)與結(jié)果(即事件比例)之間存在線性關(guān)系,而不是預(yù)測(cè)因子本身與結(jié)果之間存在線性關(guān)系。

擬合二項(xiàng)式Logistic回歸模型

為了擬合二項(xiàng)式邏輯回歸模型,我們也使用glm函數(shù)。唯一的區(qū)別是在公式中對(duì)結(jié)果變量的說明。我們需要指定目標(biāo)事件的數(shù)量(留級(jí))和非事件的數(shù)量(TOTAL-留級(jí)),并將它們包在cbind()中。

glm(cbind(是否留過級(jí),?TOTAL-是否留過級(jí))?~?學(xué)校平均社會(huì)經(jīng)濟(jì)地位,??????????????????family?=?binomial(logit))

解釋

二項(xiàng)式回歸模型的參數(shù)解釋與二項(xiàng)式邏輯回歸模型相同。從上面的模型總結(jié)中我們知道,一所學(xué)校的平均SES分?jǐn)?shù)與該校學(xué)生留級(jí)的幾率呈負(fù)相關(guān)。為了提高可解釋性,我們?cè)俅问褂胹umm()函數(shù)來計(jì)算學(xué)校平均社會(huì)經(jīng)濟(jì)地位的指數(shù)化系數(shù)估計(jì)。由于學(xué)校平均社會(huì)經(jīng)濟(jì)地位是一個(gè)連續(xù)的變量,我們可以將指數(shù)化的學(xué)校平均社會(huì)經(jīng)濟(jì)地位估計(jì)值標(biāo)準(zhǔn)化(通過將原始估計(jì)值與變量的SD相乘,然后將所得數(shù)字指數(shù)化)。

#注意,為了對(duì)二項(xiàng)回歸模型使用summ()函數(shù),我們需要將結(jié)果變量作為對(duì)象。是否留過級(jí)?<-?(filter(edu,?!is.na(學(xué)校平均社會(huì)經(jīng)濟(jì)地位)),?是否留過級(jí))

我們可以看到,隨著學(xué)校平均社會(huì)經(jīng)濟(jì)地位的SD增加,學(xué)生留級(jí)的幾率降低了1 - 85% = 15%。

我們可以直觀地看到學(xué)校平均社會(huì)經(jīng)濟(jì)地位的效果。

plot(allEffects)

上面的圖表顯示了學(xué)校平均社會(huì)經(jīng)濟(jì)地位對(duì)學(xué)生留級(jí)概率的預(yù)期影響。在其他因素不變的情況下,隨著學(xué)校平均社會(huì)經(jīng)濟(jì)地位的增加,一個(gè)學(xué)生留級(jí)的概率會(huì)降低(從0.19到0.10)。藍(lán)色陰影區(qū)域表示每個(gè)學(xué)校平均社會(huì)經(jīng)濟(jì)地位值的預(yù)測(cè)值的95%置信區(qū)間。

多層次二元邏輯回歸

前面介紹的二元邏輯回歸模型僅限于對(duì)學(xué)生層面的預(yù)測(cè)因素的影響進(jìn)行建模;二元邏輯回歸僅限于對(duì)學(xué)校層面的預(yù)測(cè)因素的影響進(jìn)行建模。為了同時(shí)納入學(xué)生層面和學(xué)校層面的預(yù)測(cè)因素,我們可以使用多層次模型,特別是多層次二元邏輯回歸。

除了上述動(dòng)機(jī)外,還有更多使用多層次模型的理由。例如,由于數(shù)據(jù)是在學(xué)校內(nèi)分類的,來自同一學(xué)校的學(xué)生很可能比來自其他學(xué)校的學(xué)生更相似。正因?yàn)槿绱耍谝凰鶎W(xué)校,一個(gè)學(xué)生留級(jí)的概率可能很高,而在另一所學(xué)校,則很低。此外,即使是結(jié)果(即留級(jí))和預(yù)測(cè)變量(如性別、學(xué)前教育、學(xué)校平均社會(huì)經(jīng)濟(jì)地位)之間的關(guān)系,在不同的學(xué)校也可能不同。還要注意的是,學(xué)校平均社會(huì)經(jīng)濟(jì)地位變量中存在缺失值。使用多層次模型可以較好地解決這些問題。

請(qǐng)看下面的圖作為例子。該圖顯示了各學(xué)校留級(jí)學(xué)生的比例。我們可以看到不同學(xué)校之間的巨大差異。因此,我們可能需要多層次模型。

?group_by(學(xué)校)?%>%??summarise(PROP?=?sum(是否留過級(jí))/n())?%>%??plot()

我們還可以通過學(xué)校來繪制性別和留級(jí)之間的關(guān)系,以了解性別和留級(jí)之間的關(guān)系是否因?qū)W校而異。

mutate(性別?=?if_else(性別?==?"boy",?1,?0))?%>%??ggplot(aes(x?=?性別,?y?=?是否留過級(jí),?color?=?as.factor(學(xué)校)))?+

在上面的圖中,不同的顏色代表不同的學(xué)校。我們可以看到,不同學(xué)校的性別和留級(jí)之間的關(guān)系似乎有很大不同。

我們可以為學(xué)前教育和留級(jí)做同樣的圖。

?mutate(性別?=?if_else(性別?==?"girl",?0,?1),?????????受過學(xué)前教育?=?if_else(受過學(xué)前教育?==?"yes",?1,?0))?%>%??group_by(學(xué)校)?%>%??mutate(性別?=?性別?-?mean(性別),

學(xué)前教育和留級(jí)之間的關(guān)系在不同的學(xué)校也顯得相當(dāng)不同。然而,我們也可以看到,大多數(shù)的關(guān)系都呈下降趨勢(shì),從0(以前沒有上過學(xué))到1(以前上過學(xué)),表明學(xué)前教育和留級(jí)之間的關(guān)系為負(fù)。

由于上述觀察結(jié)果,我們可以得出結(jié)論,在目前的數(shù)據(jù)中需要建立多層次的模型,不僅要有隨機(jī)截距(學(xué)校),還可能要有性別和學(xué)前教育的隨機(jī)斜率。

中心化變量

在擬合多層次模型之前,有必要采用適當(dāng)?shù)闹行幕椒ǎ淳抵行幕?duì)預(yù)測(cè)變量進(jìn)行中心化,因?yàn)橹行幕椒▽?duì)模型估計(jì)的解釋很重要。根據(jù)Enders和Tofighi(2007)的建議,我們應(yīng)該對(duì)第一層次的預(yù)測(cè)因子性別和學(xué)前教育使用中心化,對(duì)第二層次的預(yù)測(cè)因子學(xué)校平均社會(huì)經(jīng)濟(jì)地位使用均值中心化。

????????受過學(xué)前教育?=?if_else(受過學(xué)前教育?==?"yes",?1,?0))?%>%??group_by(學(xué)校)?%>%??mutate(性別?=?性別?-?mean(性別),?????????受過學(xué)前教育?=?受過學(xué)前教育?-?mean(受過學(xué)前教育))?%>%??ungroup()?%>%

只有截距模型

為了指定一個(gè)多層次模型,我們使用lme4軟件包。隨機(jī)斜率項(xiàng)和聚類項(xiàng)應(yīng)該用|分隔。注意,我們使用了一個(gè)額外的參數(shù)指定比默認(rèn)值(10000)更大的最大迭代次數(shù)。因?yàn)橐粋€(gè)多層次模型可能需要大量的迭代來收斂。

我們首先指定一個(gè)純截距模型,以評(píng)估數(shù)據(jù)聚類結(jié)構(gòu)的影響。

glmer(是否留過級(jí)?~?1?+?(1|學(xué)校),?????????????????????????????optCtrl?=?list(maxfun=2e5))

下面我們計(jì)算一下純截距模型的ICC(類內(nèi)相關(guān))。

0.33的ICC意味著結(jié)果變量的33%的變化可以被數(shù)據(jù)的聚類結(jié)構(gòu)所解釋。這提供了證據(jù)表明,與非多層次模型相比,多層次模型可能會(huì)對(duì)模型的估計(jì)產(chǎn)生影響。因此,多層次模型的使用是必要的,也是有保證的。

完整模型

按部就班地建立一個(gè)多層次模型是很好的做法。然而,由于本文的重點(diǎn)不是多層次模型,我們直接從純截距模型到我們最終感興趣的全模型。在完整模型中,我們不僅包括性別、學(xué)前教育和學(xué)校平均社會(huì)經(jīng)濟(jì)地位的固定效應(yīng)項(xiàng)和一個(gè)隨機(jī)截距項(xiàng),還包括性別和學(xué)前教育的隨機(jī)斜率項(xiàng)。請(qǐng)注意,我們指定 family = binomial(link = "logit"),因?yàn)檫@個(gè)模型本質(zhì)上是一個(gè)二元邏輯回歸模型。

?glmer(是否留過級(jí)?~?性別?+?受過學(xué)前教育?+?學(xué)校平均社會(huì)經(jīng)濟(jì)地位?+?(1?+?性別?+?受過學(xué)前教育|學(xué)校)

結(jié)果(與固定效應(yīng)有關(guān))與之前二元邏輯回歸和二項(xiàng)邏輯回歸模型的結(jié)果相似。在學(xué)生層面上,性別對(duì)學(xué)生留級(jí)的幾率有顯著的正向影響,而學(xué)前教育有顯著的負(fù)向影響。在學(xué)校層面上,學(xué)校地位對(duì)結(jié)果變量有顯著的負(fù)向影響。我們也來看看隨機(jī)效應(yīng)項(xiàng)的方差。

同樣,我們可以使用summ()函數(shù)來檢索指數(shù)化的系數(shù)估計(jì)值,便于解釋。

sum(Model_Full)

我們還可以顯示參數(shù)估計(jì)的效果。請(qǐng)注意,由于第一級(jí)分類變量(性別和學(xué)前教育)是中心化的,因此在模型中它們被當(dāng)作連續(xù)變量,在下面的效果圖中也是如此。

plot((Model)

除了固定效應(yīng)項(xiàng)之外,我們也來看看隨機(jī)效應(yīng)項(xiàng)。從之前的ICC值來看,我們知道有必要包括一個(gè)隨機(jī)截距。但是,包括性別和學(xué)前教育的隨機(jī)斜率的必要性就不太清楚了。為了弄清楚這一點(diǎn),我們可以用似然比檢驗(yàn)和AIC來判斷隨機(jī)斜率的加入是否能改善模型的擬合。

?glmer(是否留過級(jí)?~?性別?+?受過學(xué)前教育?+?學(xué)校平均社會(huì)經(jīng)濟(jì)地位?+?(1?+?受過學(xué)前教育|學(xué)校),

#擬合一個(gè)不完整的模型,剔除`受過學(xué)前教育'的隨機(jī)斜率項(xiàng)glmer(是否留過級(jí)?~?性別?+?受過學(xué)前教育?+?學(xué)校平均社會(huì)經(jīng)濟(jì)地位?+?(1?+?性別|學(xué)校),

似然比檢驗(yàn)

比較完整的模型和排除了`性別'的模型?

將完整的模型與排除了 "受過學(xué)前教育 "的模型進(jìn)行比較?

從所有不顯著的似然比檢驗(yàn)結(jié)果(Pr(>Chisq)>0.05),我們可以得出結(jié)論,增加任何隨機(jī)斜率項(xiàng)對(duì)模型擬合都沒有明顯的改善。

AIC

AIC?#full模型AIC##沒有性別的模型AIC?##沒有受過學(xué)前教育的模型AIC##沒有隨機(jī)斜率的模型

從AIC的結(jié)果來看,我們發(fā)現(xiàn)包括隨機(jī)斜率項(xiàng)要么沒有大幅提高AIC(用較低的AIC值表示),要么導(dǎo)致更差的AIC(即更高)。因此,我們也得出結(jié)論,沒有必要包括隨機(jī)效應(yīng)項(xiàng)。

其他族(分布)和鏈接函數(shù)

到目前為止,我們已經(jīng)介紹了二元和二項(xiàng)邏輯回歸,這兩種回歸都來自于二項(xiàng)家族的logit鏈接。然而,還有許多分布族和鏈接函數(shù),我們可以在glm分析中使用。例如,為了對(duì)二元結(jié)果進(jìn)行建模,我們還可以使用probit鏈接或log-log(cloglog)來代替logit鏈接。為了給計(jì)數(shù)數(shù)據(jù)建模,我們也可以使用泊松回歸,它假設(shè)結(jié)果變量來自泊松分布,并使用對(duì)數(shù)作為鏈接函數(shù)。

參考文獻(xiàn)

Bates, D., Maechler, M., Bolker, B., & Walker, S. (2015).?Fitting Linear Mixed-Effects Models Using lme4. Journal of Statistical Software, 67(1), 1-48.?doi:10.18637/jss.v067.i01

Enders, C. K., & Tofighi, D. (2007). Centering predictor variables in cross-sectional multilevel models: A new look at an old issue.?Psychological Methods, 12(2), 121-138.?doi:10.1037/1082-989X.12.2.121

點(diǎn)擊文末?“閱讀原文”

獲取全文完整資料。

本文選自《R語言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級(jí)調(diào)查數(shù)據(jù)》。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

R語言線性混合效應(yīng)模型(固定效應(yīng)&隨機(jī)效應(yīng))和交互可視化3案例
非線性混合效應(yīng) NLME模型對(duì)抗哮喘藥物茶堿動(dòng)力學(xué)研究
生態(tài)學(xué)模擬對(duì)廣義線性混合模型GLMM進(jìn)行功率(功效、效能、效力)分析power analysis環(huán)境監(jiān)測(cè)數(shù)據(jù)
有限混合模型聚類FMM、廣義線性回歸模型GLM混合應(yīng)用分析威士忌市場(chǎng)和研究專利申請(qǐng)數(shù)據(jù)
如何用潛類別混合效應(yīng)模型(Latent Class Mixed Model ,LCMM)分析老年癡呆年齡數(shù)據(jù)
R語言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級(jí)調(diào)查數(shù)據(jù)R語言 線性混合效應(yīng)模型實(shí)戰(zhàn)案例
R語言混合效應(yīng)邏輯回歸(mixed effects logistic)模型分析肺癌數(shù)據(jù)
R語言如何用潛類別混合效應(yīng)模型(LCMM)分析抑郁癥狀
R語言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語言建立和可視化混合效應(yīng)模型mixed effect model
R語言LME4混合效應(yīng)模型研究教師的受歡迎程度
R語言 線性混合效應(yīng)模型實(shí)戰(zhàn)案例
R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)
R語言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語言如何解決線性混合模型中畸形擬合(Singular fit)的問題
基于R語言的lmer混合線性回歸模型
R語言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)建立層次(分層)貝葉斯模型
R語言分層線性模型案例
R語言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)(SAT)建立分層模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
R語言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)建立層次(分層)貝葉斯模型
SPSS中的多層(等級(jí))線性模型Multilevel linear models研究整容手術(shù)數(shù)據(jù)
用SPSS估計(jì)HLM多層(層次)線性模型模型


數(shù)據(jù)分享|R語言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級(jí)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
浦县| 沙雅县| 壶关县| 太原市| 玉溪市| 若尔盖县| 神木县| 汕尾市| 双鸭山市| 城市| 兖州市| 逊克县| 南皮县| 泗水县| 黎川县| 温宿县| 拉萨市| 仙游县| 广灵县| 沁源县| 天峻县| 长泰县| 灵武市| 靖宇县| 金寨县| 都江堰市| 榆林市| 平邑县| 黄大仙区| 文水县| 新竹市| 舒兰市| 青州市| 佛学| 丰镇市| 蒲江县| 张家港市| 延边| 司法| 绥中县| 印江|