最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

拓端tecdat|R語(yǔ)言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留

2021-07-31 23:54 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=22813

原文出處:拓端數(shù)據(jù)部落公眾號(hào)

本教程為讀者提供了使用?頻率學(xué)派的廣義線性模型(GLM)的基本介紹。具體來(lái)說(shuō),本教程重點(diǎn)介紹邏輯回歸在二元結(jié)果和計(jì)數(shù)/比例結(jié)果情況下的使用,以及模型評(píng)估的方法。本教程使用教育數(shù)據(jù)例子進(jìn)行模型的應(yīng)用。此外,本教程還簡(jiǎn)要演示了用R對(duì)GLM模型進(jìn)行的多層次擴(kuò)展。最后,還討論了GLM框架中的更多分布和鏈接函數(shù)。

本教程包含以下結(jié)構(gòu)。
1. 準(zhǔn)備工作。
2. 介紹GLM。
3. 加載教育數(shù)據(jù)。
4. 數(shù)據(jù)準(zhǔn)備。
5. 二元(伯努利)Logistic回歸。
6. 二項(xiàng)式 Logistic 回歸。
7. 多層次Logistic回歸。
8. 其他族和鏈接函數(shù)。

本教程介紹了:
- 假設(shè)檢驗(yàn)和統(tǒng)計(jì)推斷的基本知識(shí)。
- 回歸的基本知識(shí)。
- R語(yǔ)言編碼的基本知識(shí)。
- 進(jìn)行繪圖和數(shù)據(jù)處理的基本知識(shí)。

廣義線性模型(GLM)簡(jiǎn)介

對(duì)于y是連續(xù)值得情況,我們可以用這種方式處理,但當(dāng)y是離散值我們用普通線性模型就不合適了,這時(shí)我們引用另外一種模型 --- Generalised Linear Models 廣義線性模型。

為了獲取GLM模型,我們列出3個(gè)條件:

1.?

,也就是y|x為指數(shù)族分布,指數(shù)族分布形式:

2. 如果我們判斷y的假設(shè)為?

,則

。

3. 自然參數(shù)和輸入x呈線性關(guān)系:

這3個(gè)條件的來(lái)由我們不討論,我們只知道做這樣的假設(shè)是基于“設(shè)計(jì)”的選擇,而非必然。

我們以泊松回歸為例, y服從泊松分布?

,化為指數(shù)族形式,我們可以得到

。所以

之后即為最大似然法的過程。
?

教育數(shù)據(jù)

本教程中使用的數(shù)據(jù)是教育數(shù)據(jù)。

該數(shù)據(jù)來(lái)源于全國(guó)性的小學(xué)教育調(diào)查。數(shù)據(jù)中的每一行都是指一個(gè)學(xué)生。結(jié)果變量留級(jí)是一個(gè)二分變量,表示一個(gè)學(xué)生在小學(xué)教育期間是否留過級(jí)。學(xué)校變量表示一個(gè)學(xué)生所在的學(xué)校。個(gè)人層面的預(yù)測(cè)因素包括。??性別(0=女性,1=男性)和學(xué)前教育(受過學(xué)前教育,0=沒有,1=有)。學(xué)校層面是學(xué)校平均SES(社會(huì)經(jīng)濟(jì)地位)得分。

本教程利用教育數(shù)據(jù)試圖回答的主要研究問題是。

忽略數(shù)據(jù)的結(jié)構(gòu),性別和學(xué)前教育對(duì)學(xué)生是否留級(jí)的影響是什么?
忽略數(shù)據(jù)的結(jié)構(gòu),學(xué)校平均SES對(duì)學(xué)生留級(jí)比例的影響是什么?
考慮到數(shù)據(jù)的結(jié)構(gòu),性別、學(xué)前教育和學(xué)校平均SES對(duì)學(xué)生是否留級(jí)有什么影響?
這三個(gè)問題分別用以下這些模型來(lái)回答:二元邏輯回歸;二項(xiàng)邏輯回歸;多層次二元邏輯回歸。

數(shù)據(jù)準(zhǔn)備

加載必要的軟件包

  1. # 如果你還沒有安裝這些包,請(qǐng)使用install.packages("package_name")命令。

  2. library(lme4) # 用于多層次模型

  3. library(tidyverse) # 用于數(shù)據(jù)處理和繪圖

導(dǎo)入數(shù)據(jù)


  1. head(Edu)

數(shù)據(jù)處理

  1. mutate(學(xué)校 = factor(學(xué)校),

  2. 性別 = if_else(性別 == 0, "girl", "boy"),

  3. 性別 = factor(性別, levels = c("girl", "boy")),

  4. 受過學(xué)前教育 = if_else(受過學(xué)前教育 == 0, "no", "yes"),

  5. 受過學(xué)前教育 = factor(受過學(xué)前教育, levels = c("no", "yes")))

檢查缺失的數(shù)據(jù)

?summarise_each((~sum(is.na(.))

數(shù)據(jù)中,經(jīng)濟(jì)地位變量有1066個(gè)觀測(cè)值缺失。對(duì)缺失數(shù)據(jù)的處理本身就是一個(gè)復(fù)雜的話題。為了方便起見,我們?cè)诒窘坛讨泻?jiǎn)單地將數(shù)據(jù)缺失的案例刪除。

二元邏輯回歸

探索數(shù)據(jù):按性別和學(xué)前教育分類的留級(jí)數(shù)量?

  1. group_by(性別) %>%

  2. summarise(是否留過級(jí) = sum(是否留過級(jí)))

?

看來(lái),留級(jí)的學(xué)生人數(shù)在男女之間有很大的不同,更多的男學(xué)生留級(jí)。更多沒有接受過學(xué)前教育的學(xué)生留級(jí)。這一觀察結(jié)果表明,性別和學(xué)前教育可能對(duì)留級(jí)有預(yù)測(cè)作用。

構(gòu)建二元邏輯回歸模型

R默認(rèn)安裝了基礎(chǔ)包,其中包括運(yùn)行GLM的glm函數(shù)。glm的參數(shù)與lm的參數(shù)相似:公式和數(shù)據(jù)。然而,glm需要一個(gè)額外的參數(shù):family,它指定了結(jié)果變量的假設(shè)分布;在family中我們還需要指定鏈接函數(shù)。family的默認(rèn)值是gaussian(link = "identity"),這導(dǎo)致了一個(gè)線性模型,相當(dāng)于由lm指定的模型。在二元邏輯回歸的情況下,glm要求我們指定一個(gè)帶有l(wèi)ogit鏈接的二項(xiàng)分布,即family = binomial(link = "logit") 。

  1. glm(formula ,

  2. family = binomial(link = "logit"))

解釋

從上面的總結(jié)輸出中,我們可以看到,性別對(duì)學(xué)生留級(jí)的概率有正向和顯著的預(yù)測(cè),而學(xué)前教育則有負(fù)向和顯著的預(yù)測(cè)。具體來(lái)說(shuō),與女孩相比,男孩更有可能留級(jí)。以前上過學(xué)的學(xué)生不太可能導(dǎo)致留級(jí)。

為了解釋參數(shù)估計(jì)值,我們需要對(duì)估計(jì)值進(jìn)行指數(shù)化處理。

請(qǐng)注意,參數(shù)估計(jì)的解釋與幾率而不是概率有關(guān)。賠率的定義是。P(事件發(fā)生)/P(事件未發(fā)生)。在本分析中,假設(shè)其他一切保持不變,與女孩相比,男孩增加了54%的留級(jí)幾率;與沒有學(xué)前教育相比,假設(shè)其他一切保持不變,擁有學(xué)前教育降低了(1-0.54)%=46%的留級(jí)幾率。

參數(shù)效應(yīng)的可視化

為了使參數(shù)效應(yīng)的解釋更加容易,我們可以對(duì)參數(shù)效應(yīng)可視化。

plot(Effects)

請(qǐng)注意,在這兩張圖中,Y刻度指的是留級(jí)的概率,而不是幾率。概率比幾率更容易解釋。每個(gè)變量的概率分?jǐn)?shù)是通過假設(shè)模型中的其他變量是常數(shù)并采取其平均值來(lái)計(jì)算的。正如我們所看到的,假設(shè)一個(gè)學(xué)生有平均的學(xué)前教育,作為一個(gè)男孩比作為一個(gè)女孩有更高的留級(jí)概率(~0.16)~0.11)。同樣,假設(shè)一個(gè)學(xué)生有一個(gè)平均的性別,有學(xué)前教育的學(xué)生比沒有學(xué)前教育的學(xué)生留級(jí)的概率低(~0.11)(~0.18)。請(qǐng)注意,在這兩幅圖中,還包括了估計(jì)值的置信區(qū)間,以使我們對(duì)估計(jì)值的不確定性有一些了解。

請(qǐng)注意,平均學(xué)前教育和性別的概念可能聽起來(lái)很奇怪,因?yàn)樗鼈兪欠诸愖兞浚匆蛩兀?。如果你?duì)假設(shè)一個(gè)平均因素的想法感到奇怪,你可以指定你的預(yù)期因素水平作為參考點(diǎn)。

?predictors = list( values=c(性別boy=0, 受過學(xué)前教育yes = 0))

設(shè)置性別boy = 0意味著在學(xué)前教育效應(yīng)圖中,性別變量的參考水平被設(shè)置為0;學(xué)前教育yes = 0導(dǎo)致0成為性別效應(yīng)圖中學(xué)前教育變量的參考水平。

因此,正如上面兩幅圖所示,假設(shè)學(xué)生沒有接受過學(xué)前教育,作為男孩的留級(jí)概率(~0.20)比作為女孩的留級(jí)概率(~0.14)要高;假設(shè)學(xué)生是女性,有學(xué)前教育的留級(jí)概率(~0.09)比沒有學(xué)前教育的留級(jí)概率(~0.15)要低。

模型評(píng)估:擬合度

評(píng)價(jià)邏輯回歸模型的擬合度有不同的方法。

似然比檢驗(yàn)

如果一個(gè)邏輯回歸模型與預(yù)測(cè)因子較少的模型相比,顯示出擬合度的提高,則該模型對(duì)數(shù)據(jù)有較好的擬合度。這是用似然比檢驗(yàn)進(jìn)行的,它將完整模型下數(shù)據(jù)的似然性與較少預(yù)測(cè)因素的模型下數(shù)據(jù)的似然性進(jìn)行比較。從一個(gè)模型中刪除預(yù)測(cè)變量幾乎總是會(huì)使模型的擬合度降低(即模型的對(duì)數(shù)似然率較低),但測(cè)試觀察到的模型擬合度差異是否具有統(tǒng)計(jì)學(xué)意義是很有用的。

  1. #指定一個(gè)只有`性別'變量的模型

  2. #使用`anova()`函數(shù)來(lái)運(yùn)行似然比測(cè)試

  3. anova(ModelTest, Model, test ="Chisq")

我們可以看到,同時(shí)包含性別和學(xué)前教育的預(yù)測(cè)因子的模型比只包含性別變量的模型對(duì)數(shù)據(jù)的擬合效果要好得多。請(qǐng)注意,這種方法也可以用來(lái)確定是否有必要包括一個(gè)或一組變量。

?AIC

Akaike信息準(zhǔn)則(AIC)是另一個(gè)模型選擇的衡量標(biāo)準(zhǔn)。與似然比檢驗(yàn)不同,AIC的計(jì)算不僅要考慮模型的擬合度,還要考慮模型的簡(jiǎn)單性。通過這種方式,AIC處理了模型的擬合度和復(fù)雜性之間的權(quán)衡,因此,不鼓勵(lì)過度擬合。較小的AIC是首選。

在AIC值較小的情況下,同時(shí)具有性別和學(xué)前教育預(yù)測(cè)因子的模型優(yōu)于只具有性別預(yù)測(cè)因子的模型。

正確分類率

正確分類率是另一個(gè)有用的衡量標(biāo)準(zhǔn),可以看出模型對(duì)數(shù)據(jù)的合適程度。

  1. #使用`predict()`函數(shù),從擬合的模型中計(jì)算出原始數(shù)據(jù)中學(xué)生的預(yù)測(cè)概率

  2. Pred <- if_else(Pred > 0.5, 1, 0)

  3. ConfusionMatrix <- table(Pred, TRUE)

  4. #正確的分類率


我們可以看到,該模型對(duì)所有觀測(cè)值的85.8%進(jìn)行了正確分類。然而,仔細(xì)觀察可以發(fā)現(xiàn),模型預(yù)測(cè)所有的觀察值都屬于 "0 "類,也就是說(shuō),所有的學(xué)生都被預(yù)測(cè)為不留級(jí)??紤]到留級(jí)變量的多數(shù)類別是0(不),該模型在分類上的表現(xiàn)并不比簡(jiǎn)單地將所有觀測(cè)值分配到多數(shù)類別0(不)更好。

AUC(曲線下面積)

使用正確分類率的一個(gè)替代方法是曲線下面積(AUC)測(cè)量。AUC測(cè)量區(qū)分度,即測(cè)試對(duì)有目標(biāo)反應(yīng)和無(wú)目標(biāo)反應(yīng)的人進(jìn)行正確分類的能力。在目前的數(shù)據(jù)中,目標(biāo)變量是留級(jí)。我們從 "留級(jí) "組和 "不留級(jí) "組中隨機(jī)抽取一名學(xué)生。預(yù)測(cè)概率較高的學(xué)生應(yīng)該是 "留級(jí) "組中的學(xué)生。AUC是隨機(jī)抽出的對(duì)子的百分比。這個(gè)程序?qū)UC與正確分類率區(qū)分開來(lái),因?yàn)锳UC不依賴于結(jié)果變量中類的比例的變化。0.50的值意味著該模型的分類效果不比隨機(jī)好。一個(gè)好的模型應(yīng)該有一個(gè)遠(yuǎn)遠(yuǎn)高于0.50的AUC分?jǐn)?shù)(最好高于0.80)。

  1. # 計(jì)算用該模型預(yù)測(cè)類別的AUC


  2. AUC <- performance(Pred, measure = "auc")

  3. AUC <- AUC@y.values[[1]]

  4. AUC

AUC分?jǐn)?shù)為0.60,該模型的判別能力不強(qiáng)。

二項(xiàng)式 Logistic 回歸

正如開頭提到的,邏輯回歸也可以用來(lái)為計(jì)數(shù)或比例數(shù)據(jù)建模。二項(xiàng)邏輯回歸假設(shè)結(jié)果變量來(lái)自伯努利分布(這是二項(xiàng)分布的一個(gè)特例),其中試驗(yàn)次數(shù)n為1,因此結(jié)果變量只能是1或0。 相反,二項(xiàng)邏輯回歸假設(shè)目標(biāo)事件的數(shù)量遵循二項(xiàng)分布,試驗(yàn)次數(shù)n,概率q。這樣一來(lái),二項(xiàng)邏輯回歸允許結(jié)果變量取任何非負(fù)整數(shù)值,因此能夠處理計(jì)數(shù)數(shù)據(jù)。

教育數(shù)據(jù)記錄了集中在學(xué)校內(nèi)的個(gè)別學(xué)生的信息。通過匯總各學(xué)校留級(jí)的學(xué)生人數(shù),我們得到一個(gè)新的數(shù)據(jù)集,其中每一行代表一所學(xué)校,并有關(guān)于該學(xué)校留級(jí)學(xué)生的比例信息。學(xué)校平均社會(huì)經(jīng)濟(jì)地位(平均SES分?jǐn)?shù))也是在學(xué)校層面上的;因此,它可以用來(lái)預(yù)測(cè)在某個(gè)學(xué)校留級(jí)的學(xué)生的比例或數(shù)量。

轉(zhuǎn)換數(shù)據(jù)

在這個(gè)新的數(shù)據(jù)集中,留級(jí)指的是留級(jí)的學(xué)生人數(shù);TOTAL指的是某所學(xué)校的學(xué)生總數(shù)。

探索數(shù)據(jù)


  1. ggplot(aes(x , y)) +

  2. geom_smooth(method = "lm")

我們可以看到,留級(jí)的學(xué)生比例與學(xué)校平均社會(huì)經(jīng)濟(jì)地位的反對(duì)數(shù)呈負(fù)相關(guān)。請(qǐng)注意,我們將變量學(xué)校平均社會(huì)經(jīng)濟(jì)地位建模為其反對(duì)數(shù),因?yàn)樵诙?xiàng)式回歸模型中,我們假設(shè)線性預(yù)測(cè)因子的反對(duì)數(shù)與結(jié)果(即事件比例)之間存在線性關(guān)系,而不是預(yù)測(cè)因子本身與結(jié)果之間存在線性關(guān)系。

擬合二項(xiàng)式Logistic回歸模型

為了擬合二項(xiàng)式邏輯回歸模型,我們也使用glm函數(shù)。唯一的區(qū)別是在公式中對(duì)結(jié)果變量的說(shuō)明。我們需要指定目標(biāo)事件的數(shù)量(留級(jí))和非事件的數(shù)量(TOTAL-留級(jí)),并將它們包在cbind()中。

  1. glm(cbind(是否留過級(jí), TOTAL-是否留過級(jí)) ~ 學(xué)校平均社會(huì)經(jīng)濟(jì)地位,

  2. family = binomial(logit))

解釋

二項(xiàng)式回歸模型的參數(shù)解釋與二項(xiàng)式邏輯回歸模型相同。從上面的模型總結(jié)中我們知道,一所學(xué)校的平均SES分?jǐn)?shù)與該校學(xué)生留級(jí)的幾率呈負(fù)相關(guān)。為了提高可解釋性,我們?cè)俅问褂胹umm()函數(shù)來(lái)計(jì)算學(xué)校平均社會(huì)經(jīng)濟(jì)地位的指數(shù)化系數(shù)估計(jì)。由于學(xué)校平均社會(huì)經(jīng)濟(jì)地位是一個(gè)連續(xù)的變量,我們可以將指數(shù)化的學(xué)校平均社會(huì)經(jīng)濟(jì)地位估計(jì)值標(biāo)準(zhǔn)化(通過將原始估計(jì)值與變量的SD相乘,然后將所得數(shù)字指數(shù)化)。

  1. #注意,為了對(duì)二項(xiàng)回歸模型使用summ()函數(shù),我們需要將結(jié)果變量作為對(duì)象。

  2. 是否留過級(jí) <- (filter(edu, !is.na(學(xué)校平均社會(huì)經(jīng)濟(jì)地位)), 是否留過級(jí))

我們可以看到,隨著學(xué)校平均社會(huì)經(jīng)濟(jì)地位的SD增加,學(xué)生留級(jí)的幾率降低了1 - 85% = 15%。

我們可以直觀地看到學(xué)校平均社會(huì)經(jīng)濟(jì)地位的效果。

plot(allEffects)

上面的圖表顯示了學(xué)校平均社會(huì)經(jīng)濟(jì)地位對(duì)學(xué)生留級(jí)概率的預(yù)期影響。在其他因素不變的情況下,隨著學(xué)校平均社會(huì)經(jīng)濟(jì)地位的增加,一個(gè)學(xué)生留級(jí)的概率會(huì)降低(從0.19到0.10)。藍(lán)色陰影區(qū)域表示每個(gè)學(xué)校平均社會(huì)經(jīng)濟(jì)地位值的預(yù)測(cè)值的95%置信區(qū)間。

多層次二元邏輯回歸

前面介紹的二元邏輯回歸模型僅限于對(duì)學(xué)生層面的預(yù)測(cè)因素的影響進(jìn)行建模;二元邏輯回歸僅限于對(duì)學(xué)校層面的預(yù)測(cè)因素的影響進(jìn)行建模。為了同時(shí)納入學(xué)生層面和學(xué)校層面的預(yù)測(cè)因素,我們可以使用多層次模型,特別是多層次二元邏輯回歸。

除了上述動(dòng)機(jī)外,還有更多使用多層次模型的理由。例如,由于數(shù)據(jù)是在學(xué)校內(nèi)分類的,來(lái)自同一學(xué)校的學(xué)生很可能比來(lái)自其他學(xué)校的學(xué)生更相似。正因?yàn)槿绱?,在一所學(xué)校,一個(gè)學(xué)生留級(jí)的概率可能很高,而在另一所學(xué)校,則很低。此外,即使是結(jié)果(即留級(jí))和預(yù)測(cè)變量(如性別、學(xué)前教育、學(xué)校平均社會(huì)經(jīng)濟(jì)地位)之間的關(guān)系,在不同的學(xué)校也可能不同。還要注意的是,學(xué)校平均社會(huì)經(jīng)濟(jì)地位變量中存在缺失值。使用多層次模型可以較好地解決這些問題。

請(qǐng)看下面的圖作為例子。該圖顯示了各學(xué)校留級(jí)學(xué)生的比例。我們可以看到不同學(xué)校之間的巨大差異。因此,我們可能需要多層次模型。

  1. group_by(學(xué)校) %>%

  2. summarise(PROP = sum(是否留過級(jí))/n()) %>%

  3. plot()

我們還可以通過學(xué)校來(lái)繪制性別和留級(jí)之間的關(guān)系,以了解性別和留級(jí)之間的關(guān)系是否因?qū)W校而異。

  1. mutate(性別 = if_else(性別 == "boy", 1, 0)) %>%

  2. ggplot(aes(x = 性別, y = 是否留過級(jí), color = as.factor(學(xué)校))) +

在上面的圖中,不同的顏色代表不同的學(xué)校。我們可以看到,不同學(xué)校的性別和留級(jí)之間的關(guān)系似乎有很大不同。

我們可以為學(xué)前教育和留級(jí)做同樣的圖。

  1. mutate(性別 = if_else(性別 == "girl", 0, 1),

  2. 受過學(xué)前教育 = if_else(受過學(xué)前教育 == "yes", 1, 0)) %>%

  3. group_by(學(xué)校) %>%

  4. mutate(性別 = 性別 - mean(性別),

學(xué)前教育和留級(jí)之間的關(guān)系在不同的學(xué)校也顯得相當(dāng)不同。然而,我們也可以看到,大多數(shù)的關(guān)系都呈下降趨勢(shì),從0(以前沒有上過學(xué))到1(以前上過學(xué)),表明學(xué)前教育和留級(jí)之間的關(guān)系為負(fù)。

由于上述觀察結(jié)果,我們可以得出結(jié)論,在目前的數(shù)據(jù)中需要建立多層次的模型,不僅要有隨機(jī)截距(學(xué)校),還可能要有性別和學(xué)前教育的隨機(jī)斜率。

中心化變量

在擬合多層次模型之前,有必要采用適當(dāng)?shù)闹行幕椒ǎ淳抵行幕?duì)預(yù)測(cè)變量進(jìn)行中心化,因?yàn)橹行幕椒▽?duì)模型估計(jì)的解釋很重要。根據(jù)Enders和Tofighi(2007)的建議,我們應(yīng)該對(duì)第一層次的預(yù)測(cè)因子性別和學(xué)前教育使用中心化,對(duì)第二層次的預(yù)測(cè)因子學(xué)校平均社會(huì)經(jīng)濟(jì)地位使用均值中心化。

  1. 受過學(xué)前教育 = if_else(受過學(xué)前教育 == "yes", 1, 0)) %>%

  2. group_by(學(xué)校) %>%

  3. mutate(性別 = 性別 - mean(性別),

  4. 受過學(xué)前教育 = 受過學(xué)前教育 - mean(受過學(xué)前教育)) %>%

  5. ungroup() %>%

只有截距模型

為了指定一個(gè)多層次模型,我們使用lme4軟件包。隨機(jī)斜率項(xiàng)和聚類項(xiàng)應(yīng)該用|分隔。注意,我們使用了一個(gè)額外的參數(shù)指定比默認(rèn)值(10000)更大的最大迭代次數(shù)。因?yàn)橐粋€(gè)多層次模型可能需要大量的迭代來(lái)收斂。

我們首先指定一個(gè)純截距模型,以評(píng)估數(shù)據(jù)聚類結(jié)構(gòu)的影響。

  1. glmer(是否留過級(jí) ~ 1 + (1|學(xué)校),

  2. optCtrl = list(maxfun=2e5))

下面我們計(jì)算一下純截距模型的ICC(類內(nèi)相關(guān))。

0.33的ICC意味著結(jié)果變量的33%的變化可以被數(shù)據(jù)的聚類結(jié)構(gòu)所解釋。這提供了證據(jù)表明,與非多層次模型相比,多層次模型可能會(huì)對(duì)模型的估計(jì)產(chǎn)生影響。因此,多層次模型的使用是必要的,也是有保證的。

完整模型

按部就班地建立一個(gè)多層次模型是很好的做法。然而,由于本文的重點(diǎn)不是多層次模型,我們直接從純截距模型到我們最終感興趣的全模型。在完整模型中,我們不僅包括性別、學(xué)前教育和學(xué)校平均社會(huì)經(jīng)濟(jì)地位的固定效應(yīng)項(xiàng)和一個(gè)隨機(jī)截距項(xiàng),還包括性別和學(xué)前教育的隨機(jī)斜率項(xiàng)。請(qǐng)注意,我們指定 family = binomial(link = "logit"),因?yàn)檫@個(gè)模型本質(zhì)上是一個(gè)二元邏輯回歸模型。

glmer(是否留過級(jí) ~ 性別 + 受過學(xué)前教育 + 學(xué)校平均社會(huì)經(jīng)濟(jì)地位 + (1 + 性別 + 受過學(xué)前教育|學(xué)校)

結(jié)果(與固定效應(yīng)有關(guān))與之前二元邏輯回歸和二項(xiàng)邏輯回歸模型的結(jié)果相似。在學(xué)生層面上,性別對(duì)學(xué)生留級(jí)的幾率有顯著的正向影響,而學(xué)前教育有顯著的負(fù)向影響。在學(xué)校層面上,學(xué)校地位對(duì)結(jié)果變量有顯著的負(fù)向影響。我們也來(lái)看看隨機(jī)效應(yīng)項(xiàng)的方差。

同樣,我們可以使用summ()函數(shù)來(lái)檢索指數(shù)化的系數(shù)估計(jì)值,便于解釋。

sum(Model_Full)

我們還可以顯示參數(shù)估計(jì)的效果。請(qǐng)注意,由于第一級(jí)分類變量(性別和學(xué)前教育)是中心化的,因此在模型中它們被當(dāng)作連續(xù)變量,在下面的效果圖中也是如此。

plot((Model)

除了固定效應(yīng)項(xiàng)之外,我們也來(lái)看看隨機(jī)效應(yīng)項(xiàng)。從之前的ICC值來(lái)看,我們知道有必要包括一個(gè)隨機(jī)截距。但是,包括性別和學(xué)前教育的隨機(jī)斜率的必要性就不太清楚了。為了弄清楚這一點(diǎn),我們可以用似然比檢驗(yàn)和AIC來(lái)判斷隨機(jī)斜率的加入是否能改善模型的擬合。

glmer(是否留過級(jí) ~ 性別 + 受過學(xué)前教育 + 學(xué)校平均社會(huì)經(jīng)濟(jì)地位 + (1 + 受過學(xué)前教育|學(xué)校),

  1. #擬合一個(gè)不完整的模型,剔除`受過學(xué)前教育'的隨機(jī)斜率項(xiàng)

  2. glmer(是否留過級(jí) ~ 性別 + 受過學(xué)前教育 + 學(xué)校平均社會(huì)經(jīng)濟(jì)地位 + (1 + 性別|學(xué)校),


似然比檢驗(yàn)

比較完整的模型和排除了`性別'的模型?

將完整的模型與排除了 "受過學(xué)前教育 "的模型進(jìn)行比較?

從所有不顯著的似然比檢驗(yàn)結(jié)果(Pr(>Chisq)>0.05),我們可以得出結(jié)論,增加任何隨機(jī)斜率項(xiàng)對(duì)模型擬合都沒有明顯的改善。

AIC

  1. AIC #full模型

  2. AIC##沒有性別的模型

  3. AIC ##沒有受過學(xué)前教育的模型

  4. AIC##沒有隨機(jī)斜率的模型

從AIC的結(jié)果來(lái)看,我們發(fā)現(xiàn)包括隨機(jī)斜率項(xiàng)要么沒有大幅提高AIC(用較低的AIC值表示),要么導(dǎo)致更差的AIC(即更高)。因此,我們也得出結(jié)論,沒有必要包括隨機(jī)效應(yīng)項(xiàng)。

其他族(分布)和鏈接函數(shù)

到目前為止,我們已經(jīng)介紹了二元和二項(xiàng)邏輯回歸,這兩種回歸都來(lái)自于二項(xiàng)家族的logit鏈接。然而,還有許多分布族和鏈接函數(shù),我們可以在glm分析中使用。例如,為了對(duì)二元結(jié)果進(jìn)行建模,我們還可以使用probit鏈接或log-log(cloglog)來(lái)代替logit鏈接。為了給計(jì)數(shù)數(shù)據(jù)建模,我們也可以使用泊松回歸,它假設(shè)結(jié)果變量來(lái)自泊松分布,并使用對(duì)數(shù)作為鏈接函數(shù)。

參考文獻(xiàn)

Bates, D., Maechler, M., Bolker, B., & Walker, S. (2015).?Fitting Linear Mixed-Effects Models Using lme4. Journal of Statistical Software, 67(1), 1-48.?doi:10.18637/jss.v067.i01

Enders, C. K., & Tofighi, D. (2007). Centering predictor variables in cross-sectional multilevel models: A new look at an old issue.?Psychological Methods, 12(2), 121-138.?doi:10.1037/1082-989X.12.2.121

最受歡迎的見解

1.基于R語(yǔ)言的lmer混合線性回歸模型

2.R語(yǔ)言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)

3.R語(yǔ)言線性混合效應(yīng)模型實(shí)戰(zhàn)案例

4.R語(yǔ)言線性混合效應(yīng)模型實(shí)戰(zhàn)案例2

5.R語(yǔ)言線性混合效應(yīng)模型實(shí)戰(zhàn)案例

6.線性混合效應(yīng)模型Linear Mixed-Effects Models的部分折疊Gibbs采樣

7.R語(yǔ)言LME4混合效應(yīng)模型研究教師的受歡迎程度

8.R語(yǔ)言中基于混合數(shù)據(jù)抽樣(MIDAS)回歸的HAR-RV模型預(yù)測(cè)GDP增長(zhǎng)

9.使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM


拓端tecdat|R語(yǔ)言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
沾化县| 桦川县| 镇江市| 江川县| 安福县| 清涧县| 太仆寺旗| 那坡县| 鄱阳县| 山东省| 连云港市| 武川县| 吉安县| 英吉沙县| 哈尔滨市| 合江县| 华容县| 中卫市| 子洲县| 仁怀市| 长沙县| 青浦区| 介休市| 金平| 泗阳县| 白玉县| 沈丘县| 库车县| 谷城县| 罗山县| 阿拉善盟| 永寿县| 泊头市| 巴林左旗| 仙桃市| 岗巴县| 梁河县| 乐昌市| 太仓市| 隆德县| 通州区|