拓端tecdat|基于R語言混合效應(yīng)模型(mixed model)案例研究
原文鏈接:?http://tecdat.cn/?p=2596
原文出處:拓端數(shù)據(jù)部落公眾號
1.混合模型是否適合您的需求?
混合模型在很多方面與線性模型相似。它估計一個或多個解釋變量對因變量的影響。混合模型的輸出將為解釋值列表,它們的效果大小的估計值和置信區(qū)間,每種效果的p值以及至少一種模型擬合程度的度量。當(dāng)您有一個變量將數(shù)據(jù)樣本描述為可以收集的數(shù)據(jù)的子集時,應(yīng)該使用混合模型而不是簡單的線性模型。
讓我們看一下正在研究的黃蜂親屬識別數(shù)據(jù)。
str(data)
## 'data.frame': 84 obs. of ?6 variables:
## ?$ Test.ID ? : int ?1 2 3 4 5 6 7 8 9 10 ...
## ?$ Observer ?: Factor w/ 4 levels "Charles","Michelle",..: 1 4 2 4 1 3 2 2 1 2 ...
## ?$ Relation ?: Factor w/ 2 levels "Same","Stranger": 1 1 1 1 1 1 1 1 1 1 ...
## ?$ Aggression: int ?4 1 15 2 1 0 2 0 3 10 ...
## ?$ Tolerance : int ?4 34 14 31 4 13 7 6 13 15 ...
## ?$ Season ? ?: Factor w/ 2 levels "Early","Late": 1 1 1 1 1 1 1 1 1 1 ...
我感興趣的因變量是攻擊性和寬容度。侵略性是指六十分鐘內(nèi)的攻擊行為次數(shù)。寬容是指六十分鐘內(nèi)的寬容行為數(shù)量。我對關(guān)系(無論黃蜂來自相同還是不同的菌落)和季節(jié)(菌落周期的早期或晚期)對這些因變量的影響感興趣。這些影響是“固定的”,因?yàn)闊o論我在何處,如何采樣或采樣了多少只黃蜂,我在相同變量中仍將具有相同的水平:相同的菌落與不同的菌落,以及早季與晚季。
但是,還有兩個其他變量在樣本之間不會保持固定。如果我在不同的年份進(jìn)行采樣,那么觀察者的水平會有所不同。樣品之間的測試ID也會有所不同,因?yàn)槲铱偸强梢灾匦掳才拍男S蜂參與每個實(shí)驗(yàn)試驗(yàn)。每個試驗(yàn)都是我當(dāng)時收集的黃蜂的唯一子樣本。如果我能夠單獨(dú)測試黃蜂,并且如果所有觀察都對所有互動進(jìn)行了評分,那么我將不會有任何隨機(jī)效應(yīng)。但是,相反,我的數(shù)據(jù)本來就是“塊狀”的,隨機(jī)效應(yīng)描述了這種塊狀性。
在繼續(xù)之前,您還需要考慮隨機(jī)效果的結(jié)構(gòu)。您的隨機(jī)效果是嵌套還是交叉?在我的研究中,隨機(jī)效應(yīng)是?嵌套的,因?yàn)槊總€觀察者記錄了一定數(shù)量的試,并且沒有兩個觀察者記錄了相同的試驗(yàn),因此Test.ID嵌套在Observer中。但是說我收集了五個不同遺傳譜系中的黃蜂?!斑z傳學(xué)”的隨機(jī)效應(yīng)與觀察無關(guān)。它將與其他兩個隨機(jī)效應(yīng)交叉。因此,這種隨機(jī)效應(yīng)將?與其他效應(yīng)?交叉。
2.哪種概率分布最適合您的數(shù)據(jù)?
假設(shè)您已決定要運(yùn)行混合模型。接下來要做的是找到最適合您數(shù)據(jù)的概率分布。有很多測試方法。請注意,負(fù)二項(xiàng)式和伽馬分布只能處理正數(shù),而泊松分布只能處理正整數(shù)。二項(xiàng)分布和泊松分布與其他分布不同,因?yàn)樗鼈兪请x散的而不是連續(xù)的,這意味著它們可以量化不同的,可數(shù)的事件或這些事件的概率?,F(xiàn)在讓我們?yōu)槲业腁ggression變量找到一個合適的分布。
require(car)
## 正在加載所需的包: car
require(MASS)
# 必須為非零的分布
qqp(Aggression, "norm")

# lnorm 表示對數(shù)正態(tài)
qqp(Aggression, "lnorm")

# qqp需要估計負(fù)二項(xiàng)式,泊松和伽瑪分布的參數(shù)。您可以使用fitdistr函數(shù)生成估算值。保存輸出并提取每個參數(shù)的估計值,如下所示。
fitdistr(rAggression, "Negative Binomial")

qqp(Aggressio, "pois", estimate)

fitdistr(Aggression.t, "gamma")

查看我使用qqp生成的圖。y軸表示觀測值,x軸表示通過分布建模的分位數(shù)。紅色實(shí)線表示理想分布擬合,紅色虛線表示理想分布擬合的置信區(qū)間。您想選擇最大的觀測值落在虛線之間的分布。在這種情況下,這就是對數(shù)正態(tài)分布,其中只有一個觀測值落在虛線之外?,F(xiàn)在,我可以嘗試擬合模型。
3.如何將混合模型擬合到您的數(shù)據(jù)
3a.如果您的數(shù)據(jù)是正態(tài)分布的
首先,請注意:如果您的數(shù)據(jù)最適合對數(shù)正態(tài)分布,?請不要對其進(jìn)行變換。?由于變換使模型結(jié)果的解釋更加困難。
如果數(shù)據(jù)呈正態(tài)分布,則可以使用線性混合模型(LMM)。該函數(shù)的第一個參數(shù)是一個公式,形式為y?x1 + x2 ...等,其中y是因變量,而x1,x2等是解釋變量。交叉隨機(jī)效應(yīng)的形式為(1 | r1)+(1 | r2)...,而嵌套隨機(jī)效應(yīng)的形式為(1 | r1 / r2)。
在這里,您可以指定混合模型將使用最大似然還是受限最大似然來估計參數(shù)。如果您的隨機(jī)效應(yīng)是嵌套的,或者只有一個隨機(jī)效應(yīng),并且您的數(shù)據(jù)是平衡的(即,每個因子組中的樣本量相似),則將REML設(shè)置為FALSE,因?yàn)槟梢允褂米畲笏迫宦?。如果交叉了隨機(jī)效果,請不要設(shè)置REML參數(shù),因?yàn)闊o論如何它默認(rèn)為TRUE。
為了避免這一切看起來太抽象,讓我們嘗試一些數(shù)據(jù)。我們將有關(guān)八哥歌曲研究的一些數(shù)據(jù)。在這項(xiàng)研究中,我們對雄性和雌性八哥歌曲之間的差異以及社會地位,不同的鳥類的歌唱是否不同感興趣。我們的隨機(jī)效應(yīng)是社會群體。歌曲的平均音高符合正態(tài)概率分布。
str(starlings)
## 'data.frame': 28 obs. of ?5 variables:
## ?$ Individual : Factor w/ 28 levels "B-40917","B-41205",..: 4 5 6 15 3 16 8 13 20 14 ...
## ?$ Sex ? ? ? ?: Factor w/ 2 levels "F","M": 2 2 2 2 2 1 1 1 1 2 ...
## ?$ Group ? ? ?: Factor w/ 5 levels "DRT1","MRC1",..: 2 5 5 4 4 4 4 4 4 4 ...
## ?$ Social.Rank: Factor w/ 2 levels "Breeder","Helper": 2 1 1 1 2 2 2 2 1 2 ...
## ?$ Mean.Pitch : num ?2911 2978 3313 3268 3312 ...
summary(lmm)
## Linear mixed model fit by maximum likelihood ?['lmerMod']
## Formula: Mean.Pitch ~ Sex + Social.Rank + (1 | Group)
## ? ?Data: starlings
##
## ? ? ?AIC ? ? ?BIC ? logLik deviance df.resid
## ? ?389.3 ? ?396.0 ? -189.7 ? ?379.3 ? ? ? 23
##
## Scaled residuals:
## ? ? Min ? ? ?1Q ?Median ? ? ?3Q ? ? Max
## -2.0559 -0.6272 ?0.0402 ?0.5801 ?2.0110
##
## Random effects:
## ?Groups ? Name ? ? ? ?Variance Std.Dev.
## ?Group ? ?(Intercept) ? ? 0 ? ? ?0
## ?Residual ? ? ? ? ? ? 44804 ? ?212
## Number of obs: 28, groups: Group, 5
##
## Fixed effects:
## ? ? ? ? ? ? ? ? ? Estimate Std. Error t value
## (Intercept) ? ? ? ? 3099.0 ? ? ? 82.2 ? ?37.7
## SexM ? ? ? ? ? ? ? ? ?51.7 ? ? ? 81.3 ? ? 0.6
## Social.RankHelper ? ?-45.0 ? ? ? 82.4 ? ?-0.5
##
## Correlation of Fixed Effects:
## ? ? ? ? ? ? (Intr) SexM
## SexM ? ? ? ?-0.630
## Scl.RnkHlpr -0.668 ?0.106
讓我們看看結(jié)果。首先,我們獲得一些模型擬合的度量,包括AIC,BIC,對數(shù)似然度和偏差。然后我們得到由隨機(jī)效應(yīng)解釋的方差估計。這個數(shù)字很重要,因?yàn)槿绻c零沒有區(qū)別,那么您的隨機(jī)效應(yīng)可能并不重要,您可以繼續(xù)進(jìn)行常規(guī)的線性模型建立。接下來,我們將對固定效應(yīng)進(jìn)行估算,帶有標(biāo)準(zhǔn)誤差。這些信息可能足以滿足您的需求。一些期刊將這些模型的結(jié)果報告為帶有置信區(qū)間的效應(yīng)大小。當(dāng)然,當(dāng)我查看固定效應(yīng)估算值時,我已經(jīng)可以看出,性別和社會地位之間的平均音高沒有差異。但是有些期刊希望您報告p值。
如果您想要一些p值,則需要使用Anova函數(shù)。
## Analysis of Deviance Table (Type II Wald chisquare tests)
##
## Response: Mean.Pitch
## ? ? ? ? ? ? Chisq Df Pr(>Chisq)
## Sex ? ? ? ? ? 0.4 ?1 ? ? ? 0.52
## Social.Rank ? 0.3 ?1 ? ? ? 0.58
Anova函數(shù)進(jìn)行了Wald檢驗(yàn),該檢驗(yàn)告訴我們我們對性別和社會地位對音高的影響的估計p值。
擬合線性混合模型時,可能會遇到一種復(fù)雜情況。R可能會有“無法收斂”錯誤,通常將其表述為“沒有收斂就達(dá)到了迭代限制”。這意味著您的模型有太多因素,樣本量不夠大,無法擬合。然后,您應(yīng)該做的是從模型中刪除固定效果和隨機(jī)效果,然后進(jìn)行比較以找出最合適的效果。一次刪除固定效果和隨機(jī)效果。保持固定效果不變,并一次刪除一個隨機(jī)效果,然后找出最合適的效果。然后保持隨機(jī)效果不變,并一次刪除固定效果。在這里,我只有一種隨機(jī)效果,
anova(noranklmm, nosexlmm, nofixedlmm)
## Data: starlings
## Models:
## nofixedlmm: Mean.Pitch ~ 1 + (1 | Group)
## noranklmm: Mean.Pitch ~ Sex + (1 | Group)
## nosexlmm: Mean.Pitch ~ Social.Rank + (1 | Group)
## ? ? ? ? ? ?Df AIC BIC logLik deviance Chisq Chi Df Pr(>Chisq)
## nofixedlmm ?3 386 390 ? -190 ? ? ?380
## noranklmm ? 4 388 393 ? -190 ? ? ?380 ?0.48 ? ? ?1 ? ? ? 0.49
## nosexlmm ? ?4 388 393 ? -190 ? ? ?380 ?0.00 ? ? ?0 ? ? ? 1.00
請注意,該方差分析函數(shù)與我們用來評估模型中固定效果的重要性的方差分析函數(shù)不同。方差分析函數(shù)用于比較模型。p值表明模型之間沒有明顯的重要差異。我們還可以比較AIC值,請注意,具有最低AIC值的模型是完全沒有固定影響的模型,這符合我們的理解,即性別和社會地位對歌曲的音調(diào)沒有影響。無論采用哪種方法,請務(wù)必在稿件中報告用于選擇最佳模型的p值或AIC值。
3b.如果您的數(shù)據(jù)不是正態(tài)分布的
您會看到,用于估計模型中影響大小的REML和最大似然法做出了不適用于數(shù)據(jù)的正態(tài)假設(shè),因此您必須使用其他方法進(jìn)行參數(shù)估計。問題在于,存在許多替代的估算方法,每種估算方法都使用不同的R包運(yùn)行,并且很難確定哪種方法合適。
首先,我們需要測試是否可以使用懲罰擬似然(PQL)。PQL是一種靈活的技術(shù),可以處理非正常數(shù)據(jù),不平衡設(shè)計和交叉隨機(jī)效應(yīng)。但是,如果您的因變量符合離散計數(shù)分布(例如泊松或二項(xiàng)式)且均值小于5,或者您的因變量為二元變量,則會產(chǎn)生偏差估計。
Aggression變量適合對數(shù)正態(tài)分布,該分布不是離散分布。這意味著我們可以繼續(xù)使用PQL方法。但是在繼續(xù)之前,讓我們回到轉(zhuǎn)變?yōu)檎龖B(tài)的問題。
將分布設(shè)置為對數(shù)正態(tài),我們將族設(shè)置為高斯,并將鏈接設(shè)置為log。
## ? ? lmList
summary(PQL)
## Linear mixed-effects model fit by maximum likelihood
## ?Data: recog
## ? AIC BIC logLik
## ? ?NA ?NA ? ? NA
##
## Random effects:
## ?Formula: ~1 | Observer
## ? ? ? ? (Intercept)
## StdDev: ? ? ?0.3312
##
## ?Formula: ~1 | Test.ID %in% Observer
## ? ? ? ? (Intercept) Residual
## StdDev: ? ? ?0.5295 ? ?7.128
##
## Variance function:
## ?Structure: fixed weights
## ?Formula: ~invwt
## Fixed effects: Aggression.t ~ Relation + Season
## ? ? ? ? ? ? ? ? ? Value Std.Error DF t-value p-value
## (Intercept) ? ? ? 1.033 ? ?0.5233 55 ? 1.974 ?0.0535
## RelationStranger ?1.210 ? ?0.4674 55 ? 2.589 ?0.0123
## SeasonLate ? ? ? -1.333 ? ?0.5983 23 ?-2.228 ?0.0359
## ?Correlation:
## ? ? ? ? ? ? ? ? ?(Intr) RltnSt
## RelationStranger -0.855
## SeasonLate ? ? ? -0.123 ?0.000
##
## Standardized Within-Group Residuals:
## ? ? ?Min ? ? ? Q1 ? ? ?Med ? ? ? Q3 ? ? ?Max
## -4.86916 -0.29958 -0.08012 ?0.14280 ?5.93336
##
## Number of Observations: 84
## Number of Groups:
## ? ? ? ? ? ? ?Observer Test.ID %in% Observer
## ? ? ? ? ? ? ? ? ? ? 4 ? ? ? ? ? ? ? ? ? ?28
該模型表明季節(jié)對侵略性有影響,也就是說,在菌落周期后期收集的黃蜂比早期收集的黃蜂侵略性小。這也表明黃蜂之間的關(guān)系有影響。他們相對于巢友更可能對陌生人有侵略性。我將這些統(tǒng)計數(shù)據(jù)與估計值,標(biāo)準(zhǔn)誤,t值和p值一起報告。
那么,如果您的因變量的平均值小于5,或者您有一個二元因變量,而您不能使用PQL,該怎么辦?在這里,您可以使用兩種選擇:拉普拉斯(Laplace)近似?和馬爾可夫鏈蒙特卡羅算法(MCMC)。拉普拉斯近似值最多可以處理3個隨機(jī)效果。除此之外,您還必須使用MCMC。
讓我們從一個可以使用拉普拉斯逼近的例子開始。我們將使用學(xué)生在學(xué)校的學(xué)習(xí)情況的數(shù)據(jù)。出于本示例的目的,我將僅將數(shù)據(jù)子集化為幾個感興趣的變量,并將“ repeatgr”變量簡化為二元因變量。
str(bdf)
## 'data.frame': 2287 obs. of ?4 variables:
## ?$ schoolNR: Factor w/ 131 levels "1","2","10","12",..: 1 1 1 1 1 1 1 1 1 1 ...
## ?$ Minority: Factor w/ 2 levels "N","Y": 1 2 1 1 1 2 2 1 2 2 ...
## ?$ ses ? ? : num ?23 10 15 23 10 10 23 10 13 15 ...
## ?$ repeatgr: Factor w/ 3 levels "0","1","2": 1 1 1 1 1 1 1 1 2 1 ...
假設(shè)我們要找出是否屬于少數(shù)民族和社會經(jīng)濟(jì)地位會影響學(xué)生復(fù)讀成績的可能性。我們的因變量是“ repeatgr”,指示學(xué)生是否重復(fù)了成績。少數(shù)族身份是二元Y / N類別,社會經(jīng)濟(jì)地位由“ ses”表示,其數(shù)字范圍為10至50,其中50是最富有的。我們的隨機(jī)因素是“ schoolNR”,它代表從中采樣學(xué)生的學(xué)校。因?yàn)橐蜃兞渴嵌?,所以我們需要具有二?xiàng)式分布的廣義線性混合模型,并且由于我們的隨機(jī)效應(yīng)少于五個,因此可以使用Laplace近似?。
嚴(yán)格來說,Laplace近似??是一種稱為Gauss-Hermite正交(GHQ)的參數(shù)估算方法的特例,需要進(jìn)行一次迭代。GHQ由于重復(fù)迭代而比Laplace更為準(zhǔn)確,但在第一次迭代后變得不那么靈活,因此您只能將它用于一個隨機(jī)效果。我們唯一的隨機(jī)效應(yīng)是“ schoolNR”。
summary(GHQ)
## Generalized linear mixed model fit by maximum likelihood (Adaptive
## ? Gauss-Hermite Quadrature, nAGQ = 25) [glmerMod]
## ?Family: binomial ( logit )
## Formula: repeatgr ~ Minority + ses + ses * Minority + (1 | schoolNR)
## ? ?Data: bdf
##
## ? ? ?AIC ? ? ?BIC ? logLik deviance df.resid
## ? 1672.8 ? 1701.4 ? -831.4 ? 1662.8 ? ? 2282
##
## Scaled residuals:
## ? ?Min ? ? 1Q Median ? ? 3Q ? ?Max
## -0.964 -0.407 -0.314 -0.221 ?5.962
##
## Random effects:
## ?Groups ? Name ? ? ? ?Variance Std.Dev.
## ?schoolNR (Intercept) 0.264 ? ?0.514
## Number of obs: 2287, groups: schoolNR, 131
##
## Fixed effects:
## ? ? ? ? ? ? ? Estimate Std. Error z value Pr(>|z|)
## (Intercept) ? -0.45194 ? ?0.20763 ? -2.18 ? ? 0.03 *
## MinorityY ? ? ?0.47957 ? ?0.47345 ? ?1.01 ? ? 0.31
## ses ? ? ? ? ? -0.06205 ? ?0.00798 ? -7.78 ?7.5e-15 ***
## MinorityY:ses ?0.01196 ? ?0.02289 ? ?0.52 ? ? 0.60
## ---
## Signif. codes: ?0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## ? ? ? ? ? ? (Intr) MnrtyY ses
## MinorityY ? -0.400
## ses ? ? ? ? -0.905 ?0.369
## MinortyY:ss ?0.299 -0.866 -0.321
Laplace <- glmer(repeatgr ~ Minority + ses + ses * Minority + (1 | schoolNR),
data = bdf, family = binomial(link = "logit")) ?# Contrast to the Laplace approximation
## Warning: Model failed to converge with max|grad| = 0.0458484 (tol = 0.001)
summary(Laplace)
## Generalized linear mixed model fit by maximum likelihood (Laplace
## ? Approximation) [glmerMod]
## ?Family: binomial ( logit )
## Formula: repeatgr ~ Minority + ses + ses * Minority + (1 | schoolNR)
## ? ?Data: bdf
##
## ? ? ?AIC ? ? ?BIC ? logLik deviance df.resid
## ? 1672.8 ? 1701.5 ? -831.4 ? 1662.8 ? ? 2282
##
## Scaled residuals:
## ? ?Min ? ? 1Q Median ? ? 3Q ? ?Max
## -0.960 -0.407 -0.316 -0.222 ?5.950
##
## Random effects:
## ?Groups ? Name ? ? ? ?Variance Std.Dev.
## ?schoolNR (Intercept) 0.258 ? ?0.508
## Number of obs: 2287, groups: schoolNR, 131
##
## Fixed effects:
## ? ? ? ? ? ? ? Estimate Std. Error z value Pr(>|z|)
## (Intercept) ? -0.45456 ? ?0.20611 ? -2.21 ? ?0.027 *
## MinorityY ? ? ?0.48005 ? ?0.47121 ? ?1.02 ? ?0.308
## ses ? ? ? ? ? -0.06191 ? ?0.00791 ? -7.83 ?4.9e-15 ***
## MinorityY:ses ?0.01194 ? ?0.02274 ? ?0.53 ? ?0.600
## ---
## Signif. codes: ?0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## ? ? ? ? ? ? (Intr) MnrtyY ses
## MinorityY ? -0.400
## ses ? ? ? ? -0.906 ?0.369
## MinortyY:ss ?0.299 -0.866 -0.321
您可以看到在這種情況下,Laplace和GHQ之間沒有重要區(qū)別。兩者都表明,社會經(jīng)濟(jì)課對學(xué)生復(fù)讀成績的可能性有非常顯著的影響,盡管即使采用logit變換,我們也可以看到影響量很小。但是,使用此方法時,還需要考慮其他一些因素。當(dāng)用于過度分散的數(shù)據(jù)時,即合并的殘差遠(yuǎn)大于殘差自由度時,它變得不準(zhǔn)確。使用此方法時,應(yīng)檢查模型以確保數(shù)據(jù)不會過度分散。
## n×n方差-協(xié)方差矩陣中方差參數(shù)的數(shù)量
vpars <- function(m) {
nrow(m) * (nrow(m) + 1)/2
}
# 接下來計算剩余自由度
rdf <- nrow(model.frame(model)) - model.df
# 提取皮爾遜殘差
prat <- Pearson.chisq/rdf
# 生成一個p值。如果小于0.05,則數(shù)據(jù)過于分散。
這些學(xué)校數(shù)據(jù)并不分散。如果是,可以將過度分散建模為隨機(jī)效應(yīng),每個觀察值具有一個隨機(jī)效應(yīng)水平。在這種情況下,我將使用學(xué)生ID作為隨機(jī)效果變量。
我們繼續(xù)討論泊松數(shù)據(jù)的均值太小或因變量是分類的情況,并且我們有五個或五個以上隨機(jī)效應(yīng)??紤]有關(guān)大麥農(nóng)民的這些數(shù)據(jù)。想象一下,要使大麥?zhǔn)粘僧a(chǎn)生利潤,大麥?zhǔn)粘傻氖杖氡仨毚笥?40。
farmers <- farmers[c(1:5, 8)]
str(farmers)
## 'data.frame': 102 obs. of ?6 variables:
## ?$ year ? ?: int ?1901 1901 1901 1901 1902 1902 1902 1902 1902 1902 ...
## ?$ farmer ?: Factor w/ 18 levels "Allardyce","Dooley",..: 10 5 3 18 10 5 18 17 4 12 ...
## ?$ place ? : Factor w/ 16 levels "Arnestown","Bagnalstown",..: 3 16 14 11 3 16 11 4 8 6 ...
## ?$ district: Factor w/ 4 levels "CentralPlain",..: 2 2 1 1 2 2 1 1 4 4 ...
## ?$ gen ? ? : Factor w/ 2 levels "Archer","Goldthorpe": 1 1 1 1 1 1 1 1 1 1 ...
## ?$ profit ?: num ?1 1 1 1 1 1 1 1 1 1 ...
在這種情況下,假設(shè)我們根本沒有解釋變量。我們對哪些隨機(jī)效應(yīng)會影響利潤感興趣。畢竟,隨機(jī)效應(yīng)是改變因變量方差的因素。為此,我們將處理隨機(jī)效應(yīng),而且還為隨機(jī)效應(yīng)提供置信區(qū)間。
所有模型都對數(shù)據(jù)中方差的分布進(jìn)行假設(shè),但是在貝葉斯方法中,這些假設(shè)是明確的,因此我們需要指定這些假設(shè)的分布。在貝葉斯統(tǒng)計中,我們稱這些?先驗(yàn)。
## ?Iterations = 3001:12991
## ?Thinning interval ?= 10
## ?Sample size ?= 1000
##
## ?DIC: 76.61
##
## ?G-structure: ?~year
##
## ? ? ?post.mean l-95% CI u-95% CI eff.samp
## year ? ? ?18.2 ? ?0.266 ? ? 68.6 ? ? 18.1
##
## ? ? ? ? ? ? ? ?~farmer
##
## ? ? ? ?post.mean l-95% CI u-95% CI eff.samp
## farmer ? ? ?1.93 ? 0.0789 ? ? 6.68 ? ? 99.7
##
## ? ? ? ? ? ? ? ?~place
##
## ? ? ? post.mean l-95% CI u-95% CI eff.samp
## place ? ? ?1.54 ? 0.0711 ? ? 4.84 ? ? ?173
##
## ? ? ? ? ? ? ? ?~gen
##
## ? ? post.mean l-95% CI u-95% CI eff.samp
## gen ? ? ?12.1 ? 0.0874 ? ? 28.6 ? ? 1000
##
## ? ? ? ? ? ? ? ?~district
##
## ? ? ? ? ?post.mean l-95% CI u-95% CI eff.samp
## district ? ? ?1.78 ? 0.0639 ? ? 5.63 ? ? 1000
##
## ?R-structure: ?~units
##
## ? ? ? post.mean l-95% CI u-95% CI eff.samp
## units ? ? ? ? 1 ? ? ? ?1 ? ? ? ?1 ? ? ? ?0
##
## ?Location effects: profit ~ 1
##
## ? ? ? ? ? ? post.mean l-95% CI u-95% CI eff.samp pMCMC
## (Intercept) ? ? ?3.47 ? ?-1.16 ? ?10.75 ? ? ?220 ?0.14
如果我們看一下均值和置信區(qū)間,我們可以看到,真正影響利潤可變性的唯一隨機(jī)效應(yīng)是年份和基因型。也就是說,大麥?zhǔn)粘色@利的可能性每年之間以及基因型之間變化很大,但是在農(nóng)民或地方之間變化不大。
結(jié)束:了解您的數(shù)據(jù)
除非您熟悉這些分析,否則您將無法真正知道哪種分析對您的數(shù)據(jù)適用,而熟悉它們的最佳方法是繪制它們。通常,我的第一步是繪制我感興趣的變量的密度圖。
ggplot(recog, aes(x = Aggression)+ geom_density() +

在這里,我按季節(jié)和關(guān)系(兩個固定效應(yīng))劃分了數(shù)據(jù)。我們可以立即看到數(shù)據(jù)集包含一個極端正的異常值;大多數(shù)觀測值都介于0到20之間。我們還可以看到,后期觀測值的很大一部分等于零。
繪圖對于評估模型擬合也很重要。您可以通過各種方式繪制擬合值來判斷適合的模型最能描述數(shù)據(jù)。一個簡單的應(yīng)用是繪制模型的殘差。如果您將模型想象為通過數(shù)據(jù)散點(diǎn)圖的最佳擬合線,則殘差為散點(diǎn)圖中各點(diǎn)與最佳擬合線之間的距離。如果模型適合,則將殘差與擬合值作圖,則應(yīng)該看到隨機(jī)散布。如果散布不是隨機(jī)的,則意味著還有其他隨機(jī)或固定的影響。
讓我們嘗試?yán)L制擬合八哥的歌曲音高的混合模型的殘差。此圖所做的是創(chuàng)建一條表示零的水平虛線:與最佳擬合線的零偏差平均值。它還創(chuàng)建了一條實(shí)線,代表與最佳擬合線的殘差。我希望實(shí)線覆蓋虛線。

結(jié)果很好:與最佳擬合線的偏差趨于零。
讓我們嘗試一種以圖形方式比較MCMC模型的技術(shù)。我們將回到大麥農(nóng)戶的示例。
Trace(MCMC, log = TRUE)

這些隨機(jī)效果看起來不像白噪聲。因此,讓我們嘗試使用更多迭代來重新擬合模型。這需要更多的計算量,但會產(chǎn)生更準(zhǔn)確的結(jié)果。
Trace(MCMC2, log = TRUE)

現(xiàn)在,看起來都更接近直線周圍的白噪聲,這表明模型更好?,F(xiàn)在,讓我們比較兩個模型之間隨機(jī)效應(yīng)方差的置信區(qū)間。
# 將兩個模型的估計值和置信區(qū)間放在一起
rbind (covariances, Gcovariances)
# 創(chuàng)建一個數(shù)據(jù)框架,其中包含模型和隨機(jī)效應(yīng)的因素
data.frame(coint, model = factor(el1", "model2"), eac),
random.effect = dimnames(i)
## Warning: some row.names duplicated: 6,7,8,9,10 --> row.names NOT used
# 將估計和置信區(qū)間繪制為按模型分組的箱形圖
ggplot(conf.int+ geom_crossbar(aes(y.95..CI,
y.95..CI= model= "dodge")

結(jié)果很好,因?yàn)閮蓚€模型之間的估算值非常相似,但是在第二個模型中,對年的置信區(qū)間明顯較小,說明這個估計更好。圖中可以證明第二種模型的推論,即基因型和年份是變異的主要因素。

最受歡迎的見解
1.基于R語言的lmer混合線性回歸模型
2.R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)
3.R語言線性混合效應(yīng)模型實(shí)戰(zhàn)案例
4.R語言線性混合效應(yīng)模型實(shí)戰(zhàn)案例2
5.R語言線性混合效應(yīng)模型實(shí)戰(zhàn)案例
6.線性混合效應(yīng)模型Linear Mixed-Effects Models的部分折疊Gibbs采樣
7.R語言LME4混合效應(yīng)模型研究教師的受歡迎程度
8.R語言中基于混合數(shù)據(jù)抽樣(MIDAS)回歸的HAR-RV模型預(yù)測GDP增長
9.使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM