R語言方差分析(ANOVA)學(xué)生參加輔導(dǎo)課考試成績差異
原文鏈接:http://tecdat.cn/?p=18087
?
方差分析是一種常見的統(tǒng)計模型,顧名思義,方差分析的目的是比較平均值。
為了說明該方法,讓我們考慮以下樣例,該樣例為學(xué)生在碩士學(xué)位課程中的最終統(tǒng)計考試成績(分?jǐn)?shù)介于0到20之間)。這是我們的因變量?
?!胺纸M”變量將是學(xué)生參加輔導(dǎo)課的方式,采用“自愿參與”,“非自愿參與”的方式。最后是“不參與”(不參加或拒絕參加的學(xué)生)。為了形成組,我們有兩個變量。第一個是學(xué)生的性別(“ F”和“ M”),第二個是學(xué)生的身份(取決于他們是否獲得許可)。
> tail(base)
PART GEN ORIG? NOTE
112 ? vol ??? ? ? ?F????? R1 16.50
113?? non_vol.???? M????? R1 11.50
114?? non_vol.???? F????? R1 10.25
115?? non_vol.???? F????? R1 10.75
116?? non_vol.???? F?? ? ?a ?10.50
117 ? vol ? ? ? ? ?M????? R1 15.75
在開始多因素分析之前,讓我們從單因素分析開始。我們可以查看分?jǐn)?shù)的變化,具體取決于分組變量?
> boxplot(base$NOTE~base$PAR
> abline(h=mean(base$NOTE),lty=2,col="re

?
我們還可以根據(jù)性別來查看?
> boxplot(NOTE~GEN,ylim=c(6,20))

?
?
在方差分析中,假設(shè)?
,

?
?指定可能的處理方式(這里有3種)。
我們將考慮對?

作為補充假設(shè)?
。然后,我們將估計兩個模型。
第一個是約束模型。
> sum(residuals(lm(NOTE~1,data=base))^2)
[1] 947.4979
對應(yīng)于
> (SCR0=sum((base$NOTE-mean(base$NOTE))^2))
[1] 947.4979
第二,我們進(jìn)行回歸,
> sum(residuals(lm(NOTE~PART,data=base))^2)
[1] 112.5032
當(dāng)我們與子組的平均值進(jìn)行比較時,就等于查看了誤差,
>
> (SCR1=sum((base$NOTE-base$moyNOTE)^2))
[1] 112.5032
費舍爾的統(tǒng)計數(shù)據(jù)
> (F=(SCR0-SCR1)*(nrow(base)-3)/SCR1/(3-1))
[1] 423.0518
判斷我們是否處于接受或拒絕假設(shè)的范圍內(nèi)?
,可以看一下臨界值,它對應(yīng)于費舍爾定律的95%分位數(shù),
> qf(.95,3-1,nrow(base)-3)
[1] 3.075853
由于遠(yuǎn)遠(yuǎn)超過了這個臨界值,我們拒絕?
。我們還可以計算p值
> 1-pf(F,3-1,nrow(base)-3)
[1] 0
在這里(通常)為零。它對應(yīng)于我們通過函數(shù)得到的
Analysis of Variance Table
Response: NOTE
Df Sum Sq Mean Sq F value??? Pr(>F)
PART??????? 2 834.99? 417.50? 423.05 < 2.2e-16 ***
Residuals 114 112.50??? 0.99
---
或者
Terms:
PART Residuals
Sum of Squares? 834.9946? 112.5032
Deg. of Freedom??????? 2?????? 114
Residual standard error: 0.9934135
Estimated effects may be unbalanced
可以總結(jié)為
Analysis of Variance Table
Response: NOTE
Df??? Sum Sq Mean Sq F value Pr(>F)
PART??????? 2 834.99? 417.50? 423.05 < 2.2e-16 ***
Residuals 114 112.50??? 0.99
---
?
我們在這里可以看到分?jǐn)?shù)并非獨立于分組變量。
我們可以進(jìn)一步挖掘。Tukey檢驗提供“多重檢驗”,它將成對地查看均值的差異,
Tukey multiple comparisons of means
95% family-wise confidence level
$PART
diff?????? lwr????? upr??? p adj
non_vol.-non_part.?? 0.60416 -0.04784 1.2561 0.07539
volontaire-non_part. 6.66379? 5.92912 7.3984 0.00000
volontaire-non_vol.? 6.05962? 5.54078 6.5784 0.00000
我們在這里看到,“非自愿”和“非參與”之間的差異不顯著為非零?;蚋唵蔚卣f,假設(shè)我們將接受零為零的假設(shè)。另一方面,“自愿”參加的得分明顯高于“非自愿”參加或不參加的得分。我們還可以成對查看學(xué)生的檢驗,
Pairwise comparisons using t tests with pooled SD
data:? NOTE and PART
non_part. non_vol.
non_vol.?? 0.03????? -
volontaire <2e-16??? <2e-16
如果我們將“非自愿”和“非參與”這兩種方式結(jié)合起來,并將這種方式與“自愿”方式進(jìn)行比較,我們最終將對平均值進(jìn)行檢驗,
Welch Two Sample t-test
data:? NOTE[PART == "volontaire"] and NOTE[PART != "volontaire"]
t = 29.511, df = 50.73, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
5.749719 6.589231
sample estimates:
mean of x mean of y
16.66379? 10.49432
我們看到,我們在這里接受了“志愿者”學(xué)生的成績與其他學(xué)生不同的假設(shè)。
在繼續(xù)之前,請記住在模型中

在某種意義上說,與對應(yīng)于同調(diào)模型?
?不依賴分組?
。
我們可以使用Bartlett檢驗(該檢驗將檢驗方差的同質(zhì)性)來檢驗該假設(shè),請記住,如果p值超過5%,則假設(shè)“方差齊整性”得到了驗證
Bartlett test of homogeneity of variances
data:? base$NOTE and base$PART
Bartlett's K-squared = 0.5524, df = 2, p-value = 0.7587
更進(jìn)一步,我們可以嘗試對性別進(jìn)行方差分析的兩因素分析,通常要根據(jù)我們的分組情況,也可以根據(jù)性別對變量進(jìn)行分析。當(dāng)均值的形式為零時,我們將講一個沒有相互作用的模型?
,我們可以包括我們考慮的交互
總的來說,我們的模型

其中,按實驗處理方式表示與觀察到的平均值平均值的偏差,而按組表示與所觀察到的平均值平均值的偏差。這樣可以通過添加一些約束來識別模型。最大似然估計:
對應(yīng)于總體平均值
對應(yīng)于每次實驗的平均值(或更確切地說,它與總體平均值的偏差),
最后
是
我們對一組進(jìn)行方差分析
對于約束模型,
?
?和?
?表示實驗次數(shù)和組數(shù)
方差分解公式在這里給出
我們將進(jìn)行手動計算,
Terms:
PART??? GENRE PART:GENRE Residuals
Sum of Squares? 834.9946? 20.9618???? 3.4398?? 88.1017
Deg. of Freedom??????? 2??????? 1????????? 2?????? 111
Residual standard error: 0.8909034
Estimated effects may be unbalanced
總結(jié)結(jié)果
Analysis of Variance Table
Response: NOTE
Df Sum Sq Mean Sq? F value??? Pr(>F)
PART???????? 2 834.99? 417.50 526.0081 < 2.2e-16 ***
GENRE??????? 1? 20.96?? 20.96? 26.4099 1.194e-06 ***
PART:GENRE?? 2?? 3.44??? 1.72?? 2.1669??? 0.1194
Residuals? 111? 88.10??? 0.79
---
由于實驗組與對照組之間似乎沒有任何交互作用,因此可以將其從方差分析中刪除。
Analysis of Variance Table
Response: NOTE
Df Sum Sq Mean Sq F value??? Pr(>F)
PART??????? 2 834.99? 417.50 515.364 < 2.2e-16 ***
GENRE?????? 1? 20.96?? 20.96? 25.875 1.461e-06 ***
Residuals 113? 91.54??? 0.81
---
從結(jié)果可以看到(自愿)參加課程會有所幫助。
最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.在R語言中實現(xiàn)Logistic邏輯回歸
8.python用線性回歸預(yù)測股票價格
9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標(biāo)