數(shù)據(jù)分析方法(3)——方差分析

雖然題目叫方差分析,但其實(shí)只是一小部分,這一章就假設(shè)檢驗(yàn)中的多樣本分析問(wèn)題主要討論下。
一、方差齊性檢驗(yàn)
主要針對(duì)的問(wèn)題:在多個(gè)樣本中,每個(gè)樣本之間的方差是否一致?因此較常考察的假設(shè)就是H0:σ0=σ1=σ2=...
常用方法:
(1)F檢驗(yàn):當(dāng)樣本數(shù)量為2時(shí)的假設(shè)檢驗(yàn)方式,也叫作方差比,在上一章中已著重講過(guò),這里就不在贅述??梢詤⒖既缦骆溄樱?/p>
https://www.bilibili.com/read/cv22198893?spm_id_from=333.999.0.0
(2)Hartley檢驗(yàn):將F檢驗(yàn)進(jìn)行推廣,分子選取max(s1,s2,...),分母選取min(s1,s2,....),得到結(jié)果再通過(guò)F檢驗(yàn)進(jìn)行考察確定拒絕域。
(3)Bartlett檢驗(yàn):假設(shè)多個(gè)樣本之間均來(lái)自于正態(tài)總體(或者樣本取樣數(shù)量足夠多),此時(shí)就可以認(rèn)為其方差滿足卡方分布,該檢驗(yàn)統(tǒng)計(jì)量為:

式中的n為采樣數(shù)量,r為有幾個(gè)總體,Si是每個(gè)抽樣的方差,S為所有抽樣的方差。
得到檢驗(yàn)統(tǒng)計(jì)量后由卡方分布確定拒絕域。
(4)Levene檢驗(yàn):該檢驗(yàn)方式較Bartlett檢驗(yàn)的規(guī)則更為寬松一些,對(duì)正態(tài)分布的需求不強(qiáng)。主要原理是比較組內(nèi)方差與組間方差,在進(jìn)行F檢驗(yàn)。公式為:

式中,N為采樣數(shù)量,k為有幾個(gè)總體,Zi為樣本組內(nèi)均數(shù),Z為總體均數(shù)。檢驗(yàn)統(tǒng)計(jì)量W可以理解為(自由度*組間方差)/(自由度*組內(nèi)方差),W~F(k-1,N-k)的F分布,通過(guò)這個(gè)分布來(lái)確定拒絕域。
(5)BF檢驗(yàn):Levene檢驗(yàn)的進(jìn)階版,通過(guò)對(duì)均值Z的修正實(shí)現(xiàn),主要添加了關(guān)于新Z的計(jì)算方法。
二、方差分析
雖然叫方差分析,但分析卻不是方差而是均值,只是采用方差來(lái)進(jìn)行分析。所以這類(lèi)假設(shè)檢驗(yàn)的H0:μ0=μ1=μ2=...這樣的假設(shè)檢驗(yàn)主要考察實(shí)驗(yàn)中的影響因素是否真的有起到影響能力,如考察分別采用廣告形式A,廣告形式B,廣告形式C對(duì)付費(fèi)量是否產(chǎn)生影響。
1、分類(lèi)
根據(jù)每組樣本之間的影響因素多少可以分為:?jiǎn)我蛩胤讲罘治?,無(wú)交互作用的雙因素方差分析,有交互作用的雙因素方差分析。
三因素分析視情況看是否有無(wú)交互作用的單因素,在該因素下進(jìn)行不同數(shù)據(jù)集的雙因素分析,如不存在就兩兩進(jìn)行雙因素分析。四因素及以上情況就太復(fù)雜了,一般不進(jìn)行。
2、使用條件
(1)各組樣本獨(dú)立
(2)各組樣本滿足正態(tài)分布
(3)各組樣本間滿足方差齊性*
[注:當(dāng)不滿足方差齊性時(shí),可以采用對(duì)數(shù)據(jù)取對(duì)數(shù),開(kāi)方等手段處理,直到滿足齊性要求,或者采用Welch或Brown-Forsythe或非參數(shù)檢驗(yàn)等方式進(jìn)行]
3、單因素方差分析
主要步驟:
(1)組內(nèi)方差、均方差
(2)組間方差、均方差
(3)總體方差、均方差
(4)計(jì)算檢驗(yàn)統(tǒng)計(jì)量F=組間均方差/組內(nèi)均方差、以及關(guān)系強(qiáng)度
舉例:

(1)、計(jì)算組內(nèi)方差,方差和,均方差
各組方差σ1=2.8? ?? σ2=5.2? ? ?σ3=6.8
方差和? ? SSE=2.8+5.2+6.8=14.8
自由度 df=n-k(樣本量-樣本組數(shù))=15-3=12
組內(nèi)均方差? ?MSE=SSE/df=1.23
(2)、計(jì)算組間方差、方差和、均方差
總體均值σ=(17.2+19.4+19.8)/3=18.8
組間方差和SSA=Σni(xi-x)^2=5*[(17.2-18.8)^2+(19.4-18.8)^2+(19.8-18.8)^2]=19.6
自由度df=k-1=2
組間均方差MSA=SSA/df=9.8
(3)、綜合方差,均方差和
總體方差SST=(每個(gè)值-總體均值)^2=34.4
SST=SSE+SSA
自由度df=n-1=14
均方差MST=SST/df=2.46
(4)、進(jìn)行F檢驗(yàn)
F=MSA/MSE=7.97~F(k-1,n-k)即F(2,12)
根據(jù)顯著性水平確定拒絕域比較即可。
(5)、關(guān)系強(qiáng)度
R2=SSA/SST
即組間方差占總方差的影響,該值越大,說(shuō)明影響越強(qiáng)。
4、無(wú)相互作用的兩因素方差分析
無(wú)交互作用指兩個(gè)因素之間沒(méi)有相互影響的關(guān)系,不會(huì)產(chǎn)生協(xié)同增強(qiáng)或減弱效應(yīng)。因此總體思路與單因素方差分析十分接近,只是增加行列兩因素而已,總體步驟如下:
(1)、計(jì)算行方差、均方差
(2)、計(jì)算列方差、均方差
(3)、計(jì)算隨機(jī)方差、隨機(jī)均方差
(4)、計(jì)算檢驗(yàn)統(tǒng)計(jì)量及關(guān)系強(qiáng)度
舉例:

(1)
SSR=3*[(5.333-5.222)^2+(6.667-5.222)^2+(3.667-5.222)^2]=13.556
MSR=SSR/(C列數(shù)-1)=13.556/2=6.778
(2)
SSC=3*[(7.333-5.222)^2+(4.000-5.222)^2+(4.333-5.222)^2)]=20.222
MSC=SSC/(R-1)=20.222/2=10.111
(3)
SSE=(每一個(gè)值-行均值-列均值+總均值)^2=(9-5.333-7.333+5.222)^2+...+(3-3.667-4.333+5.222)^2=9.778
MSE=SSE/(R-1)(C-1)=9.778/4=2.444
(4)
SST=(每一個(gè)值-總均值)^2=SSR+SSC+SSE=43.556
FR=MSR/MSE=2.773~F(C-1,(R-1)(C-1))即F(2,4)
FC=MSC/MSE=4.136~F(R-1,(R-1)(C-1))即F(2,4)
根據(jù)顯著性水平確定拒絕域,當(dāng)FR>Fα?xí)r,行變量有顯著影響;當(dāng)FC>Fα?xí)r,列變量有顯著影響
關(guān)系強(qiáng)度R^2=(SSR+SSC)/SST
5、有相互作用的兩因素方差分析
有相互作用的兩個(gè)因素除了各自產(chǎn)生影響外,還具有協(xié)同影響效應(yīng),主題流程與無(wú)相互作用流程十分接近,只需要再多考慮一層相互影響即可。
由于有相互作用每一個(gè)影響因素都應(yīng)該多次試驗(yàn)取平均值,如:

最后形成統(tǒng)計(jì)表,如:

計(jì)算方法如下:
(1)
SSR=列數(shù)*每個(gè)單元格內(nèi)是幾個(gè)數(shù)的平均*行方差=3*3*[(5.222-5)^2+..]=6.222
MSR=SSR/(C-1)=3.111
(2)
同理:
SSC=3*3*[(5.556-5)^2+...]=28.667
MSC=SSC/(R-1)=14.333
(3)協(xié)同影響程度
SSRC=n*(每一個(gè)值-行均值-列均值+總均值)^2=3*[(3.667-5.222-5.556+5)^2+...]=65.778
MSRC=SSRC/(R-1)(C-1)=16.444
(4)隨機(jī)誤差的影響:每個(gè)單元格內(nèi)的數(shù)據(jù)進(jìn)行匯總的方差
SSE=[(5-3.667)^2+(4-3.667)^2+(2-3.667)^2]+...=25.333
MSE=SSE/(行*列*每個(gè)單元格內(nèi)的數(shù)-1)=SSE/(R*C*(K-1))=25.333/18=1.407
(5)計(jì)算統(tǒng)計(jì)量
FR=MSR/MSE=2.211~F(C-1,R*C*(K-1))
FC=MSC/MSE=10.184~F(R-1,R*C*(K-1))
FRC=MSRC/MSE=11.684~F((R-1)(C-1),R*C*(K-1))
根據(jù)F檢驗(yàn)確定R因素,C因素以及協(xié)同作用的影響程度最大。
三、一些變通
在一些比例類(lèi)指標(biāo)中,如留存率也是可以轉(zhuǎn)化成雙因素的方差分析的。比如我們要分析三個(gè)廣告方案對(duì)購(gòu)買(mǎi)率的影響,就可以將數(shù)據(jù)整理為如下列表:
