16種常用的數(shù)據(jù)分析方法-方差分析
方差分析(Analysis ofVariance,簡稱ANOVA),又稱“變異數(shù)分析”,又叫F檢驗。是R.A.Fisher發(fā)明的,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。
?
方差波動來源
由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動狀,而方差分析的基本原理認為不同處理組的均數(shù)間的差別基本來源有兩個:一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。
實驗條件,即不同的處理造成的差異,稱為組間差異。
用變量在各組的均值與總均值之偏差平方和的總和表示,記作SSb,組間自由度dfb。
隨機誤差,如測量誤差造成的差異或個體間的差異,稱為組內差異。
用變量在各組的均值與該組內變量值之偏差平方和的總和表示,記作SSw,組內自由度dfw。
總偏差平方和 SSt = SSb +SSw。
?
方差分析應用場景
方差分析在工作場景中如何應用呢?看案例:
假如產品針對用戶提出了三種提高客單價的策略A、B、C,現(xiàn)在要評估3種策略對提高客單價的效果差異。
如何知道3種策略效果有什么不同?最簡單的方法就是做一個實驗。
如:隨機挑選一部分用戶,然后把這些用戶分成三組A、B、C組,A組用戶使用A策略、B組用戶使用B策略、C組用戶使用C策略,
策略實施一段時間以后,分析3組分別的客單價水平。哪組平均客單價高,就說明哪組策略有效。
?
可是,這樣得出的結論是否有偏差呢?
當然有,出現(xiàn)偏差的來源:
其一是實驗的用戶是隨機挑選的,有可能客單價高的那部分用戶(如高價值用戶)集中出現(xiàn)在某一組中,造成這組的策略效果更好。
當然,按照方差原理的差別基本來源,還有可能由于策略執(zhí)行過程中,實驗條件造成的策略結果差異。
為了排除實驗結果中,上述兩種來源造成的結果偏差,就需要使用方差分析去證做進一步證實。最終獲得更嚴謹、更有說服力的策略結論。
?
方差分析中的名詞解釋
方差:又叫均方,是標準差的平方,是表示變異的量。
因素:方差分析的研究變量;例如,研究裁判打分的差異,裁判就被稱為因素;
水平:因素中的內容稱為水平;例如,總共有3個裁判打分,則裁判因素的水平就是3;
觀測因素:又稱觀測變量,指對影響總體的因素;
控制因素:又稱控制變量,指影響觀測變量的因素;
?
方差分析的3個假定基礎
1.每組樣本數(shù)據(jù)對應的總體應該服從正態(tài)分布;
正態(tài)檢驗主要有兩種大的方法,一種是統(tǒng)計檢驗的方法:主要有基于峰度和偏度的SW檢驗、基于擬合度的KS、CVM、AD檢驗;另一種是用描述的方法:Q-Q圖和P-P圖、莖葉圖,利用四分位數(shù)間距和標準差來判斷。
2.每組樣本數(shù)據(jù)對應的總體方差要相等,方差相等又叫方差齊性;
方差齊性的主要判斷方法有:方差比、Hartley檢驗、Levene檢驗、BF法。
3.每組之間的值是相互獨立的,就是A、B、C組的值不會相互影響。
?
單因素方差分析-F檢驗
方差分析把總的變異分為組間變異和組內變異:
組間變異:各組的均數(shù)與總均數(shù)間的差異;
組內變異:每組的每個測量值與該組均數(shù)的差異
離差平方和為:SS總=SS組間+SS組內
F統(tǒng)計量可表述為:F=MS組間/MS組內。
F值結論理解:通過計算得到的F值就可以查到P值,P值小于0.05,則拒絕原假設,認為其是有統(tǒng)計學意義的。
?
案例:
某飲料生產企業(yè)研制出一種新型飲料。飲料的顏色共有四種,分別為橘黃色、粉色、綠色和無色透明。
這四種飲料的營養(yǎng)含量、味道、價格、包裝等可能影響銷售量的因素全部相同,先從地理位置相似、經營規(guī)模相仿的五家超級市場上收集了前一期該種飲料的銷售量情況
?
表中20個數(shù)據(jù)各不相同,原因可能有兩個方面:
一、銷售地點影響。相同顏色的飲料在不同超市的銷售量不同。案例中五個超市地理位置相似、經營規(guī)模相仿,因此把不同地點的銷售量差異做為隨機因素影響。
二、飲料顏色不同的影響。在同一超市不同顏色的飲料銷售量不同。即使營養(yǎng)成分、味道、價格、包裝等方面因素都相同,銷售量也不相同。
這種不同雖然有類似抽樣隨機性造成,但更可能是人們對不同顏色的偏愛造成的。
根據(jù)上述分析,把案例分析問題歸結為:檢驗飲料顏色對銷售量是否有影響。
?
分析過程
一、建立假設:原假設“顏色對銷售量沒有影響”
二、計算不同顏色飲料銷售量水平均值
無色飲料銷售量均值=136.6÷5=27.32箱
粉色飲料銷售量均值=147.8÷5=29.56箱
桔黃色飲料銷售量均值=132.2÷5=26.44箱
綠色飲料銷售量均值=157.3÷5=31.46箱
三、計算各種顏色飲料銷售量的總均值
各種顏色飲料銷售量總的樣本平均數(shù)=(136.6+147.8+132.2+157.3)÷20=28.695箱
四、計算離差平方和、F值
F值=組間方差/組內方差=76.8455/(4-1)/?39.0840/(20-4)=10.486
五、算出P值,做出結論
P值=根據(jù)F值算出P值=0.000466
結論解讀:
P-值=0.000466<顯著水平標準=0.05,假設不成立,說明飲料的顏色對銷售量有顯著影響。