數(shù)據(jù)分析方法(2)——AB測試

測試就不得不先提假設(shè)檢驗,因此我們先由假設(shè)檢驗談起。
一、假設(shè)檢驗簡介
作用:判斷樣本與總體(or 樣本與樣本)之間的誤差是由抽樣誤差所產(chǎn)生的還是由于本質(zhì)差別所產(chǎn)生的。
基本思想:小概率定理,即一次試驗中小概率事件不可能發(fā)生。
主要步驟:
1、提出原假設(shè)和被擇假設(shè)(見章節(jié)二)
2、從總體中抽取樣本進行統(tǒng)計
3、根據(jù)樣本數(shù)量確定檢驗量(見章節(jié)五)
4、根據(jù)顯著性水平確定拒絕域(見章節(jié)三)
5、計算檢驗統(tǒng)計量與臨界值比較(見章節(jié)四)
二、關(guān)于假設(shè)
原假設(shè):H0在AB測試中一般使用想要拒絕的假設(shè),大多為“新版不如原版效果好”。
在實際測試中主要控制α,即減小第一類錯誤發(fā)生的可能(情愿犯第二類錯誤),這樣可以盡量保留老版本,避免版本更新的資源和減免用戶學(xué)習(xí)成本。
被擇假設(shè):H0的補集H1,即H0取=時,H1取≠
三、顯著性水平與拒絕域
1、兩類錯誤:
第一類錯誤(棄真錯誤):即原假設(shè)是真的,但拒絕了原假設(shè)。這個錯誤的概率被稱為顯著性水平α。
第二類錯誤(取偽錯誤):即原假設(shè)是假的,但采納了原假設(shè)。這個錯誤的概率被稱為β。在假設(shè)檢驗中1-β被稱為統(tǒng)計檢驗力。
(注:α與β屬于不同的分布,顯然α+β≠1;但在其他條件不變的情況下,α變小,臨界值變小,β就會變大)
2、拒絕域的臨界值
由確定好的顯著性水平α對應(yīng)到計算的統(tǒng)計量查表所得,一般在實驗前與業(yè)務(wù)確定:
顯著性水平α越小,犯第一類錯誤的概率越小,一般取值0.01,0.05:
常用值,α=0.01,單側(cè)z=2.33,雙側(cè)z=2.58;α=0.05,單側(cè)z=1.65,雙側(cè)z=1.96
四、拒絕域與檢驗方式
根據(jù)假設(shè)的不同分為單側(cè)檢驗(左側(cè)檢驗和右側(cè)檢驗)以及雙側(cè)檢驗:
雙側(cè)檢驗:原假設(shè)取=或者≠時,其中的拒絕域Z>Z(α/2) & Z<-Z(α/2)
右側(cè)檢驗:原假設(shè)取<或者<=時,其中的拒絕域Z>Z(α)
(在拒絕域中,所檢測的均值已經(jīng)遠大于規(guī)定值了)
左側(cè)檢測:原假設(shè)取>或者>=時,其中的拒絕域Z<-Z(α)
五、檢驗統(tǒng)計量
1、基本原理
通過樣本抽樣,我們得到了樣本的均值方差,此時我們判斷樣本的分布符合“某一種分布”,并根據(jù)這種分布來計算概率,以檢驗我們的假設(shè)是否是小概率,不同的分布便形成了不同的檢驗統(tǒng)計量。
以Z檢驗為例,根據(jù)中心極限定理,當(dāng)樣本數(shù)量足夠多時,就可以認(rèn)為其分布滿足正態(tài)分布公式,即~
。而在標(biāo)準(zhǔn)正態(tài)分布N(0,1)中我們可以明確指導(dǎo)其概率P:
如:P(|Z|<1.96)=95%
我們只需要將非標(biāo)態(tài)的分布轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)正態(tài)分布即可,此時求得:
其中為樣本均值,μ為驗證值(總體均值),σ為總體標(biāo)準(zhǔn)差(未知時用樣本標(biāo)準(zhǔn)差替代),n為樣本數(shù)量。
Z值即為需要與拒絕域比較的檢驗統(tǒng)計量。
2、常用的檢驗統(tǒng)計量
根據(jù)不同的情況(如不同的樣本容量等)就需要采用不同的分布進行計算,常用的統(tǒng)計量如下:
(1)Z檢驗:大樣本容量n>=30,樣本滿足正態(tài)分布,原假設(shè)檢驗均值
單樣本比較(μ=μ0)? ? ? ? ? ? ? ??
雙樣本比較(μ1=μ2)? ? ? ? ?
(2)t檢驗:小樣本容量,滿足t分布
(注:X~N(0,1)標(biāo)準(zhǔn)正態(tài)分布, Y~?卡方分布,則T=
~t(n)滿足自由度為n的t分布)
單樣本比較? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
(獨立)雙樣本比較? ? ? ? ? ??
(非獨立)雙樣本比較? ? ?? ??
其中
(3)卡方檢驗:比較樣本方差與已知方差的關(guān)系(如產(chǎn)品質(zhì)量間差異是否達到規(guī)定值)
(4)F檢驗:比較兩個樣本之間的方差差異(其中S1>S2)
3、樣本成數(shù)的統(tǒng)計檢驗
當(dāng)需要考察的值為一個比值(比值的本身沒有方差的概念),如增長率、留存率等,此時的分布為可以視為一個二項分布b(n,p),當(dāng)二項分布取樣較多時可以近似為一個正態(tài)分布,均值np,方差np(1-p),因此可以求得檢驗統(tǒng)計量:
單樣本成數(shù)檢驗:? ? ? ? ? ? ? ? ? ? ? ? ? ??
雙樣本成數(shù)檢驗:? ? ? ??
其中大樣本假定np,n(1-p)均>5即可
六、多個樣本間的假設(shè)檢驗(方差分析)
一般的假設(shè)檢驗方法最多只能判斷兩個樣本,多個樣本間的檢驗需要用到方差分析,為了避免文章太長這里先略過,單獨開一篇專欄寫這一塊的內(nèi)容。
七、AB測試
AB測試的主題即為假設(shè)檢驗過程,但在AB測試中需要考慮一些額外的細節(jié)因素:
(1)前提條件:
只能小規(guī)模放大的試驗(如遇定價差異等大問題容易影響用戶滿意度)
穩(wěn)定性假設(shè),用戶相互之間不干擾,且互不干擾(避免新算法專搶舊算法的單)
(2)抽樣方法:
簡單隨機抽樣、分層抽樣、等距抽樣等
(3)前期準(zhǔn)備:
進行AA測試查看分組差異,再進行AB測試;
但如果留存過低會使得AA測試致AB測試之間的用戶不一致,產(chǎn)生影響,可以考慮AAB測試
(4)設(shè)立流程:
如果AB測試需要同時測試多個內(nèi)容,需要遵守公平原則,如:
廣告形式A→彈出形式1
? ? ? ? ? ? ? ? →彈出形式2
廣告形式B→彈出形式1
? ? ? ? ? ? ? ? →彈出形式2