兩個樣本的比較

背景
考慮以下實際問題:為驗證一種藥物的作用,實驗組使用該藥物(結(jié)果遵從分布F),對照組使用安慰劑(結(jié)果遵從分布G)。結(jié)果的兩組數(shù)據(jù)的對比,希望知道F和G之間有多少差異,即:這種藥物有無效果(假設(shè)檢驗角度)/作用大小的估計(區(qū)間估計角度)[假設(shè)檢驗和區(qū)間估計是對偶的]。
這兩個組之間可以是independent的,也可以有pairing。
用上一篇文章的asymptotical test方法構(gòu)建asymptotical test以及asymptotical interval estimation都是可行的。不過我們現(xiàn)在需要針對這種實驗組-對照組問題develop一些特定的test statistic來統(tǒng)一地做假設(shè)檢驗和區(qū)間估計。

相同已知方差的正態(tài)族
本節(jié)考慮以下模型:?

我們打算考察的量是$\mu_X-\mu_Y$(假設(shè)檢驗/區(qū)間估計)。
如果方差是一個給定值,則很自然地可以設(shè)計一個用于假設(shè)檢驗/區(qū)間估計的(標準化)統(tǒng)計量(這就是Wald test的思想):?

Z服從標準正態(tài)分布$N(0,1)$,所以可以算level。接下來如果要假設(shè)檢驗$H_0:\mu_X-\mu_Y=\theta,H_1:\mu_X-\mu_Y\neq\theta$,則拒絕域可以取為

把這個拒絕域?qū)?yīng)的接受域invert一下就變成估計區(qū)間了。事情就辦完了。

相同未知方差的正態(tài)族
如果方差不是給定值,我們得把上面統(tǒng)計量的$\sigma$換成一個estimator。為了用上X和Y的所有信息,我們需有用pooled sample variance:

也就是兩個sample variance的加權(quán)平均。也可以這樣理解:分子就是全部(X_k-\bar{X})^2求和,而分母本來應(yīng)該是m+n,但是去掉了兩個自由度(分別來自\bar{X}與\bar{Y}),所以是m+n-2。
于是我們需要的統(tǒng)計量為

這個(準確的)分布很容易通過t分布的定義得來。這樣一來,假設(shè)檢驗和區(qū)間估計就都好辦了;而且它們都是exact的test,不是asymptotic的。
我們可以再具體地看one-sided和two-sided的假設(shè)檢驗。$H_0:\mu_X=\mu_Y$表示藥物不起作用,而備則假設(shè)可以為:$H_1:\mu_X\neq\mu_Y, H_2:\mu_X>\mu_Y, H_3:\mu_X<\mu_Y$。我們使用的檢驗統(tǒng)計量為

三種備則假設(shè)的拒絕域分別為

補充一句,前面的H_0 versus H_1的拒絕域和LRT構(gòu)建出來的是一樣的。驗算一下即可。

不同未知方差的正態(tài)族
這個問題是著名的Behrens-Fisher問題。前面的T統(tǒng)計量中的\sigma不能再用了。所以Fisher轉(zhuǎn)而采取這樣一個最簡單的歸一化形式的統(tǒng)計量:

這個統(tǒng)計量的精確分布是很復雜的(上下同時標準化之后,上面是正態(tài),下面看起來像個卡方,但是實際并不是;不過我們可以近似看成卡方,其自由度由Welch–Satterthwaite equation給出,這樣T的分布就是近似t分布了)。不過它可以近似為以下自由度的t分布(一般不是個整數(shù),當然t分布的自由度也未必非得是個整數(shù);不過一般大家把它round到最近的整數(shù)上去)?

這個式子怎么記呢?它形式上就是從T的分母來的,并且大致是n-1或者m-1的大?。┳⒁猓哼@個時候事情變得有些微妙…以前T統(tǒng)計量的分布是只取決于n和m的,但是現(xiàn)在還包含進了方差,但是方差我們是不知道的。所以在做假設(shè)檢驗/區(qū)間估計的時候,我們還得用樣本方差去估計這個自由度。但是這不過是一個近似方法,所以問題也不是很嚴重。只是在數(shù)學上,這樣一個解并不是很完全。上面這種解法稱為Welch–Satterthwaite solution,也叫做Welch's?t-test;還有其他人給出了不同的solution,比如Fisher用他的fiducial inference給了一個基于Behrens–Fisher distribution的解;還有Bayes方法的解等等。但是這個問題迄今還沒有令人完全滿意的解答。wikipedia里面把這個問題列為經(jīng)典統(tǒng)計學里面的一個尚未解決的問題:Is an approximation analogous to Fisher's argument necessary to solve the Behrens–Fisher problem?Yuri Linnik?showed in 1966 that there is no?uniformly most powerful test?for the difference of two means when the variances are unknown and possibly unequal. That is, there is no?exact test?(meaning that, if the means are in fact equal, one that rejects the?null hypothesis?with?probability exactly α) that is also the most powerful for all values of the variances (which are thus?nuisance parameters). Though there are many approximate solutions (such as?Welch's t-test), the problem continues to attract attention?as one of the classic problems in statistics.
最后,如果underlying distribution不是正態(tài),那么如果樣本數(shù)足夠多,上面的Welch's?t-test還是能用的(CLT保證了)。

Mann-Whitney Test (Wilcoxon rank sum test)
這是一個非參數(shù)統(tǒng)計方法。秩和檢驗是建立在排序(rank)上的,所以所有保序變換都不影響檢驗的結(jié)果(比如比較兩組人的分數(shù)是否有顯著差別,調(diào)分前和調(diào)分后檢驗結(jié)果一樣;除非像某課一樣出現(xiàn)非保序調(diào)分)。
秩和檢驗的setting是這樣的:我們有n個對照組數(shù)據(jù)X_1,…,X_n,m個實驗組數(shù)據(jù)Y_1,…,Y_m。零假設(shè)是:實驗組與對照組分布相等。
思想很簡單:我們把m+n個樣本排序,把某一組(比如實驗組Y)里面的排序加起來,得到統(tǒng)計量T_Y。如果零假設(shè)成立(不管是什么分布,只要兩個分布相等),那么這個T_Y應(yīng)該大概率在“中間”,不會很大或者很?。ǜ鷓值的想法一樣):如果很大,就說明Y大量排在X后面,即Y顯著大于X;反之亦然。這個“中間”具體這樣算:T_X+T_Y=(m+n)(m+n+1)/2,其中T_Y是m個和,如果均勻分配的話應(yīng)該分配到m(m+n),于是ET_Y=m(m+n+1)/2。當然T_Y的具體分布是能算出來的(而且跟F與G完全無關(guān)),于是接下來做假設(shè)檢驗和算p值都是輕松的。
因為秩和檢驗只算秩,所以它對outlier(在基因測序中很常見)是不敏感的。比如一個最大值100被測成了10000,秩和檢驗不會受到影響(但是Welch’s t-test會有比較大的影響)
我們還希望對大樣本有漸進分布。這個漸進定理類似于普通的CLT(不過并不是CLT,因為不是i.i.d):

這個漸進在m和n都大于10時就已經(jīng)非常精確。關(guān)于均值和方差的計算,自己算就行了(不放回摸球模型)。均值可以直觀地看出來,方差必須得算。
秩和還有另一個等價的刻畫。我們考慮用概率P(X<Y)來考察藥物的作用效果。如果沒有效果,它應(yīng)該是1/2。概率越大,表示作用效果越強。一個自然的estiamtor為

經(jīng)過簡單的計算,可以發(fā)現(xiàn)這個estimator可以用秩和檢驗統(tǒng)計量來表達:

這個計算說明“秩和統(tǒng)計量”和“X_i<Y_j的個數(shù)”這兩個統(tǒng)計量是等價,或者說可以相互轉(zhuǎn)換的,我們可以按照具體情況選取合適的一個。
雖然看起來不太像(似乎只能檢驗兩個分布一樣?),但Mann-Whitney test還可以用于區(qū)間估計。技巧是平移。假設(shè)使用藥物之后,概率分布做了一個平移(這是最簡單的情況)\Delta。我們希望得到\Delta的置信區(qū)間估計。前面的計算說明:rank之和T_Y(T_X)與X_i<Y_j的個數(shù)U,這兩個統(tǒng)計量之間是可以互相轉(zhuǎn)換的?,F(xiàn)在我們用后者更加方便。在漸進情況下,U自然也是一個高斯分布,所以通過inverting a test可以得到\Delta的區(qū)間估計為

最后有一些技術(shù)層面的說明:
如果排序中出現(xiàn)了tie,怎么辦?(tie在比賽里的意思是:If two people?tie?in a competition or game or if they?tie with?each other, they have the same number of points or the same degree of success.)如果tie的數(shù)量比較少,就assgin average rank,不會有顯著的影響。如果tie的數(shù)量比較多,就需要modify了,查文獻去。在signed rank test中也是一樣,|D_i|排序時若出現(xiàn)tie,則需要對rank平均,
雖然Mann-Whitney test中不會出現(xiàn),但這里還是提前說:在signed rank test中,如果difference出現(xiàn)0,沒法排序,就把這些pair直接扔掉。
還有一個說明:秩和統(tǒng)計量有兩種形式,一種是rank sum,一種是X_i<Y_j的個數(shù)之和。這二者之間的靈活轉(zhuǎn)換是很有用的。比如說,rank sum的分布是很難求的,但是X_i<Y_j的個數(shù)之和這個表達就變成了若干簡單的隨機變量之和,算期望、方差之類的就非常簡單。我們甚至可以玩一些更夸張的花樣。比如說,如果零假設(shè)不成立,F(xiàn)和G是兩個不同的分布,rank sum的期望和方差是什么呢?乍一想,這個問題非常困難,要把每種排序遍歷過去,再把這些概率加起來。但是如果我們吧rank sum寫成X_i<Y_j的個數(shù)之和這種等價形式的話,這個問題就簡化了很多。舉個例子,X_1,...,X_n服從N(0,1),Y_1,...,Y_n服從N(1,1),則X和Y混合的rank sum服從什么分布呢?利用上面的技巧,我們可以算出

這個結(jié)果不仔細思考過的話肯定會覺得不可思議。感興趣的讀者不妨用數(shù)值計算來驗證這個結(jié)果。

Comparing Paired?Samples?
paired sample的情況可能出現(xiàn)在:同一個樣本前后兩次測量;同窩出生仔畜采取不同的處理,等等。此時X_i與Y_i是成對dependent的。下面看到,因為pair的存在,這種情況其實更簡單。
首先,模型的設(shè)定是這樣的。樣本對是(X_i,Y_i),i=1,…,n。不同對之間是i.i.d.的,每個對里面的分布刻畫為\mu_X,\mu_Y,\sigma_X^2,\sigma_Y^2,\sigma_{XY}=\rho\sigma_X\sigma_Y。我們要考察的仍然是藥物作用\mu_X-\mu_Y。
和前面一樣,我們有基于正態(tài)假設(shè)的t檢驗與非參數(shù)的rank test。
首先是基于正態(tài)假設(shè)的檢驗。很簡單,處理i.i.d.的D_i=X_i-Y_i,由此構(gòu)建t統(tǒng)計量即可。(為什么這時候這么簡單呢?因為可以成對地處理啊。我們要考慮作用前后的差,那么每一對前后作差是很自然的。前面m和n一般是不相等的,所以沒法這么玩)
然后是非參數(shù)檢驗。一樣的思想,我們還是考慮成對的差。這樣構(gòu)建統(tǒng)計量W_+:先把差D_i取絕對值|D_i|排序,然后把排好的序加上差的符號(如果有0,就丟掉)。其中正的秩和記為W_+。如果零假設(shè)成立,W_+與W_-大致是絕對值相等的,它們都不會太大或者太小。
一樣的,我們有漸進行為:(均值很直觀,方差得仔細求)


實驗設(shè)計方法
關(guān)鍵詞:對照組,雙盲實驗,安慰劑效應(yīng),隨機化分配。具體的例子可以看Rice的書。

Concluding Remarks
本文研究的問題在科研中是非常普適的。當我們設(shè)置實驗組和對照組后,我們需要比較結(jié)果。對于物理或者化學,結(jié)果的比較通常還是比較清楚的;但對于生物或者醫(yī)學,結(jié)果的隨機性可能很大,此時就必須要引入統(tǒng)計方法來研究實驗組和對照組到底在多大的可信程度上有多大的差距。
關(guān)于Bayes角度的樣本比較,就不寫了。
前面討論的方法可以分為兩種:基于正態(tài)假設(shè)的參數(shù)檢驗(利用t統(tǒng)計量)與非參數(shù)檢驗(利用秩和統(tǒng)計量)。神奇的是,即使正態(tài)假設(shè)成立,秩和檢驗仍然更加powerful。Lehmann (1975) shows that the efficiency of the rank tests relative to that of the t test—that is, the ratio of sample sizes required to attain the same power—is typically around .95 if the distributions are normal. 也就是說,100個樣本的t test與95個樣本的秩和檢驗?zāi)軌蜻_到同樣好的效果。這件事情非常反直觀,而且也說明秩和檢驗是個好東西,是preferable的。
總結(jié)一下兩種方法總的思想:
比較兩個樣本之間的差距,總的做法有兩種:參數(shù)的t-test與非參數(shù)的秩方法。參數(shù)方法建立在正態(tài)假設(shè)下(不過大樣本時非正態(tài)亦可),其思路是(和Wald test一樣)構(gòu)建一個零假設(shè)下標準化的“N(0,1)”來做檢驗和區(qū)間估計。具體實行起來,因為方差不知道,所以技術(shù)上需要一些新的東西,比如Welch–Satterthwaite的solution。秩方法則非常直觀,利用排序(或者等價的,多少個X_i<Y_j)來做檢驗。再加上平移技巧,它還可以用來做區(qū)間估計。如果是paired-sample,事情更加簡單,因為我們可以直接成對作差做t-test和rank test。于是我們實現(xiàn)了最終目標:給定實驗組和對照組的數(shù)據(jù),推斷“藥物作用”的區(qū)間估計。