最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

ANOVA

2019-12-08 11:38 作者:露保協(xié)  | 我要投稿


什么是統(tǒng)計學(xué)?

兩句話:

  1. 考察\forall \theta\in\Theta的一致的概率行為,而不是單個測度。

  2. Decision theory的思想,即:給出decision,然后evaluate之。

ANOVA

本文只關(guān)注oneway ANOVA。

背景與模型設(shè)置

之前寫過一篇two-sample comparison。ANOVA說白了就是更加一般的multi-sample comparison

我們有k組數(shù)據(jù):

這里面每組的個數(shù)不一定要相等。這是two-sample comparison的推廣。我們的目的是研究這些組別之間有沒有顯著差異。

對于這種數(shù)據(jù),畫boxplot圖是很合適的。這種descriptive statistic的工作雖然簡單,但是能給出很多直觀信息。

下面來具體設(shè)定statistical model。未知的參數(shù)為期望值\theta_1,…,\theta_k表示“藥物的作用”。樣本的分布為?

這里面需要注意的點是:

1.\sigma是未知的,它代表測量或者個體帶來的誤差;

2.假設(shè)所有sigma都相等。這叫做homoscedasticity假設(shè)。這個假設(shè)是必要的,也是最讓我們感到難受的。因為不同的藥物不僅會導(dǎo)致均值的改變,還可能導(dǎo)致方差的改變。采用homoscedasticity假設(shè)是統(tǒng)計學(xué)里面的一個常用的近似。原因在于:采用了這個假設(shè),處理起來會方便很多,理論也干凈很多,具有很好的統(tǒng)計性質(zhì)。大多數(shù)情況下只要方差沒有顯著變化,采用homoscedasticity假設(shè)都是合理的。另一方面,對于方差不等的情況,即Behrens-Fisher問題,前面的一篇筆記也討論過,至今沒有完全解決,只有一些compromise的解決方法。所以后面我們都在homoscedasticity的假設(shè)下干活。如果數(shù)據(jù)嚴(yán)重violate了這個假設(shè)(heteroscedasticity),就需要別的方法了,比如做變換。


Partitioning SS恒等式

在進入正題之前,我們首先討論一個純代數(shù)的恒等式。我稱之為Partitioning SS恒等式。

簡單來記就是

總的sum of square(SS)可以按照來源分為兩個部分:within groups的和between groups的,兩個直接線性相加就是總的SS。這就是ANOVA這個名字的來源。換句話說ANOVA的根基就是一個代數(shù)恒等式,跟統(tǒng)計沒數(shù)目關(guān)系。

它的證明過于簡單,不寫了。純代數(shù)的操作而已。

另外要注意的一點是:這個恒等式隱含了自由度的信息在里面:

做chi square test, t test, f test的時候要用到這些自由度。

問題

ANOVA有兩個問題。

問題1是two-sample comparison的簡單推廣,即對某些組的數(shù)據(jù)做comparison。換句話說,我們想對這樣的線性組合做假設(shè)檢驗或參數(shù)估計:

這屬于univariate manner,所以做法還是跟two-sample comparison一樣,用t test就完事了。特別的,如果a_i的和為0,我們把它叫做一個contrast,比如\theta_1-\theta_2就是一個contrast,它就是two-sample comparison的考察對象。

問題2是一個multivariate manner,它想要檢驗以下零假設(shè):

這個零假設(shè)一看就非常蠢。我們肯定希望它不成立,可是就算知道不成立,我們還是不知道不同treatments之間哪些有差距,有多大的差距。所以問題2的確很蠢,在實際用處上肯定不如問題1。但是問題2在統(tǒng)計上有非常優(yōu)美和自然的解決方案。我們說的傳統(tǒng)的ANOVA指的就是問題2,雖然沒用,但是好看。

問題1和問題2是有聯(lián)系的?;貞沀IT和IUT(分不清哪個是哪個了...),問題2相當(dāng)于說對問題1的所有contrasts取并。所以問題1的解決多走一步就解決了問題2。

問題1的解決

完全按照two-sample comparison的方法來,構(gòu)造t test的標(biāo)準(zhǔn)操作

接下來就可以做假設(shè)檢驗和區(qū)間估計了。沒什么好說的,都是自然而標(biāo)準(zhǔn)的操作。

說實話假設(shè)檢驗并沒有什么用。我們并不只想知道藥有沒有用,而是它有多大用。所以實際中都是要把假設(shè)檢驗invert成區(qū)間估計的。

問題2的解決

問題2雖然沒用,但它的解法才有ANOVA的特色。
怎么從問題1走向問題2是一個最優(yōu)化的technical的問題,不具體寫了,只給出結(jié)論:

這就是一個標(biāo)準(zhǔn)的F test。直觀也是很明確的:如果零假設(shè)成立,則SS大部分在SSW里面,SSB分配到很少,所以F statistic集中在0附近。如果F statistic很大,就說明有問題了。

最后多說一句,這個test其實就是LRT test。簡單算一下就知道了。不過從LRT角度來機械地推,看不出很多直觀。ANOVA是很直觀的。

multiple comparisons

當(dāng)我們想要同時估計比如\theta_1-\theta_2和\theta_2-\theta_3的區(qū)間時,是要在R^2上給出一個集合來。如果我們用二者的1-\alpha的區(qū)間(帶)取并,則coverage probability會小于1-\alpha。但是,如果我們把背個區(qū)間(帶)放大,變成1-\alpha/2的區(qū)間,那么取并之后的coverage probability就大于等于1-\alpha/2+1-\alpha/2-1=1-\alpha(Bonferroni不等式),滿足要求。這就是multiple comparison的Bonferroni方法。

除此之外還有一些別的處理方法,比如Scheffe’s S method,Tukey’s Q method,LSD procedure,Duncan’s procedure等,具體可看Casella。

Matlab實現(xiàn)

假裝我們有兩種藥。沒有用藥時,某一指標(biāo)服從N(0,1),有100個樣本;用了藥A,該指標(biāo)服從N(1,1),有50個樣本;用了藥B,該指標(biāo)服從N(2,1),有70個樣本。用隨機數(shù)生成這些樣本。

data1=randn(1,100);

data2=randn(1,50)+1;

data3=randn(1,70)+2;

data2=[data2,NaN(1,50)];

data3=[data3,NaN(1,30)];

data=[data1;data2;data3];

data=data';

注意,這里要按照前面那種表格的形式輸入數(shù)據(jù)。boxplot和anova1函數(shù)只認(rèn)這種形式的數(shù)據(jù)。對不齊的用NaN湊上。

在做統(tǒng)計分析之前,做一下描述性統(tǒng)計學(xué)的工作,建立一下直觀總是好的。

boxplot(data)給出boxplot圖:

圖中可以看出顯著的差異了。接下來做ANOVA:anova1(data),給出ANOVA table:

這個表把beyond和within的SS,F(xiàn) statistic以及p-value全部寫出來了。最終的p值為1.4237e-22,完全可以斷定藥物時有效的(這種confidence放在粒子物理里也綽綽有余了)。注意表中SS和df兩列的前兩行是可以相加的,這就是partitioning SS恒等式。


ANOVA的評論 (共 條)

分享到微博請遵守國家法律
弥勒县| 山阳县| 铜川市| 沙雅县| 青阳县| 措勤县| 宁强县| 花莲县| 仲巴县| 辽宁省| 大荔县| 海门市| 绍兴市| 永丰县| 萨迦县| 靖宇县| 肃宁县| 吴旗县| 青龙| 西乡县| 宣武区| 和平县| 怀化市| 梅河口市| 赤水市| 土默特右旗| 迁西县| 安化县| 阿图什市| 新泰市| 福安市| 佳木斯市| 昭平县| 林周县| 香港| 霸州市| 新泰市| 大兴区| 宁乡县| 潮安县| 永昌县|