SPSS統(tǒng)計分析從入門到精通

4.4聯(lián)列表分析
聯(lián)列表分析是通過通過頻數(shù)交叉表來討論兩個或多個變量之間是否存在關(guān)聯(lián),并提供了各種雙向表檢驗和相關(guān)性測量?;舅悸放c假設(shè)檢驗基本一致,先建立一個零假設(shè)(原假設(shè)),認為兩個變量之間是沒有關(guān)聯(lián)的,然后進行卡方檢驗,計算發(fā)展概率。通過概率是否達到顯著水平來判斷,接受或拒絕零假設(shè)。
聯(lián)列表分析實踐
分析——描述統(tǒng)計——交叉表格
選擇行變量,列變量和層(分層變量是決定頻數(shù)分布的層,如果選擇多個分層變量,就要點擊下一頁)

“在表層中顯示層變量”,選擇該復(fù)選框以后,就可以創(chuàng)建視圖,來顯示行或列變量的整體統(tǒng)計以及允許深入層變量的類別。
“顯示集群條形圖”,選擇后會輸出集群條形圖,幫助匯總各案組的數(shù)據(jù)。
“取消表格”,選中后不輸出交叉表。
(一)三種精確檢驗方法

(1)僅漸進法
它是基于漸進分布計算的概率值,一般情況下值小于0.05,就認為是顯著。
(2)蒙特卡羅
(3)精確
精確計算概率,當(dāng)值小于0.05,就認為顯著,行列變量之間相互獨立。
(二)統(tǒng)計(statistics)

(1)卡方
卡方檢驗屬于非參數(shù)檢驗,不存在具體參數(shù),且不需要有總體服從正態(tài)分布的假設(shè),是用途非常廣泛的一種假設(shè)檢驗方法,主要用于研究定類與定類數(shù)據(jù)之間的差異關(guān)系,包括兩個率或兩個構(gòu)成比比較的卡方檢驗;多個率或多個構(gòu)成比比較的卡方檢驗以及分類資料的相關(guān)分析。
卡方檢驗就是統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越??;若兩個值完全相等時,卡方值就為0,表明理論值完全符合。
卡方檢驗零假設(shè):不存在差異。結(jié)果:漸進顯著性<0.05,否認零假設(shè),說明存在顯著差異。

注意:卡方檢驗針對分類變量。
(2)相關(guān)性
選擇將生成相關(guān)系數(shù),用來測量等級順序之間的相關(guān)性。
(三)單元格

(1)觀察值:實際的頻數(shù)
(2)期望值:期望的頻數(shù)
(3)隱藏較小計數(shù):可以隱藏小于指定整數(shù)的頻數(shù)。
5.1 平均值檢驗
計算一個或多個自變量類別中,因變量的值組平均值和相關(guān)的單變量的統(tǒng)計,也可以通過比較兩個樣本的均值來判斷兩個總體的均值是否相等。它的零假設(shè)就是兩個樣本的均值沒有顯著差異。
分析——比較平均值——平均值
(1)選項

左邊給出了很多統(tǒng)計量。
Anova和eta(方差分析表)

顯著性大于0.05,證實零假設(shè),說明男性和女性的儲蓄金額沒有顯著差異。
5.2 單樣本T檢驗
單樣本T檢驗的目的是推斷樣本數(shù)據(jù)的平均值和指定的檢驗值之間的差異是否顯著。它的零假設(shè)就是樣本數(shù)據(jù)的均值與檢驗值之間不存在顯著差異。
分析——比較平均值——單樣本T檢驗

顯著性檢驗0.001小于0.05,拒絕零假設(shè),認為樣本數(shù)據(jù)平均年齡與50之間存在顯著差異。
5.3 雙獨立樣本T檢驗
在兩個樣本相互獨立的前提下,檢驗兩個樣本的總體均數(shù)是否存在著顯著差異,它的零假設(shè)就是兩個樣本數(shù)據(jù)的均值不存在顯著差異。
分析——比較平均值——獨立樣本T檢驗


雙尾顯著性0.01<0.05,拒絕零假設(shè),兩組數(shù)據(jù)的均值存在顯著差異,男女的受教育年限存在顯著差異。
5.4 配對樣本的T檢驗
在數(shù)據(jù)分析中,往往有些數(shù)據(jù)是成對出現(xiàn)的,是兩個樣本的一種特殊狀態(tài)。配對樣本T檢驗用于檢驗兩配對總體的均值是否存在顯著差異。零假設(shè)是兩配對樣本數(shù)據(jù)均值不存在顯著差異。
實例:配對樣本
變量1(苗高增長量1組 標簽:不施肥)
變量2(苗高增長量2組 標簽:施肥)
分析——比較平均值——配對樣本T檢驗

配對樣本相關(guān)性一表中顯著0.395>0.05,可以看出兩個配對樣本之間的相關(guān)性不顯著
配對樣本檢驗的雙尾顯著性0.026<0.05,說明兩個配對樣本(不施肥和施肥)它們的均值是存在顯著差異的,拒絕零假設(shè)。
6.1 卡方檢驗
參數(shù)檢驗,在已知總體分布的情況下,對總體的若干個參數(shù)均值、方差進行檢驗,這個就是參數(shù)檢驗。但很多情況我們對總體的數(shù)據(jù)、分布不知道的未知情況下,如果我們要通過樣本來檢驗我們總體分布的假設(shè),這種檢驗方法就是非參數(shù)檢驗。非參數(shù)檢驗應(yīng)用范圍很廣,是統(tǒng)計方法中的一個重要組成部分。
相較于參數(shù)檢驗,非參數(shù)檢驗所需的假定前提條件比較少,不依賴我們總體的一個分布類型。就可以檢驗數(shù)據(jù)是否來自同一個主體。
卡方檢驗的目的就是通過樣本數(shù)據(jù)的分布檢驗總體分布,總體分布與我們的期望分布或其他的某一個理論分布是否一致。它的零假設(shè)就是我們樣本的總體分布與我們的期望分布或者理論分布無顯著差異。
實例:利用卡方檢驗來檢驗骰子的點數(shù)是不是均勻分布的。即扔骰子??的點數(shù)是不是隨機的。(共42組數(shù)據(jù))
分析——非參數(shù)檢驗——舊對話框——卡方

期望全距
從數(shù)據(jù)中獲取:所有數(shù)據(jù)都參與檢驗。
使用指定范圍:可以自定義一個取值范圍,在上限和下限中輸入整數(shù)值。
期望值
所有類別相等:表明我們期望的分布是均勻分布
值:自己輸入期望頻數(shù)值


卡方值0.571,自由度5,漸進顯著性0.989遠遠大于0.05,所以不能拒絕(證實了)零假設(shè)。樣本的總體分布與我們的期望分布無顯著差異。即骰子點數(shù)的次數(shù)是均勻分布的。
6.2 二項分布檢驗
在實際數(shù)據(jù)的處理中,有些數(shù)據(jù)的取值只能分為兩類,比如合格/不合格、是/否、生/死等。通常我們用0和1代表這些數(shù)值,通常0代表男性,1代表女性等等。
二項分布(binomial distribution)就是對這類只具有兩種互斥結(jié)果的離散型隨機事件的規(guī)律性進行描述的一種概率分布。
二項分布檢驗(Binomial test)就是用來檢驗樣本是否來自參數(shù)為(n,p)的二項分布總體的方法。其中n為樣本量,p為比例。二項分布檢驗就是檢驗樣本中這兩個類別的觀察頻率是否等于給定的一個檢驗比例。它的零假設(shè)就是來自總體的分布與我們指定的二項分布無顯著差異。
二項分布檢驗在小樣本中采取的是精確檢驗的方法,在大樣本中采取的是近似檢驗方法。
實例:檢驗一批燈泡的合格率是否達到95%
分析——非參數(shù)檢驗——舊對話框——二項式

定義二分法:如果檢驗是二分法,就選擇從數(shù)據(jù)中獲取。如果不是就在分割點輸入數(shù)值,大于這個值和小于這個值各分為一組,也形成一個二二分變量。
檢驗比例:輸入要求的0.95

觀察到的比例93%,檢驗比例是95%。精確顯著性水平(單尾)0.130>0.05,說明我們不能拒絕(接受)零假設(shè)。這批燈泡的合格率與我們指定的二項分布沒有顯著差異,即這批燈泡的合格率達到了95%。
8.2 兩變量相關(guān)分析
相關(guān)分析是研究事物之間是否具有相關(guān)性及相關(guān)性強弱的一種方法。常用的就是線性相關(guān)分析。一些變量之間它的關(guān)系是特定的,比如說圓周長。除了這些特定性關(guān)系以外,很多變量之間的關(guān)系是不確定的,比如相同體積重量的人肺活量不是確定的,相同身高的人有不一樣的體重,也就是說放一個自變量值以后因變量值并不是唯一的,它是在一定的范圍之內(nèi)波動的。如果研究這次不確定變量之間的相關(guān)性,我們就需要借助相關(guān)分析的方法。統(tǒng)計分析中常用相關(guān)系數(shù)定量的描述兩個變量之間線性關(guān)系的強弱。如果因變量值隨著自變量值的增大而增大,就是同方向,或者隨著自變量值的減小而減小,我們就稱為是正相關(guān),相關(guān)系數(shù)大于0。如果它越接近1,就表明相關(guān)性越強。如果因變量隨著自變量的增大減小,或者隨著自變量值的減小增大,我們就稱之為負相關(guān),它的相關(guān)系數(shù)是小于0的。所以相關(guān)系數(shù)是描述線性關(guān)系強弱和方向的統(tǒng)計量。它的取值范圍是—1到1之間。
根據(jù)數(shù)據(jù)不一樣的特點通常采用的是不一樣的相關(guān)系數(shù)。
第一個是線性相關(guān)系數(shù)即皮爾遜相關(guān)系數(shù)。它是用來度量具有線性關(guān)系的兩個變量之間相關(guān)關(guān)系的密切及相關(guān)方向。它主要適用于能滿足正態(tài)分布的數(shù)據(jù)。
第二個是斯皮爾曼(spearman)等級相關(guān)系數(shù),相當(dāng)于皮爾遜相關(guān)系數(shù)的非參數(shù)形式。經(jīng)常用希臘字母ρ表示。 它是衡量兩個變量的依賴性的 非參數(shù) 指標。 它利用單調(diào)方程評價兩個統(tǒng)計變量的相關(guān)性。 如果數(shù)據(jù)中沒有重復(fù)值, 并且當(dāng)兩個變量完全單調(diào)相關(guān)時,斯皮爾曼相關(guān)系數(shù)則為+1或?1。斯皮爾曼等級相關(guān)系數(shù)適用于有序數(shù)據(jù)和不滿足正態(tài)分布建設(shè)的等間額數(shù)據(jù),取值范圍也在—1到1之間,絕對值越大,相關(guān)性越強。取值的符號(正負號)表示相關(guān)的方向。
第三個是肯德爾(kendall)等級相關(guān)系數(shù)。它是對兩個有序變量或兩個自變量之間相關(guān)程度的一種測度。也是屬于非參數(shù)統(tǒng)計。
兩變量的相關(guān)分析
實例:汽車的價格和汽車的馬力之間是否具有相關(guān)性。
先用圖形初步判斷一下它們之間的相關(guān)性。
圖形——圖形構(gòu)建器——散點圖


可以大致判斷出價格是隨著馬力的增大而增大,它們可能表現(xiàn)出一種正向關(guān)系。
分析——相關(guān)——雙變量
相關(guān)系數(shù):皮爾遜相關(guān)系數(shù),斯皮爾曼等級相關(guān)系數(shù),肯德爾等級相關(guān)系數(shù)
雙尾檢驗:不知道是正相關(guān)還是負相關(guān)勾選雙尾檢驗
單尾檢驗:事先知道了相關(guān)方向
標注顯著性相關(guān):在輸出結(jié)果中,如果達到顯著性水平,就會在右上角用一個*表示。如果達到0.01極顯著水平的時候,它用兩個*做標記。
雙變量相關(guān)性選項:平均值和標準差,偏差和協(xié)方差都勾選上
缺失值:選擇按對排除

皮爾遜相關(guān)系數(shù)標注了兩個*,表示極顯著。具有很強的相關(guān)性。
9.1 線性回歸
回歸分析是尋找變量之間統(tǒng)計關(guān)系的一種方法,應(yīng)用很廣泛?;貧w分析從廣義上來講與相關(guān)分析有共同點,它們都是研究對象之間存在的相互關(guān)聯(lián)關(guān)系的方法。但從狹義上來說兩者之間也存在差別。