《教育統(tǒng)計學》(王孝玲版)超詳細知識點及重點筆記
第一章 緒論
第一節(jié) 什么是統(tǒng)計學和心理統(tǒng)計學
一、什么是統(tǒng)計學
統(tǒng)計學是研究統(tǒng)計原理和方法的科學。具體地說,它是研究如何搜集、整理、分析反映事物總體信息的數字資料,并以此為依據,對總體特征進行推斷的原理和方法。
統(tǒng)計學分為兩大類。一類是數理統(tǒng)計學。它主要是以概率論為基礎,對統(tǒng)計數據數量關系的模式加以解釋,對統(tǒng)計原理和方法給予數學的證明。它是數學的一個分支。另一類是應用統(tǒng)計學。它是數理統(tǒng)計原理和方法在各個領域中的應用,如數理統(tǒng)計的原理和方法應用到工業(yè)領域,稱為工業(yè)統(tǒng)計學;應用到醫(yī)學領域,稱為醫(yī)學統(tǒng)計學;應用到心理學領域,稱為心理統(tǒng)計學,等等。應用統(tǒng)計學是與研究對象密切結合的各科專門統(tǒng)計學。
二、統(tǒng)計學和心理統(tǒng)計學的內容
統(tǒng)計學和心理統(tǒng)計學的研究內容,從不同角度來分,可以分為不同的類型。從具體應用的角度來分,可以分成描述統(tǒng)計,推斷統(tǒng)計和實驗設計三部分。
1.描述統(tǒng)計
對已獲得的數據進行整理、概括,顯示其分布特征的統(tǒng)計方法,稱為描述統(tǒng)計。
2.推斷統(tǒng)計
根據樣本所提供的信息,運用概率的理論進行分析、論證,在一定可靠程度上,對總體分布特征進行估計、推測,這種統(tǒng)計方法稱為推斷統(tǒng)計。推斷統(tǒng)計的內容包括總體參數估計和假設檢驗兩部分。
3.實驗設計
實驗者為了揭示試驗中自變量和因變量的關系,在實驗之前所制定的實驗計劃,稱為實驗設計。其中包括選擇怎樣的抽樣方式;如何計算樣本容量;確定怎樣的實驗對照形式;如何實現實驗組和對照組的等組化;如何安排實驗因素和如何控制無關因素;用什么統(tǒng)計方法處理及分析實驗結果,等等。
以上三部分內容,不是截然分開,而是相互聯系的。
第二節(jié) 統(tǒng)計學中的幾個基本概念
一、隨機變量
具有以下三個特性的現象,成為隨機變量。第一,一次試驗有多中可能結果,其所有可能結果是已知的;第二,試驗之前不能預料哪一種結果會出現;第三,在相同的條件下可以重復試驗。隨機現象的每一種結果叫做一個隨機事件。我們把能表示隨機現象各種結果的變量稱為隨機變量。統(tǒng)計處理的變量都是隨機變量。
二、總體和樣本
總體是我們所研究的具有共同特性的個體的總和??傮w中的每個單位成為個體。樣本是從總體中抽取的作為觀察對象的一部分個體。當總體所包含的個數有限時,這一總體稱為有限總體。而總體所包含的個數無限時,則稱為無限總體。樣本中包含的個體數目稱為樣本的容量,一般用n來表示。一般來說,樣本中個體數目大于30稱為大樣本,等于或小于30稱為小樣本。在對數據進行處理時,大樣本和小樣本所用的統(tǒng)計方法不一定相同。
三、統(tǒng)計量和參數
樣本上的數據特征是統(tǒng)計量??傮w上的各種數字特征是參數。在進行統(tǒng)計推斷時,就是根據樣本統(tǒng)計量來推斷總體相應的參數。
心理統(tǒng)計學大綱
第二章 數據的初步整理
第一節(jié) 數據的來源、種類及其分類
一、統(tǒng)計資料的來源
統(tǒng)計資料的來源有兩個方面:
1、經常性資料
2、專題性資料 (1)調查資料 (2)實驗資料
二、數據的種類
數據是隨機變量的觀察值。它是用來描述對客觀事物觀察測量的數值。數據的種類不同,統(tǒng)計處理的方法也不同。
根據統(tǒng)計數據來源可分為點計數據和度量數據;按隨機變量取值情況,可分為間斷性隨機變量的數據和連續(xù)性隨機變量的數據。
1、點計數據和度量數據
點計數據是指計算個數所獲得的數據。度量數據是指用一定的工具或一定的標準測量所獲得的數據。
2、間斷性隨機變量的數據和連續(xù)性隨機變量的數據
取值個數有限的數據,稱為間斷性隨機變量的數據。這種數據的單位是獨立的,兩個單位之間不能劃分成細小的單位,一般用整數表示。取值個數無限的(不可數的)數據,稱為連續(xù)性隨機變量的數據。它們可能的取值范圍能連續(xù)充滿某一個區(qū)間。數據的單位之間可以再劃分成無限多個細小的單位。數據可以用小數表示。
三、數據的統(tǒng)計分類
數據的統(tǒng)計分類,是指按照研究對象的本質特征,根據分析研究的目的、任務,以及統(tǒng)計分析時所用統(tǒng)計方法的可能性,將所獲得的數據進行分組歸類。它是對數據進行歸納、整理、簡化、概括的第一步,為進一步分析研究打下基礎。
分類的標志按形式劃分,可分為性質類別和數量類別。性質類別是按事物的不同性質進行分類。這種分類不表明事物之間的差異。性質類別還可以進一步分成不同的層次。數量類別是按數值大小進行分類,并排成順序。在排列順序時,可以直接按數值大小進行排列,也可以用等級順序進行排列。
第二節(jié) 統(tǒng)計表
一、統(tǒng)計表的結構及其編制的原則和要求。
統(tǒng)計表一般由標題、表號、標目、線條、數字、表注等項構成。
標題 標題是表的名稱,應確切地、簡明扼要地說明表的內容。
表號 表號是表的序號。
標目 標目是表格中對統(tǒng)計數據分類的項目。
線條 線條不宜過多。
數字 表內數字必須準確,一律用阿拉伯數字表示,位次對齊,小數的位數一致。
表注 它不是表的必要組成部分。
二、統(tǒng)計表的總類
1、簡單表
只列出觀察對象的名稱、地點、時序或統(tǒng)計指標名稱的統(tǒng)計表為簡單表。
2、分組表 只按一個標志分組的統(tǒng)計表為分組表。
3、復合表 按兩個或兩個以上標志分組的統(tǒng)計表為復合表。
三、頻數分布表列法
1、簡單頻數分布表
?。?)間斷變量的頻數分布表 (2)連續(xù)變量的頻數分布表
步驟:①求全距 ②決定組數和組距?、蹧Q定組限決定組限 ④登記頻數
2、累積頻數和累積百分比分布表
(1)累積頻數分布表 用累積頻數表示的頻數分布表稱為累積頻數分布表。
(2)累積百分比分布表
累積百分比分布表是累積頻數分布表的變型。它是用累積百分比表示的頻數分布表。
第三節(jié) 統(tǒng)計圖
一、統(tǒng)計圖的結構及其繪制規(guī)則
統(tǒng)計圖由標題、圖號、標目、圖形、圖注等項構成。下面按其構成部分說明繪圖的基本規(guī)則。
標題 圖的名稱應簡明扼要,切合圖的內容,必要時可注明時間、地點。
圖號 文章中若有幾幅畫,則需按其出現的先后次序編上序號,寫在圖題的作前方。
標目 對于有縱橫軸的統(tǒng)計圖,應在縱橫軸上分別標明統(tǒng)計項目及其尺度。
圖形 圖形線在圖中為最粗,而且要清晰。
圖注 圖注不是圖中必要組成部分。
二、表示間斷變量的統(tǒng)計圖
1、直條圖
直條圖是用直條的長短表示統(tǒng)計事項數量的圖形。它主要是用來比較性質相似的間斷性資料。
2、圓形圖
圓形圖是用來表示間斷性資料構成比的圖形。
三、表示連續(xù)變量的統(tǒng)計圖
1、線形圖
線形圖用來表示連續(xù)性資料。它能表示兩個變量之間的函數關系;一種事物隨另一種事物變化的情況;某種事物隨時間推移的發(fā)展趨勢等。
2、頻數分布圖
常用的頻數分布圖有直方圖、多邊圖和累積多邊圖。
?。?)直方圖
直方圖用面積表示頻數分布。用各組上下限上的矩形面積表示各組頻數。
(2)多邊圖
多邊圖以縱軸上的高度表示頻數的多少。
(3)累積頻數和累積百分比多邊圖
第三章 集中量
集中量是代表一組數據典型水平或幾種趨勢的量。它能反映頻數分布中大量數據向某一點集中的情況。
第一節(jié) 算術平均數
一、算術平均數的概念
算術平均數是所有觀察值得總和除以總頻數所得之商,簡稱為平均數或均數。計算公式為(3.1)。
算術平均數的特征:
?。?)觀察值的總和等于算術平均數的N倍;
(2)各觀察值與其算術平均數之差的總和等于零;
?。?)若一組觀察值是由兩部分(或幾部分)組成,這組觀察值的算術平均數可以由組成部分算術平均數而求得;
二、算術平均數的應用及其優(yōu)缺點
算術平均數具備一個良好的集中量所應具備的一些條件:
?。?)反應靈敏。
?。?)嚴密確定。簡明易懂,計算方便。
?。?)適合代數運算。
?。?)受抽樣變動的影響較小。
除此之外,算數平均數還有幾個特殊的優(yōu)點:
?。?)只知一組觀察值的總和及總頻數就可以求出算術平均數。
?。?)用加權法可以求出幾個平均數的總平均數。
?。?)用樣本數據推斷總體集中量時,算術平均數最接近于總體集中量的真值,它是總體平均數的最好估計值。
?。?)在計算方差、標準差、相關系數以及進行統(tǒng)計推斷時,都要用到它。
算術平均數的缺點:
?。?)易受兩極端數值(極大或極?。┑挠绊?。
(2)一組數據中某個數值的大小不夠確切時就無法計算其算術平均數。
第二節(jié) 中位數
一、中位數的概念
中位數是位于依一定順序排列的一組數據中央位置的數值,在這一數值上、下各有一半頻數分布著。
二、中位數的計算方法
1、原始數值計算方法
將一組原始數據依大小順序排列后,若總頻數為奇數,就以位于中央的數據作為中位數;若總頻數為偶數,則以最中間的兩個數據的算術平均數作為中位數。
2、頻數分布表計算法
若一組原始數據已經編成了頻數分布表,可用內插法,通過頻數分布表計算中位數。
三、百分位數的概念及其計算方法
百分位數是位于依一定順序排列的一組數據中某一百分位置的數值。在心理測量中,常通過計算百分位數來說明、解釋和評價分數在團體中所處的位置。計算公式為(3.5)。
四、中位數的應用及其優(yōu)缺點
中位數雖然也具備一個良好的集中量所應具備的某些條件,例如比較嚴格確定、簡明易懂,計算簡便,受抽樣變動影響較小,但是它不適合進一步的代數運算。它適用于以下幾種情況:(1)一組數據中有特大或特小兩極端數值時;(2)一組數據中有個別數據不確切時;(3)資料屬于等級性質時。
第三節(jié) 眾數
一、眾數的概念
眾數是集中量的一種指標。對眾數有理論眾數及粗略眾數兩種定義方法。理論眾數是指與頻數分布曲線最高點相對應的橫坐標上的一點。粗略眾數是指一組數據中頻數出現最多的那個數。
二、眾數的計算方法
1、用觀察法直接尋找粗略眾數
粗略眾數不需要計算,可通過觀察直接尋得。
2、用公式求理論眾數的近似值
(1)皮爾遜(K.Person)的經驗法
利用皮爾遜發(fā)現的算術平均數、中位數、眾數三者關系來求理論眾數近似值的經驗公式為(3.6)。
(2)金氏(W.I.King)插補法
當頻數分布呈偏態(tài),即眾數所在組以上各組頻數總和與以下各組頻數總和相差較多時,可以用金氏公式計算眾數,以進行比率調整。其公式為(3.7)。
三、眾數的應用及其優(yōu)缺點
眾數雖然簡明易懂,但是它并不具備一個良好的集中量的基本條件。它主要在以下情況下使用:(1)當需要快速而粗略地找出一組數據的代表值時;(2)當需要利用算術平均數、中位數和眾數三者關系來粗略判斷頻數分布的形態(tài)時;(3)利用眾數幫助分析解釋一組頻數分布是否確實具有兩個頻數最多的集中點時。
第四節(jié) 加權平均數、幾何平均數
一、加權平均數
加權平均數是不同比重數據(或平均數)的平均數。計算公式為(3.8)或(3.9)。
二、幾何平均數
幾何平均數是N個數值連乘積的N次方根。計算公式為(3.10)。
當一個數列的后一個數據是以前一個數據為基礎成比例增長時,要用幾何平均數求其平均增長率。
第四章 差異量
第一節(jié) 全距、四分位距、百分位距(略)
第二節(jié) 平均差
一、平均差的概念
所謂平均差,就是每一個數據與該組數據的中位數(或算術平均數)離差的絕對值的算術平均數。
二、平均差的計算方法
用原始數據計算平均差的公式為(4.3)
三、平均差的優(yōu)缺點
平均差意義明確,計算容易,每個數據都參加了運算,考慮到全部的離差,反應靈敏。但計算要用絕對值,不適合代數運算。
第三節(jié) 方差和標準差
一、方差和標準差的概念
方差是指離差平方的算術平均數。其定義公式為(4.5),計算公式是(4.7)。
標準差是指離差平方和平均后的方根。即方差的平方根。其定義公式為(4.6),計算公式是(4.8)。
二、方差和標準差的應用及其優(yōu)缺點
方差和標準差的優(yōu)點:反應靈敏,隨任何一個數據的變化而表示;一組數據的方差和標準差有確定的值;計算簡單;適合代數計算,不僅求方差和標準差的過程中可以進行代數運算,而且可以將幾個方差和標準差綜合成一個總的方差和標準差;用樣本數據推斷總體差異量時,方差和標準差是最好的估計量。
第三節(jié) 相對差異量
一、相對差異量的概念
上述全距、四分位距、平均差及標準差都是帶有與原觀察值相同單位的名數,稱為絕對差異量。這種差異量對兩種單位不同,或單位相同而兩個平均數相差較大的資料,都無法比較差異的大小,必須用相對差異量(即差異系數)進行比較。
所謂差異系數是指標準差與其算術平均數的百分比。它是沒有單位的相對數。其計算公式是(4.11)
二、差異系數的用途
1、比較不同單位資料的差異程度
2、比較單位相同而平均數相差數較大的兩組資料的差異量程度
3、可判斷特殊差異情況
三、差異系數的應用條件
從測驗的理論來說,只有等比量表才使平均數等于零成為不可能。也就是說,用來測量的量尺,既具有等距的單位,又具有絕對零點,這時所測量出的數據其平均數才不可能等于零,這時才能計算差異系數。
第五節(jié) 偏態(tài)量及峰態(tài)量
偏態(tài)量及峰態(tài)量是用以描述數據分布特征的統(tǒng)計量。
一、偏態(tài)量
1、利用算術平均數與眾數或中位數的距離來計算。其公式為(4.12)。
2、根據動差來計算。其公式為(4.14)。
二、峰態(tài)量
1、用兩個百分位距來計算。其公式為(4.16)。
2、根據動差來計算。其公式為(4.17)。
第五章 概率及概率分布
第一節(jié) 概率的一般概念
一、概率的定義
概率因尋求的方法不同有兩種定義,即后驗概率和先驗概率。
1、后驗概率的定義
以隨機事件A在大量重復試驗中出現的穩(wěn)定頻率制作為隨機事件A概率的估計值,這樣尋得的概率稱為后驗概率。計算公式是(5.2)。
2.先驗概率的定義
先驗概率是通過古典概率模型加以定義的,故又稱為古典概率。古典概率模型要求滿足兩個條件:(1)試驗的所有可能結果是有限的;(2)每一種可能結果出現的可能性(概率)相等。若所有可能結果的總數為n,隨機事件A包括m個可能結果,則事件A的概率計算公式為(5.3)。
二、概率的性質
1、任何隨機事件A的概率都是介于0與1之間的正數;
2、不可能事件的概率等于0;
3、必然事件的概率等于1。
三、概率的加法和乘法
1、概率的加法
在一次試驗中不可能同時出現的事件稱為互不相容的事件。
兩個互不相容事件和的概率,等于這兩個事件概率之和。用公式表示為(5.4)和(5.5)。
2.概率的乘法
A事件出現的概率不影響B(tài)事件出現的概率,這兩個事件為獨立事件。
兩個獨立事件的概率,等于這兩個事件概率的乘積。用公式表示為(5.6)和(5.7)。
二項分布
一、滿足以下條件的試驗稱為二項試驗:
(1)一次試驗只有兩種可能結果。如:正面和反面;(2)各次試驗相互獨立,互不影響;(3)各次試驗中各事件概率相等。
二、二項分布:是一種離散型隨機變量的概率分布。
用n次方的二項展開式來表達在n次二項試驗中成功事件出現不同次數(X=0,1,…,n)的概念分布叫做二項分布。
二項展開式的通式(5.8)就是二項分布函數,運用這一函數式可以直接求出成功事件恰好出現X次的概率。
三、二項分布圖
從二項分布圖可以看出,當p=q,不管n多大,二項分布呈對稱形。當n很大時,二項分布接近于正態(tài)分布。當n趨近于無限大時,正態(tài)分布是二項分布的極限。
四、二項分布的平均數和標準差
當二項分布接近于正態(tài)分布時,在n次二項實驗中成功事件出現次數的平均數和標準差分別可以由公式(5.9)和(5.10)計算而得。
五、二項分布的應用
二項分布函數除了用來求成功事件恰好出現X次的概率之外,在心理學中主要用來判斷實驗結果的機遇性與真實性的界限。
屬于二項分布的問題,若實驗次數n較大,一般都用正態(tài)分布近似處理。
第三節(jié) 正態(tài)分布
正態(tài)分布是一種連續(xù)型隨機變量的概率分布。
一、正態(tài)曲線
1.正態(tài)曲線函數
正態(tài)曲線的函數式是公式(5.11)。
標準正態(tài)分布的函數式是公式(5.12)。
2.正態(tài)曲線的特點
(1)曲線在Z=0處為最高點。
(2)曲線以Z=0處為中心,雙側對稱。
(3)曲線從最高點向左右緩慢下降,并無限延伸,但永遠不與基線相交。
?。?)標準正態(tài)分布上的平均數為0,標準差為1。
(5)曲線從最高點向左右延伸時,在正負1個標準差是拐點。
二、正態(tài)曲線的面積與縱線
1、累積正態(tài)分布函數
2、標準正態(tài)分布下面積的求法
3、正態(tài)曲線的縱線
三、正態(tài)分布在測驗計分方面的應用
1、將原始分數轉換成標準分數
標準分數的意義:第一,各科標準分數的單位是絕對等價的;第二、標準分數的正負和大小可以反映出考生在全體考分中所處的地位。
2、確定錄用分數線
3、確定等級評定的人數
4、品質評定數量化
第六章 抽樣分布及總體平均數的推斷
第一節(jié) 抽樣分布
一、抽樣分布的概念
要區(qū)分以下三種不同性質的分布:
1、總體分布:總體內個體數值的頻數分布。
2、樣本分布:樣本內個體數值的頻數分布。
3、抽樣分布:某一種統(tǒng)計量的概率分布。
二、平均數抽樣分布的幾個定理
1、從總體中隨機抽出容量為n的一切可能樣本的平均數之平均數等于總體的平均數。公式表示為(6.1)。
2、容量為n的平均數在抽樣分布上的標準差,等于總體標準差除以n的方根。公式表示為(6.2)。
3.從正態(tài)總體中,隨機抽取的容量為n的一切可能樣本平均數的分布也呈正態(tài)分布。
4.雖然總體不呈正態(tài)分布,如果樣本容量較大,反映總體μ和σ的樣本平均數的抽樣分布,也接近于正態(tài)分布。
三、樣本平均數與總體平均數離差統(tǒng)計量的形態(tài)
從正態(tài)總體中隨機抽取的容量為n的一切可能樣本平均數為中心呈正態(tài)分布。當總體標準差已知時,一切可能樣本平均數與總體平均數的離差統(tǒng)計量呈標準正態(tài)分布(6.3)。
總體標準差σ的無偏估計量S等于樣本統(tǒng)計量σx乘以貝賽耳氏校正數,公式(6.4)。
從正態(tài)總體中隨機抽取容量為n的一切可能樣本平均數的抽樣分布呈正態(tài)分布。當總體標準差σ未知,需用估計值S來代替,于是平均數標準誤也被平均數標準誤的估計值所代替,這時一切可能樣本平均數與總體平均數的離差統(tǒng)計量呈t分布(6.6)。
t分布與正態(tài)分布的相似之處:t分布基線上的t值從-∞-+∞;從平均數等于0處,左側t值為負,右側t值為正;曲線以平均數處為最高點向兩側逐漸下降,尾部無限延伸,永不與基線相接,呈單峰對稱形。區(qū)別之處在于:t分布的形態(tài)隨自由度(df=n-1)的變化呈一簇分布形態(tài)(即自由度不同的t分布形態(tài)也不同,見圖6.1)。自由度逐漸增大時,t分布逐漸接近正態(tài)分布。
自由度是指總體參數估計量中變量值獨立自由變化的個數。
第二節(jié) 總體平均數的參數估計
一、總體參數估計的基本原理
1、點估計
用某一樣本統(tǒng)計量的值來估計相應總體參數的值叫總體參數的點估計。
2、區(qū)間估計
以樣本統(tǒng)計量的抽樣分布(概率分布)為理論依據,按一定概率要求,由樣本統(tǒng)計量的值估計總體參數值的所在范圍,稱為總體參數的區(qū)間估計。
區(qū)間估計涉及置信水平和置信區(qū)間。
二、σ已知條件下總體平均數的區(qū)間估計
當總體σ已知,總體呈正態(tài)分布,樣本容量無論大小時,或者當總體σ已知,總體雖不呈正態(tài)分布,但樣本容量較大(n >30)時,樣本平均數與總體平均數離差統(tǒng)計量均呈正態(tài)分布。區(qū)間估計的計算公式為(6.8)和(6.9)。
三、σ未知條件下總體平均數的區(qū)間估計
1、σ未知條件下總體平均數的區(qū)間估計的基本原理
當總體σ未知,總體呈正態(tài)分布,樣本容量無論大小時,或者當總體σ未知,總體雖不呈正態(tài)分布,但樣本容量較大(n >30)時,樣本平均數與總體平均數離差統(tǒng)計量均呈t分布。區(qū)間估計的計算公式為(6.10)和(6.11)。
2、小樣本的情況
3、大樣本的情況
可以用正態(tài)分布近似處理。
第三節(jié) 假設檢驗的基本原理
利用樣本信息,根據一定概率,對總體參數或分布的某一假設作出拒絕或保留的決斷,稱為假設檢驗。
一、假設
假設檢驗一般有兩個相互對立的假設。即零假設(或稱原假設、虛無假設、解消假設)和備擇假設(或稱研究假設、對立假設)。假設檢驗是從零假設出發(fā),視其被拒絕的機會,從而得出決斷。
二、小概率事件
把出現小概率的隨機事件稱為小概率事件。小概率事件是否出現,這是對假設作出決斷的依據。
三、顯著性水平
拒絕零假設的概率稱為顯著性水平。顯著性水平和可靠性程度之間的關系是:兩者之和為1。
四、統(tǒng)計決斷的兩類錯誤及其控制
如果拒絕了屬于真實的零假設,即如果樣本統(tǒng)計量的總體參數正是假設的總體參數,但是由于樣本統(tǒng)計量的值落入了拒絕區(qū)域。而零假設遭到拒絕,這時就會犯第一類型的錯誤。這種錯誤的可能性大小正是顯著性水平的大小,故又稱這類錯誤為α錯誤。如果保留了屬于不真實的零假設,就會犯第二類型的錯誤。犯這種“假設屬偽而被保留”的第二類錯誤的概率,等于β值,故又稱這類錯誤為β錯誤。
要使第一類錯誤的概率保持在需要的水平上,而控制第二類錯誤的概率,有以下方法:(1)利用已知的實際總體參數與假設參數值之間的大小關系,合理安排拒絕領域的位置,選擇雙側檢驗還是單側檢驗,左側檢驗還是右側檢驗;(2)加大樣本容量。
第四節(jié) 總體平均數的顯著性檢驗
總體平均數的顯著性檢驗的適用公式與相應的參數估計一脈相承。
一、σ已知條件下總體平均數的顯著性檢驗(公式6.3)
二、σ未知條件下總體平均數的假設檢驗
1、小樣本的情況(公式6.16)
2、大樣本的情況(公式6.3)
第七章 平均數差異的顯著性檢驗
第一節(jié) 相關樣本平均數差異的顯著性檢驗
兩個樣本內個體之間存在著一一對應的關系,這兩個樣本稱為相關樣本。相關樣本有以下兩種情況:
?。?)用同一測驗對同一組被試在試驗前后進行兩次測驗,所獲得的兩組測驗結果是相關樣本。
?。?)根據某些條件基本相同的原則,把被試一一匹配成對,然后將每對被試隨機地分入實驗組和對照組,對兩組被試施行不同的實驗處理之后,用同一測驗所獲得的測驗結果,也是相關樣本。
相關樣本平均數差異的顯著性檢驗方法和步驟:
?。?)提出假設
?。?)選擇檢驗統(tǒng)計量并計算其值。在小樣本情況下,其檢驗統(tǒng)計量為公式(7.9);在大樣本情況下用公式(7.12)。
?。?)確定檢驗形式
(4)統(tǒng)計決斷
第二節(jié) 獨立樣本平均數差異的顯著性檢驗
兩個樣本內的個體是隨機抽取的,它們之間不存在一一的對應關系,這樣的兩個樣本稱為獨立樣本。
一、獨立大樣本平均數差異的顯著性檢驗
兩個樣本容量n1和n1都大于30的獨立樣本稱為獨立大樣本。
獨立大樣本平均數差異的顯著性檢驗所用的公式是(7.17)。
二、獨立小樣本平均數差異的顯著性檢驗
兩個樣本容量n1和n1均小于30,或其中一個小于30的獨立樣本稱為獨立小樣本。
獨立小樣本平均數差異的顯著性檢驗方法:
1、方差齊性時
如果兩個獨立樣本的總體方差未知,經方差齊性檢驗表明兩個總體方差相等,則統(tǒng)計量公式為(7.23)-(7.25),這三個公式是等價的。
2、方差不齊性時
對于方差不齊性的兩個獨立樣本平均數差異顯著性檢驗,需要用校正的t'作為檢驗統(tǒng)計量,用公式(7.26),t'的臨界值則用公式(7.29)和(7.32)來計算。
第三節(jié) 方差齊性檢驗
一、F分布
若從方差相同的兩個正態(tài)總體中,隨機抽取兩個獨立樣本,以此為基礎,分別求出兩個相應總體總體方差的估計值,這兩個總體方差估計值的比值稱為F比值,F比值的抽樣分布稱為F分布。F分布的形態(tài)隨F比值分子和分母中自由度的變化而形成一簇正偏態(tài)分布。
一般情況下,經常應用的是右側F檢驗,計算F值時,將大的總體方差估計值作為分子,小的作為分母。
二、兩個獨立樣本的方差齊性檢驗
用公式(7.35)。
三、兩個相關樣本的方差齊性檢驗
用公式(7.38)。
第八章 方差分析
第一節(jié) 方差分析的基本原理
一、方差分析的目的
方差分析的基本功能就在于它對多組平均數差異的顯著性進行檢驗的作用。
二、方差分析的邏輯
組間差異對組內差異的比值越大,則各組平均數的差異就越明顯。通過對組間差異與組內差異比值的分析,來推斷幾個相應平均數差異的顯著性,這就是方差分析的邏輯。
三、以F檢驗來推斷幾個平均數差異的顯著性
四、方差分析中的幾個概念
實驗中的自變量稱為因素。只有一個自變量的實驗稱為單因素實驗。有兩個或兩個以上自變量的實驗稱為多因素實驗。某一個因素的不同情況稱為因素的“水平”。包括量差或質別兩類情況,按各個“水平”條件進行的重復實驗稱為各種處理。
第二節(jié) 完全隨機設計的方差分析
為了檢驗某一個因素多種不同水平間的差異的顯著性,將從同一個總體中隨機抽取的被試,再隨機地分入各實驗組,施以各種不同的實驗處理以后,用方差分析法對這多個獨立樣本平均數差異的顯著性進行檢驗,稱為完全隨機設計的方差分析。
一、n 相等的情況
用公式(8.4)-(8.6)。
二、n 不相等的情況
用公式(8.7)-(8.8)。
三、運用樣本統(tǒng)計量進行組間與組內方差的F檢驗
用第181頁上的公式。
第三節(jié) 隨機區(qū)組設計的方差分析
用方差分析法對多個相關樣本平均數差異所進行的顯著性檢驗,稱之為隨機區(qū)組設計的方差分析
每一區(qū)組內被試的人數分配有以下三種方式:
?。?)一個被試作為一個區(qū)組;
(2)每一區(qū)組內被試的人數是實驗處理數的整數倍;
(3)區(qū)組內以一個團體為一個基本單元。
區(qū)組平方和等數據的計算用公式(8.9)-(8.11)。
第四節(jié) 各個平均數差異的顯著性檢驗
對多組平均數的逐對差異檢驗,以Newman-Keul提出的q檢驗法(或稱N-K)最為常用。
一、完全隨機設計的q檢驗
公式(8.14)或(8.15)。
二、隨機區(qū)組設計的q檢驗
公式(8.16)。
第五節(jié) 多組方差的齊性檢驗
多組方差的顯著性可以用哈特萊(Hartley)所提出的最大F值檢驗法進行齊性檢驗。公式(8.17)。
第六節(jié) 多因素方差分析簡介
一、多因素方差分析的功能
多因素方差分析不僅可以檢驗各個因素對因變量作用的顯著性,而且還可以檢驗因素與因素間共同結合對因變量發(fā)生交互作用的顯著性。
二、雙因素完全隨機設計方差分析的基本方法
計算時使用公式(8.18)-(8.20)和第204-205頁上的公式。
第九章 總體比率的推斷
第一節(jié) 比率的抽樣分布
一、數據的特點
對點計數據的統(tǒng)計推斷,應采用總體比率的推斷方法或卡方檢驗。當事物僅被劃分成兩類,可用總體比率的推斷進行統(tǒng)計推斷;當事物被劃分為成兩類以上時,則需用卡方檢驗進行統(tǒng)計推斷。當然卡方檢驗也可以對僅有兩種類別的資料進行統(tǒng)計推斷。
二、比率的抽樣分布
比率的抽樣分布是二項分布。當p=q,無論n的大小,二項分布呈對稱形;當p <q且np≥5,或p >q且np≥5時,二項分布已經開始接近正態(tài)分布。
三、比率的標準誤
比率的標準誤是由二項分布的標準差除以n而獲得。
第二節(jié) 總體比率的區(qū)間估計
一、正態(tài)近似法
公式(9.3)-(9.5)。
二、查表法
用附表6。
第三節(jié) 總體比率的假設檢驗
一、正態(tài)近似法
公式(9.6)-(9.5)。
二、查表法
用附表6。
第四節(jié) 總體比率差異的顯著性檢驗
一、兩個獨立樣本比率差異的顯著性檢驗
兩個獨立樣本比率差異的標準誤:公式(9.8)。
如果兩個獨立樣本的最小頻數都等于或大于5,兩個樣本比率之差的抽樣分布也接近于正態(tài),于是可用Z檢驗兩個比率之差的顯著性。其檢驗統(tǒng)計量為公式(9.11)。
二、兩個相關樣本比率差異的顯著性檢驗
兩個相關樣本比率之差的檢驗公式為(9.13)。
第十章 卡方檢驗
第一節(jié) χ2及其分布
一、卡方檢驗的特點
卡方檢驗是對樣本的頻數分布所來自的總體分布是否服從某種理論分布或某種假設分布所作的假設檢驗。即根據樣本的頻數分布來推斷總體的分布。它屬于自由分布的非參數檢驗。它可以處理一個因素分為多種類別,或多種因素各有多種類別的資料。所以,凡是可以應用比率進行檢驗的資料,都可以用卡方檢驗。
二、卡方檢驗的統(tǒng)計量
卡方檢驗統(tǒng)計量的基本形式為公式(10.1)。
χ2值有以下幾個特點:
?。?)χ2值具有可加性。
?。?)χ2值永遠是正值。
?。?)χ2值的大小隨實際頻數與理論頻數差的大小而變化。
三、χ2的抽樣分布
χ2分布有以下幾個特點:
(1)χ2分布呈正偏態(tài),右側無限延伸,但永不與基線相交。
?。?)χ2分布隨自由度的變化而形成一簇分布形態(tài)。
自由度越小,χ2分布偏斜度越大;自由度越大,χ2分布形態(tài)越趨于對稱。
第二節(jié) 單向表的卡方檢驗
把實得的點計數據按一種分類標準編制成表就是單向表。對于單向表的數據所進行的卡方檢驗就是單向表的卡方檢驗,即單因素的卡方檢驗。
一、按一定比率決定理論頻數的卡方檢驗
二、一個自由度的卡方檢驗
當df=1,其中只有一個組的ft <5,就要運用亞茨(Yates)連續(xù)性校正法(10.2)。
三、頻數分布正態(tài)性的卡方檢驗
第三節(jié) 雙向表的卡方檢驗
把實得的點計數據按兩種分類標準編制成的表就是雙向表。對雙向表的數據進行的卡方檢驗,就是雙向表的卡方檢驗,即雙因素的卡方檢驗。
在雙向表的卡方檢驗中,如果要判斷兩種分類特征,即兩個因素之間是否有依從關系,這種檢驗稱為獨立性卡方檢驗。
在雙向表卡方檢驗中,如果是判斷幾次重復實驗的結果是否相同,這種卡方檢驗稱為同質性檢驗。
雙向表的獨立性卡方檢驗和同質性卡方檢驗,只是檢驗的意義不同,而方法完全相同,都應用公式(10.3)或(10.4)。對于同一組數據所進行的卡方檢驗,有時即可以理解為獨立性卡方檢驗,又可以理解為同質性檢驗,兩者無本質區(qū)別。
第四節(jié) 四格表的卡方檢驗
一、獨立樣本四格表的卡方檢驗
獨立樣本四格表的卡方檢驗,就是雙向表中2*2表的卡方檢驗。它即可以用縮減公式由實際頻數直接計算χ2值,又可以用上述求理論頻數的方法計算χ2值。
1.縮減公式χ2值的計算
獨立樣本四格表χ2值的縮減公式為(10.6)。
2.校正χ2值的計算
當df=1,樣本容量總和N <30或N <50時(決定于對檢驗結果要求的嚴格程度),應對χ2值進行亞茨連續(xù)性校正。其校正公式為(10.7)。
二、相關樣本四格表的卡方檢驗
1.縮減公式χ2值的計算
相關樣本四格表χ2值的縮減公式為(10.8)。
2.校正χ2值的計算
當df=1,兩個相關樣本四格表中(b+c) <30或(b+c) <50(決定于對檢驗結果要求的嚴格程度),應對χ2值進行亞茨連續(xù)性校正。其校正公式(10.9)。
第十一章 相關分析
第一節(jié) 相關的意義
一、相關的概念
兩個變量之間不精確、不穩(wěn)定的變化關系稱為相關關系。
二、相關系數
用來描述兩個變量相互之間變化方向及密切程度的數字特征量稱為相關系數。一般用r表示。
相關系數的值,僅僅是一個比值。它不是由相等單位度量而來(即不等距),也不是百分比,因此,不能直接作加、減、乘、除。
相關系數只能描述兩個變量之間的變化方向及密切程度,并不能揭示二者之間的內在本質聯系。
第二節(jié) 積差相關
一、概念及其適用范圍
1.積差相關的概念
當兩個變量都是正態(tài)連續(xù)變量,而且兩者之間呈線性關系,表示這兩個變量之間的相關稱為積差相關。
2.積差相關使用的條件
(1)兩個變量都
第十二章 回歸分析
第一節(jié) 一元線性回歸
一元線性回歸是指只有一個自變量的線性回歸。
一、回歸線
一條最能代表散點圖上分布趨勢的直線,這條最優(yōu)擬合線即稱為回歸線。常用的擬合這條回歸線的原則,就是使各點與該線縱向距離的平方和為最小。
二、回歸方程
確定回歸線的方程稱回歸方程。
1.用最小二乘方法求回歸系數
公式(12.2a)或(12.2b)。
2.求截距
公式(12.3a)或(12.3b)。
三、用原始數據計算回歸系數
公式(12.4a)或(12.4b)。
第二節(jié) 一元線性回歸方程的檢驗
一、估計誤差的標準差
公式(12.9)。
二、一元線性回歸方程檢驗的方法
一元線性回歸方程檢驗有三種等效的方法:
?。?)對回歸方程進行方差分析;
?。?)對兩個變量的相關系數進行與總體零相關的顯著性檢驗;
(3)對回歸系數進行顯著性檢驗
三、一元線性回歸系數顯著性檢驗方法
在回歸線上,當與所有自變量X相對應的各組因變量Y的殘值都呈正態(tài)分布,并且殘值方差為齊性時,由X估計Y回歸系數的標準誤為公式(12.11)或(12.12)??梢杂霉剑?2.13)或公式(12.14)進行顯著性檢驗。
三、測定系數
測定系數指回歸平方和在總平方和中所占比例,這個比例越大,意味著誤差平方和所占比例越小,預測效果就越好。測定系數同時等于相關系數的平方。
第三節(jié) 一元線性回歸方程的應用
一、用樣本回歸方程推算因變量的回歸值
二、對因變量真值的預測
第四節(jié) 多元線性回歸簡介
一、二元線性回歸方程
1.二元線性回歸方程的意義
二元線性回歸方程是指Y對X1與X2的線性回歸方程。
2.二元線性回歸方程的建立原理
和一元線性回歸方程一樣,二元線性回歸方程也用最小二乘法來確定回歸系數。用公式(12.25a)和(12.25b)。
3.二元線性標準回歸方程
為了比較兩個自變量在估計預測因變量時所起作用的大小,需要將三個變量分別轉換成標準分數,然后比較由標準分數所建立的標準回歸方程中的兩個標準回歸系數,以此判斷兩個自變量作用的大小。
二、二元線性回歸的檢驗
二元線性回歸的檢驗包括兩個方面:一是檢驗回歸方程的顯著性;另一是檢驗兩個偏回歸系數的顯著性。
?。ㄒ唬┒€性回歸的檢驗
二元線性回歸方程的顯著性有兩種等效的檢驗方法:一是方差分析,二是復相關系數顯著性檢驗。
復相關系數表示兩個自變量組合起來與因變量之間的相關程度??赏ㄟ^對二元測定系數開平方根得到,然后通過查表進行顯著性檢驗。
?。ǘ┢貧w系數的顯著性檢驗
兩個偏回歸系數的顯著性檢驗公式為(12.29a)和(12.29b)。
三、多元線性回歸方程中自變量的選擇
1.從組成回歸方程的所有自變量中選擇最優(yōu)的自變量
對所有可能的回歸方程逐一檢驗,選擇一個顯著性程度最強的方程。
2.逐步回歸
逐步回歸的原理是按每個自變量對因變量的作用,從大到小逐個地引入回歸方程,每引入一個自變量要對回歸方程中的每一個自變量都進行顯著性檢驗(即對其偏回歸系數進行顯著性檢驗)。這樣逐步地引入自變量,并剔除不顯著的自變量,直至將所有的自變量都引入,并將不顯著的自變量都剔除為止,最后形成的回歸方程就是最優(yōu)方程。
第十三章 非參數檢驗
假設檢驗的方法有兩種:參數檢驗和非參數檢驗。
在實際研究工作中,樣本所屬的總體分布形態(tài)一般是未知的,所獲得的資料也不一定是等距變量或比率變量,因此需要采用新的統(tǒng)計方法進行檢驗。這種檢驗方法不要求樣本所屬的總體呈正態(tài)分布,一般也不是對總體進行檢驗,故稱之為自由分布的非參數檢驗方法。非參數檢驗不僅適用于非正態(tài)總體名義變量和次序變量的資料,而且也適用于正態(tài)總體等距變量和比率變量的資料。故應用廣泛,但靈敏度和精確度不如參數檢驗。
第一節(jié) 符號檢驗
符號檢驗是通過多兩個相關樣本的每對數據之差的符號(正號或負號)進行檢驗,以比較這兩個樣本差異的顯著性。
一、小樣本的情況
當樣本容量較小,n <25時,可用查表法進行符號檢驗。
二、大樣本的情況
對差數的正號與負號差異的檢驗本屬于二項分布的問題,當樣本容量較大,即n >25時,二項分布接近正態(tài)分布,因此可以用正態(tài)分布近似處理,公式用(13.2)。
第二節(jié) 符號秩序檢驗
威爾科克遜(F.Wilcoxon)提出了既考慮差數符號,又考慮差數大小的符號秩次檢驗法。
一、小樣本的情況
當樣本容量n <25時,可用查表法進行符號秩次檢驗。
二、大樣本的情況
當樣本容量n >25時,二項分布接近與正態(tài)。于是可用正態(tài)分布近似處理。
檢驗統(tǒng)計量為公式(13.5)。
第三節(jié) 秩和檢驗
當比較兩個獨立樣本的差異時,可以采用曼-惠特尼(Mann-Whitney)兩人提出的秩和檢驗方法。又稱曼-惠特尼U檢驗法。
一、小樣本的情況
當兩個獨立樣本的容量n1和n2都小于10,并且n1≤n2時,可以用查表法。
二、大樣本的情況
當兩個獨立樣本的n1和n2都大于10,T分布接近與正態(tài),對于兩個樣本的差異可以用正態(tài)分布的Z比率進行檢驗。公式(13.8)。
第四節(jié) 中位數檢驗
中位數的檢驗方法是將各組樣本數據合在一起找出共同的中位數,然后分別計算每個樣本在共同中位數上、下的頻數,再進行r×c表卡方檢驗。
第五節(jié) 單向秩次方差分析
對于幾個獨立樣本差異的顯著性,可以用克魯斯爾(W.H.Kruskal)和沃利斯(W.A.Wallis)所提出的單向秩次方差分析進行檢驗。這種方法又稱為H檢驗法。它相當于對多組平均數所進行的參數的方差分析。但是它不需要對樣本所屬的幾個總體做正態(tài)分布及方差齊性的假定。它處理的是秩次變量的資料,是用秩次進行的非參數的方差分析。
這種檢驗方法是將所有樣本的數據合在一起,按從小到達編秩次,然后計算各樣本的秩次和。如果各組有顯著性差異,在各組容量相等的情況下,各組秩次和應當相等或趨于相等;如果各組秩次和相差較大,那么各組有顯著性差異的可能性較大。
一、樣本容量較小或組數較小的情況
當各組容量n≤5時,或者樣本組數k≤3,可用公式(13.9)作為檢驗統(tǒng)計量。
二、樣本容量較大或組數較多的情況
當各組容量n >5,或樣本組數k >3時,H值的抽樣分布接近于自由度df=k-1的卡方分布,因此,可進行卡方檢驗。
第六節(jié) 雙向秩次方差分析
雙向秩次方差分析,處理的是幾個相關樣本次序變量的資料。雙向秩次方差分析是在同一個對象(或匹配的對象)接受k次實驗處理所獲得原始數據之間編秩次。如果各次實驗導致差異不顯著,各次實驗產生的秩次和應當相等或趨于相等;如果各次實驗秩次和相差較大,那么,實驗產生顯著性差異的可能性較大。
一、樣本容量較小及實驗次數較少的情況
當樣本容量n≤9;k=3;或n≤4,k=4時,可用公式(13.10)作為檢驗統(tǒng)計量。
二、樣本容量較大或實驗次數較多的情況
當k=3,n >9;k=4,n >4;或k >4時,上述檢驗統(tǒng)計量的抽樣分布接近于df=k-1的卡方分布,于是可以用卡方近似處理。
第十四章 抽樣設計
第一節(jié) 抽樣方法
一、單純隨機抽樣
如果總體中每個個體被抽到的機會是均等的,并且在抽取一個個體之后總體內成分不變(抽樣的獨立性),這種抽樣方法稱為單純隨機抽樣。
二、機械抽樣
把總體中的所有個體按一定順序編號,然后依固定的間隔取樣,這種抽樣方法稱為機械抽樣。
三、分層抽樣
按與研究內容有關的因素或指標先將總體劃分成幾個部分(層),然后從各部分(層)中進行單純隨機抽樣或機械隨機抽樣,這種抽樣方法稱為分層抽樣。
在確定從各層抽取對象的個數時,即考慮各層的個體數比例,又考慮各層標準差的大小,這種方法稱為最優(yōu)配置法,公式(14.1)。
四、整群抽樣
從總體中抽出來的研究對象,不是以個體作為單位,而是以整群為單位的抽樣方法,稱為整群抽樣。
第二節(jié) 總體平均數統(tǒng)計推斷時樣本容量的確定
一、由樣本平均數估計總體平均數時樣本容量的確定
1.總體標準差已知的情況
用公式(14.2)。
2. 總體標準差未知的情況
用公式(14.3)。
二、樣本平均數與總體平均數差異顯著性檢驗時樣本容量的確定
1.總體標準差已知的情況
用公式(14.4)或(14.5)。
2.總體標準差未知的情況
用公式(14.6)或(14.7)。
三、兩個樣本平均數差異顯著性檢驗時樣本容量的確定
1.兩個獨立樣本平均數差異顯著性檢驗時樣本容量的確定
用公式(14.8)或(14.9)。
2.兩個相關樣本平均數差異顯著性檢驗時樣本容量的確定
用公式(14.10)或(14.11)。
第三節(jié) 總體比率統(tǒng)計推斷及相關系數顯著性檢驗時樣本容量的確定
一、用樣本比率估計總體比率時樣本容量的確定
當總體比率接近0.5,隨n的增大,樣本比率的抽樣分布趨向正態(tài),這時可以近似用公式(14.12)進行估計。
二、兩個樣本比率差異顯著性檢驗時樣本容量的確定
用公式(14.13)或(14.14)。
三、樣本相關系數顯著性檢驗時樣本容量的確定
在確定樣本容量時,可直接查相關系數顯著性檢驗所需樣本的容量表。