統(tǒng)計分析

2022-12-08 12:20 作者:情報工作站 0人讀過 | 我要投稿

1 分布狀態(tài)

1.1 描述統(tǒng)計

使用Python的Pandas包，將數(shù)據(jù)轉換為dataframe格式，使用df.describe()可以生成描述數(shù)據(jù)的報表。

import?pandas?as?pd data?=?[87,77,92,68,80,78,84,77,81,80,80,77,92,86, ???????76,80,81,75,77,72,81,72,84,86,80,68,77,87, ???????76,77,78,92,75,80,78] #?樣本數(shù)據(jù)，35位健康男性在未進食之前的血糖濃度 df?=?pd.DataFrame(data,?columns?=['value']) df.describe()

count 計數(shù) mean 平均數(shù) std 標準差 min 最小值 25% 25%分位
50% 50%分位數(shù) 75% 75%分位數(shù) max 最大值

1.2 T檢驗

單樣本T檢驗

適用于某個變量的平均值與已知標準（或理論/假設）平均值進行比較（$\mu$）。前提是數(shù)據(jù)呈現(xiàn)正態(tài)分布，需要進行正態(tài)性檢驗。(shapiro-Wilk檢驗[1])

from?scipy?import?stats import?pandas?as?pd #?scipy包是一個高級的科學計算庫，它和Numpy聯(lián)系很密切，Scipy一般都是操控Numpy數(shù)組來進行科學計算 data?=?[87,77,92,68,80,78,84,77,81,80,80,77,92,86, ???????76,80,81,75,77,72,81,72,84,86,80,68,77,87, ???????76,77,78,92,75,80,78] #?樣本數(shù)據(jù)，35位健康男性在未進食之前的血糖濃度 df?=?pd.DataFrame(data,?columns?=['value']) u?=?df['value'].mean()??#?計算均值 std?=?df['value'].std()??#?計算標準差 stats.kstest(df['value'],?'norm',?(u,?std)) #?.kstest方法：KS檢驗，參數(shù)分別是：待檢驗的數(shù)據(jù)，檢驗方法（這里設置成norm正態(tài)分布），均值與標準差 #?結果返回兩個值：statistic?→?D值，pvalue?→?P值 #?p值大于0.05，為正態(tài)分布

假設檢驗的典型問題，包括：（1）均值（m）是否等于理論平均值（μ）？（2）均值（m）是否小于理論平均值（μ）？（3）均值（m）是否大于理論平均值（μ）？
在進行假設檢驗時，首先需要定義相應的無效假設（H0），定義如下： H0：m = μ H0：m≤ μ H0：m≥ μ 據(jù)此，相應的備擇假設（H1）如下： H1：m ≠ μ （不同） H1：m> m（大于） H1：m< μ（小于
其中，假設一稱為雙向檢驗；假設二、三，稱為單向檢驗。

例子

from?scipy.stats?import?kstest import?pandas?as?pd import?numpy?as?np data?=?[87,77,92,68,80,78,84,77,81,80,80,77,92,86, ???????76,80,81,75,77,72,81,72,84,86,80,68,77,87, ???????76,77,78,92,75,80,78] df?=?pd.DataFrame(data,?columns?=['value']) m?=?df.value.mean() #?導入?sciy?庫的?stats（統(tǒng)計）模塊的?kstest?方法。 ks?=?kstest(df["value"],?'norm') #?輸出結果中第一個為統(tǒng)計數(shù)，第二個為?P?值 from?scipy?import?stats #?導入?sciy?庫的?stats（統(tǒng)計）模塊。 f?=?stats.ttest_1samp(df["value"],80,?axis=0) #?單樣本?T?檢驗，第一個位置是?Mat?列，第二個位置是給定均值 print(m,ks,f)?#79.74285714285715?KstestResult(statistic=1.0,?pvalue=0.0)?Ttest_1sampResult(statistic=-0.25620953073641706,?pvalue=0.7993329473714417)

請注意，科學研究應該是先有研究問題、文獻綜述（所以知道“已知數(shù)值= 80”）、研究設計（假設檢驗）后，才是進行分析和解釋，而不是像我們現(xiàn)在這樣，利用試驗數(shù)據(jù)集進行分析之后，才做事后解釋的。分析結果，如下：

1.?已知某學校某班級的數(shù)學平均分數(shù)大于 80 分才是達標，現(xiàn)在隨機抽取 35位同學成績
2.?給定均值為 80 分（達標），結果顯示 statistic=-0.25620953073641706（小于 0）這說明樣本均值小于指定均值 80 了。
3.?注意：這不表示該班的數(shù) 學平均成績低于 80 分。我們應看 pvalue: 0.7993329473714417 的情況。
4.?說明：樣本有>0.05 的概率認為數(shù)學平均成績?yōu)?80。同理，不能拒絕均值>80 的假設。
5.?結論：我們接受該班數(shù)學成績是達標的。

1.3 兩獨立樣本T檢驗

兩獨立樣本 t 檢驗用于比較兩個獨立的組的均值是否存在差異。例如，試驗數(shù)據(jù)集里，有 100 人，包括 50 名女性和 50 名男性；我們想知道女性的數(shù)學成績和男性的數(shù)學成績，是否不受它們各自性別的影響，那么，把男生視為獨立樣本，女生視為獨立樣本，它們的數(shù)學成績又都具有正態(tài)分布的情況下，采用兩獨立樣本 T 檢驗的方式，求證。

import?numpy?as?np? from?scipy?import?stats np.random.seed(123) a?=?np.random.randint(20,25,50) b?=?np.random.randint(20,25,50) print(np.mean([a,b],axis=1))?#[22.04?22.1?] stats.kstest(a,'norm')?#KstestResult(statistic=1.0,?pvalue=0.0) stats.kstest(b,'norm')#KstestResult(statistic=1.0,?pvalue=0.0) stats.ttest_ind(a,b)#Ttest_indResult(statistic=-0.21869068439925404,?pvalue=0.8273457924006156)

由 statistic=-0.21869068439925404小于 0 可以知道在樣本統(tǒng)計上 a 的均值比 b 的小，事實上a 的均值為 22.04，b 的均值為 22.1。另外 pvalue=0.8273457924006156 遠大于 0.1，由此我們不能否認 a均值與 b 均值存在明顯差異，換言之，a 均值與 b 均值沒有明顯差別。（再次注意，我們是刻意把 a 與 b視為獨立樣本，事實上，它們是一個樣本里的兩個變量，我們?yōu)榱吮阌诜治?，所以這么處理）

2 變量關系

2.1 皮爾森相關系數(shù)

皮爾遜（pearson）相關系數(shù)要求樣本滿足正態(tài)分布，兩個變量之間的皮爾遜相關系數(shù) 定義為兩個變量之間的協(xié)方差和標準差的商，其值介于-1 與 1 之間。

import?pandas?as?pd? import?numpy?as?np? from?scipy?import?stats np.random.seed(123) a?=?np.random.randint(20,25,50) b?=?np.random.randint(20,25,50) df?=?pd.DataFrame(np.transpose([a,b]),columns=list('ab')) df

df.corr()

2.2 斯皮爾曼等級相關系數(shù)

Sperman 秩相關系數(shù)是一種非參數(shù)統(tǒng)計量，其值與兩組相關變量的具體值無關，而僅僅與其值之間的大小關系有關。皮爾森相關系數(shù)主要用于服從正太分布的連續(xù)變量，對于不是正態(tài)分布的變量，特別是定序變量，可采用 Sperman 秩相關系數(shù)。

df.corr(method='spearman')

R 語言版本a?<-?c(24,?24,?23,?22,?20,?24,?23,?21,?23,?22,?21,?22,?24,?20,?21,?24,?22,?21,?21,?23,?24,?21,?20,?20,?23,?21,?23,?23,?23,?21,?21,?22,?23,?23,?23,?23,?20,?21,?23,?21,?24,?23,?21,?22,?23,?24,?23,?21,?20,?20) b?<-?c(22,?24,?22,?21,?23,?22,?23,?21,?21,?20,?21,?21,?20,?20,?21,?23,?24,?20,?20,?24,?21,?23,?22,?24,?22,?24,?20,?20,?21,?23,?24,?24,?24,?21,?23,?22,?21,?24,?20,?23,?22,?20,?23,?22,?22,?22,?22,?24,?23,?23) shapiro.test(a) shapiro.test(b) cor.test(a,b)

2.3 一元回歸方程簡單版本

我們可以看到 Estimate(參數(shù))所示的截距和斜率。
$y = 25.363-0.148x$?通過繪圖查看關系a?<-?c(24,?24,?23,?22,?20,?24,?23,?21,?23,?22,?21,?22,?24,?20,?21,?24,?22,?21,?21,?23,?24,?21,?20,?20,?23,?21,?23,?23,?23,?21,?21,?22,?23,?23,?23,?23,?20,?21,?23,?21,?24,?23,?21,?22,?23,?24,?23,?21,?20,?20) b?<-?c(22,?24,?22,?21,?23,?22,?23,?21,?21,?20,?21,?21,?20,?20,?21,?23,?24,?20,?20,?24,?21,?23,?22,?24,?22,?24,?20,?20,?21,?23,?24,?24,?24,?21,?23,?22,?21,?24,?20,?23,?22,?20,?23,?22,?22,?22,?22,?24,?23,?23) shapiro.test(a) shapiro.test(b) cor.test(a,b) lm.reg<-lm(a~b) summary(lm.reg) windows?<-par(mfrow=c(2,2))?#繪制?2?行?2列的圖像框 plot(lm.reg) par(windows) #對所得的回歸方程中，誤差項獨立同正態(tài)分布的假設，進行檢驗。 #?plot(lm.reg)實際上使用了四次?plot(x,?y)

3 抽樣方式

3.1重復隨機抽樣

import?random? N?=?range(100) m?=?20 a=?random.sample(N,m) a

3.2 不重復隨機抽樣

import?numpy?as?np N?=?range(100) a?=?np.random.choice(N,?size=3,?replace=False) b?=?np.random.choice(N,?size=6,?replace=False) c?=?np.random.choice(N,?size=9,?replace=False) #?a?抽樣序列 #?size?抽樣數(shù)目 #?replace?是否重復抽樣 print(a,b,c)#[22?21?73]?[57?97?88?33??1?10]?[41?60?95??0?98?92??9?42?62]

參考資料

顧立平. 數(shù)據(jù)科學R與Python實踐_課程講義（2021版）. 2021.

引用鏈接

[1]?shapiro-Wilk檢驗:?https://blog.csdn.net/qq_42363032/article/details/121204166

標簽：