最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

統(tǒng)計分析

2022-12-08 12:20 作者:情報工作站  | 我要投稿

1 分布狀態(tài)

1.1 描述統(tǒng)計

使用Python的Pandas包,將數(shù)據(jù)轉換為dataframe格式,使用df.describe()可以生成描述數(shù)據(jù)的報表。

import?pandas?as?pd
data?=?[87,77,92,68,80,78,84,77,81,80,80,77,92,86,
???????76,80,81,75,77,72,81,72,84,86,80,68,77,87,
???????76,77,78,92,75,80,78]
#?樣本數(shù)據(jù),35位健康男性在未進食之前的血糖濃度

df?=?pd.DataFrame(data,?columns?=['value'])
df.describe()

截圖_20221207164256.png

count 計數(shù) mean 平均數(shù) std 標準差 min 最小值 25% 25%分位
50% 50%分位數(shù) 75% 75%分位數(shù) max 最大值

1.2 T檢驗

單樣本T檢驗

適用于某個變量的平均值與已知標準(或理論/假設)平均值進行比較($\mu$)。前提是數(shù)據(jù)呈現(xiàn)正態(tài)分布,需要進行正態(tài)性檢驗。(shapiro-Wilk檢驗[1])

from?scipy?import?stats
import?pandas?as?pd
#?scipy包是一個高級的科學計算庫,它和Numpy聯(lián)系很密切,Scipy一般都是操控Numpy數(shù)組來進行科學計算

data?=?[87,77,92,68,80,78,84,77,81,80,80,77,92,86,
???????76,80,81,75,77,72,81,72,84,86,80,68,77,87,
???????76,77,78,92,75,80,78]
#?樣本數(shù)據(jù),35位健康男性在未進食之前的血糖濃度

df?=?pd.DataFrame(data,?columns?=['value'])
u?=?df['value'].mean()??#?計算均值
std?=?df['value'].std()??#?計算標準差
stats.kstest(df['value'],?'norm',?(u,?std))
#?.kstest方法:KS檢驗,參數(shù)分別是:待檢驗的數(shù)據(jù),檢驗方法(這里設置成norm正態(tài)分布),均值與標準差
#?結果返回兩個值:statistic?→?D值,pvalue?→?P值
#?p值大于0.05,為正態(tài)分布

假設檢驗的典型問題,包括: (1)均值(m)是否等于理論平均值(μ)? (2)均值(m)是否小于理論平均值(μ)? (3)均值(m)是否大于理論平均值(μ)?
在進行假設檢驗時,首先需要定義相應的無效假設(H0),定義如下: H0:m = μ H0:m≤ μ H0:m≥ μ 據(jù)此,相應的備擇假設(H1)如下: H1:m ≠ μ (不同) H1:m> m(大于) H1:m< μ(小于
其中,假設一稱為雙向檢驗;假設二、三,稱為單向檢驗。

例子

from?scipy.stats?import?kstest
import?pandas?as?pd
import?numpy?as?np

data?=?[87,77,92,68,80,78,84,77,81,80,80,77,92,86,
???????76,80,81,75,77,72,81,72,84,86,80,68,77,87,
???????76,77,78,92,75,80,78]
df?=?pd.DataFrame(data,?columns?=['value'])
m?=?df.value.mean()

#?導入?sciy?庫的?stats(統(tǒng)計)模塊的?kstest?方法。
ks?=?kstest(df["value"],?'norm')
#?輸出結果中第一個為統(tǒng)計數(shù),第二個為?P?值
from?scipy?import?stats
#?導入?sciy?庫的?stats(統(tǒng)計)模塊。
f?=?stats.ttest_1samp(df["value"],80,?axis=0)
#?單樣本?T?檢驗,第一個位置是?Mat?列,第二個位置是給定均值
print(m,ks,f)?#79.74285714285715?KstestResult(statistic=1.0,?pvalue=0.0)?Ttest_1sampResult(statistic=-0.25620953073641706,?pvalue=0.7993329473714417)

請注意,科學研究應該是 先有研究問題、文獻綜述(所以知道“已知數(shù)值= 80”)、研究設計(假設檢驗)后,才是進行分析和解釋,而不是像我們現(xiàn)在這樣,利用試驗數(shù)據(jù)集進行分析之后,才做事后解釋的。 分析結果,如下:

  1. 1.?已知某學校某班級的數(shù)學平均分數(shù)大于 80 分才是達標,現(xiàn)在隨機抽取 35位同學成績

  2. 2.?給定均值為 80 分(達標),結果顯示 statistic=-0.25620953073641706(小于 0)這 說明樣本均值小于指定均值 80 了。

  3. 3.?注 意 : 這 不 表 示 該 班 的 數(shù) 學 平 均 成 績 低 于 80 分 。 我 們 應 看 pvalue: 0.7993329473714417 的情況。

  4. 4.?說明:樣本有>0.05 的概率認為數(shù)學平均成績?yōu)?80。同理,不能拒絕均值>80 的 假設。

  5. 5.?結論:我們接受該班數(shù)學成績是達標的。

1.3 兩獨立樣本T檢驗

兩獨立樣本 t 檢驗用于比較兩個獨立的組的均值是否存在差異。例如,試驗數(shù)據(jù)集里, 有 100 人,包括 50 名女性和 50 名男性;我們想知道女性的數(shù)學成績和男性的數(shù)學成績,是否不受它們各自性別的影響,那么,把男生視為獨立樣本,女生視為獨立樣本,它們的數(shù)學 成績又都具有正態(tài)分布的情況下,采用兩獨立樣本 T 檢驗的方式,求證。

import?numpy?as?np?
from?scipy?import?stats

np.random.seed(123)
a?=?np.random.randint(20,25,50)
b?=?np.random.randint(20,25,50)
print(np.mean([a,b],axis=1))?#[22.04?22.1?]
stats.kstest(a,'norm')?#KstestResult(statistic=1.0,?pvalue=0.0)
stats.kstest(b,'norm')#KstestResult(statistic=1.0,?pvalue=0.0)
stats.ttest_ind(a,b)#Ttest_indResult(statistic=-0.21869068439925404,?pvalue=0.8273457924006156)

由 statistic=-0.21869068439925404小于 0 可以知道在樣本統(tǒng)計上 a 的均值比 b 的小, 事實上a 的均值為 22.04,b 的均值為 22.1。另外 pvalue=0.8273457924006156 遠大于 0.1, 由此我們不能否認 a均值與 b 均值存在明顯差異,換言之,a 均值與 b 均值沒有明顯差別。 (再次注意,我們是刻意把 a 與 b視為獨立樣本,事實上,它們是一個樣本里的兩個變量,我們?yōu)榱吮阌诜治?,所以這么處理)

2 變量關系

2.1 皮爾森相關系數(shù)

皮爾遜(pearson)相關系數(shù)要求樣本滿足正態(tài)分布,兩個變量之間的皮爾遜相關系數(shù) 定義為兩個變量之間的協(xié)方差和標準差的商,其值介于-1 與 1 之間 。

import?pandas?as?pd?
import?numpy?as?np?
from?scipy?import?stats

np.random.seed(123)
a?=?np.random.randint(20,25,50)
b?=?np.random.randint(20,25,50)
df?=?pd.DataFrame(np.transpose([a,b]),columns=list('ab'))
df

截圖_20221207171051.png

df.corr()

截圖_20221207171215.png

2.2 斯皮爾曼等級相關系數(shù)

Sperman 秩相關系數(shù)是一種非參數(shù)統(tǒng)計量,其值與兩組相關變量的具體值無關,而僅僅 與其值之間的大小關系有關。皮爾森相關系數(shù)主要用于服從正太分布的連續(xù)變量,對于不是 正態(tài)分布的變量,特別是定序變量,可采用 Sperman 秩相關系數(shù)。

df.corr(method='spearman')

截圖_20221207171704.png

R 語言版本a?<-?c(24,?24,?23,?22,?20,?24,?23,?21,?23,?22,?21,?22,?24,?20,?21,?24,?22,?21,?21,?23,?24,?21,?20,?20,?23,?21,?23,?23,?23,?21,?21,?22,?23,?23,?23,?23,?20,?21,?23,?21,?24,?23,?21,?22,?23,?24,?23,?21,?20,?20)
b?<-?c(22,?24,?22,?21,?23,?22,?23,?21,?21,?20,?21,?21,?20,?20,?21,?23,?24,?20,?20,?24,?21,?23,?22,?24,?22,?24,?20,?20,?21,?23,?24,?24,?24,?21,?23,?22,?21,?24,?20,?23,?22,?20,?23,?22,?22,?22,?22,?24,?23,?23)
shapiro.test(a)
shapiro.test(b)
cor.test(a,b)

截圖_20221207172634.png

2.3 一元回歸方程簡單版本

截圖_20221207173214.png

我們可以看到 Estimate(參數(shù))所示的截距和斜率。
$y = 25.363-0.148x$?通過繪圖查看關系a?<-?c(24,?24,?23,?22,?20,?24,?23,?21,?23,?22,?21,?22,?24,?20,?21,?24,?22,?21,?21,?23,?24,?21,?20,?20,?23,?21,?23,?23,?23,?21,?21,?22,?23,?23,?23,?23,?20,?21,?23,?21,?24,?23,?21,?22,?23,?24,?23,?21,?20,?20)
b?<-?c(22,?24,?22,?21,?23,?22,?23,?21,?21,?20,?21,?21,?20,?20,?21,?23,?24,?20,?20,?24,?21,?23,?22,?24,?22,?24,?20,?20,?21,?23,?24,?24,?24,?21,?23,?22,?21,?24,?20,?23,?22,?20,?23,?22,?22,?22,?22,?24,?23,?23)
shapiro.test(a)
shapiro.test(b)
cor.test(a,b)
lm.reg<-lm(a~b)
summary(lm.reg)
windows?<-par(mfrow=c(2,2))?#繪制?2?行?2列的圖像框
plot(lm.reg)
par(windows)
#對所得的回歸方程中,誤差項獨立同正態(tài)分布的假設,進行檢驗。
#?plot(lm.reg)實際上使用了四次?plot(x,?y)

截圖_20221207174051.png
截圖_20221207174239.png

3 抽樣方式

3.1重復隨機抽樣

import?random?
N?=?range(100)
m?=?20
a=?random.sample(N,m)
a

截圖_20221207174544.png

3.2 不重復隨機抽樣

import?numpy?as?np
N?=?range(100)
a?=?np.random.choice(N,?size=3,?replace=False)
b?=?np.random.choice(N,?size=6,?replace=False)
c?=?np.random.choice(N,?size=9,?replace=False)
#?a?抽樣序列
#?size?抽樣數(shù)目
#?replace?是否重復抽樣
print(a,b,c)#[22?21?73]?[57?97?88?33??1?10]?[41?60?95??0?98?92??9?42?62]

參考資料

顧立平. 數(shù)據(jù)科學R與Python實踐_課程講義(2021版). 2021.

引用鏈接

[1]?shapiro-Wilk檢驗:?https://blog.csdn.net/qq_42363032/article/details/121204166


統(tǒng)計分析的評論 (共 條)

分享到微博請遵守國家法律
成都市| 平南县| 兴国县| 肃南| 安西县| 广饶县| 盐边县| 海淀区| 常德市| 平江县| 渝北区| 临江市| 栾川县| 鹤壁市| 临澧县| 徐水县| 即墨市| 泰顺县| 登封市| 吴江市| 益阳市| 嵩明县| 十堰市| 崇左市| 中江县| 沂源县| 磴口县| 东光县| 越西县| 专栏| 邵东县| 佛教| 依安县| 名山县| 大兴区| 马龙县| 盈江县| 安徽省| 西安市| 中阳县| 伊金霍洛旗|