張馳咨詢:趣說正態(tài)分布(3)- 六西格瑪培訓(xùn)

本篇解讀正態(tài)分布最重要的內(nèi)容均值和方差。
PS:對(duì)正態(tài)分布的深度理解有助于我們?nèi)蘸罄斫鈳讉€(gè)σ,長(zhǎng)期能力和短期能力,漂移,假設(shè)檢驗(yàn),拒絕域,中心極限定理等等知識(shí),后續(xù)將一一呈文。
又到了午休時(shí)間,見小潘進(jìn)辦公室,小王特別高興,說:唉,憋死我了,一直想跟你說,碰到正態(tài)分布就找均值和方差,可是,說了2天正態(tài)分布,還沒說到均值和方差,今天直入正題。
依然舉例畫圖,我們想知道全國(guó)所有成年女生的身高情況,假設(shè)隨機(jī)抽取1000名成年女生測(cè)量身高,那么:


如圖1:抽樣1000名女生,以身高為橫坐標(biāo),出現(xiàn)的人數(shù)即頻率為縱坐標(biāo),畫出直方圖,所有直方圖柱子匯聚出一條中間高兩端低的鐘型曲線。抽樣人數(shù)越多而且當(dāng)人員分布越均勻的時(shí)候所呈現(xiàn)出來的鐘型分布情況就越明顯。圖2是你上班100天下廠檢查工藝時(shí)間的直方圖,圖1有1000個(gè)數(shù)據(jù),正常情況抽樣數(shù)多的其紅色鐘型曲線與直方圖柱子的貼合度相對(duì)要好一些。

(圖1)
?

(圖2)
第三,樣本代表性
為便于理解,我們這樣假設(shè):假設(shè)真的花時(shí)間花精力測(cè)量了全國(guó)所有成年女生的身高(總體),發(fā)現(xiàn)測(cè)出來的平均身高和人員分布比例跟我們隨機(jī)抽取的這1000個(gè)樣本的情況基本相同,就說這個(gè)抽樣樣本具有代表性,可以較好地估算出總體。
那么,問題來了:樣本具有代表性的前提下,你認(rèn)為用全國(guó)所有成年女生的身高數(shù)據(jù)(假設(shè)有)畫出來的圖形應(yīng)該是怎樣的呢?

小潘畢竟是啃了幾本關(guān)于正態(tài)檢驗(yàn)的書,加上2次《趣說正態(tài)分布》的鋪墊,小潘想起了上次睜一只眼閉一只眼聽到小王說的第4層意思:同分布就是有相同的均值μ和方差σ2,腦子里出現(xiàn)了一幅正態(tài)分布的圖形,聰明的小潘馬上反應(yīng)到了:小王該引出均值和方差的概念了。
的確是這樣的,如果抽取1000名女生其分布跟全國(guó)所有女生的分布比例基本一致,那么,用1000個(gè)樣本數(shù)據(jù)畫出來的鐘型分布曲線,跟用全國(guó)所有成年女生身高的數(shù)據(jù)畫出來的分布曲線是不是幾乎是重合的?答案顯然是對(duì)的。如上圖(我們暫且用5000個(gè)樣本數(shù)據(jù)代表全國(guó)所有成年女生身高,以幫助理解)。其實(shí)看圖形你也能想到,所謂樣本有代表性,所謂的分布曲線重合,《趣說正態(tài)分布2》已經(jīng)說過了,包含2個(gè)意思,即正態(tài)分布的2個(gè)獨(dú)立參數(shù):一個(gè)是均值μ,本例均值就是平均身高;另一個(gè)是方差σ2,表達(dá)的是分布情況,兩根分布曲線的均值和方差相同,曲線就重合。數(shù)據(jù)服從正態(tài)分布,記為X~N(μ,σ2)式中括號(hào)里有且僅有2個(gè)參數(shù),均值μ和方差σ2。
第四,樣本代表性對(duì)均值和方差的直接影響
如下圖,正態(tài)分布的概率密度函數(shù)曲線可以形象的描述為:中間高、兩邊低、左右對(duì)稱并延伸到無窮的鐘型曲線。

上圖中曲線最高點(diǎn)對(duì)應(yīng)X軸上的值就是均值,記為μ,本例中1000個(gè)樣本均值跟全國(guó)女生(總體)平均身高都是168cm,即μ=168cm。鐘型曲線左右兩邊對(duì)稱,中間點(diǎn)是平均值,無論從圖形、從實(shí)例上都很容易理解。退一萬(wàn)步講,用excel將1000個(gè)數(shù)據(jù)進(jìn)行算術(shù)平均也能快速算出均值。
依然試圖用例子盡量形象地解讀方差的概念。
假如不是隨機(jī)抽樣,假設(shè)抽樣人員身處北方,為圖省事,就近測(cè)量了大部分北方女生加上女排隊(duì)員、女籃隊(duì)員和在當(dāng)?shù)厣畹男〔糠帜戏脚?00人的身高,測(cè)量結(jié)果很可能就會(huì)出現(xiàn)數(shù)據(jù)一邊倒的偏態(tài)現(xiàn)象。關(guān)于偏態(tài),這里就不再贅述了,下圖圖示非常直觀。

繼續(xù)剛才的思路,假設(shè)在北方測(cè)量的結(jié)果如下圖,由于北方女生普遍比南方女生高,100個(gè)樣本的均值提高到了176.5cm;而女籃女排隊(duì)員的出現(xiàn),188cm左右的女生陡增,紅色直方圖出現(xiàn)了兩個(gè)峰值。如果用這100個(gè)取樣結(jié)果按比例放大拿來代表全國(guó)成年女生的身高,是不是沒有代表性?是不是可信度極低?圖示藍(lán)色和紅色兩個(gè)鐘型曲線明顯胖瘦不同,兩根鐘型曲線無法重合,也就是說兩次抽樣的人員分布情況不同。
正態(tài)分布曲線表達(dá)分布情況的參數(shù)是方差σ2,方差是標(biāo)準(zhǔn)差σ的平方。先從數(shù)據(jù)上初步感受一下兩次抽樣的方差情況:
第一次抽樣1000人,人員隨機(jī)抽取,分布比較均勻,樣本的分布情況可以用以代表全國(guó)成年女生身高(總體)的分布情況,樣本的方差為4.9732,全國(guó)所有成年女生身高(總體)的方差為4.9652。單從數(shù)據(jù)看,樣本和總體的方差數(shù)值比較接近。
第二次抽樣100人,人員分布不均勻,集中在北方,而且加入了女排女籃隊(duì)員這些特殊身高的人群,樣本的分布情況不足以代表全國(guó)成年女生身高(總體)的分布情況,樣本的方差為9.0832,全國(guó)所有成年女生身高(總體)的方差為4.9652。單從數(shù)據(jù)看,樣本和總體的方差數(shù)值差值較大。

在我們明知道樣本代表性有偏差以后,我們來進(jìn)行等方差檢驗(yàn)。
小潘一聽等方差檢驗(yàn),雖然用P值判斷是否等方差很容易,但是,畢竟啥是等方差目前還是有點(diǎn)一知半解,插話道:怎么又要做等方差檢驗(yàn)?
小王打趣說:可不是因?yàn)槲夷昙o(jì)大了愛嘮叨,我只是想從簡(jiǎn)單具體的例子讓你進(jìn)一步理解《一個(gè)小P值就能幫你解決客觀專業(yè)選擇供應(yīng)商的大問題(續(xù))》中進(jìn)行等方差檢驗(yàn)的意義。反反復(fù)復(fù)講均值和方差,嘮叨到一提到正態(tài)分布你就能想到均值和方差,同時(shí)在腦海中浮現(xiàn)一條紅色的概率密度函數(shù)的鐘型曲線并且清楚地知道均值在哪個(gè)位置方差代表什么,那我嘮叨的目的就達(dá)到了。
來,做兩組方差比較:第一組是1000個(gè)均勻分布的樣本和全國(guó)所有成年女生(總體)的比較如下:

P值大于0.05,接受原假設(shè),第一次隨機(jī)抽樣的1000個(gè)樣本與總體兩者方差相等。

P值小于0.05,拒絕原假設(shè),第二次不隨機(jī)抽樣的100個(gè)樣本與總體兩者方差不同。
如我們所知,100名在北方抽取的樣本和全國(guó)成年女生這個(gè)總體兩個(gè)分布的方差差別較大的時(shí)候,這100名樣本無法代表總體;而1000名均勻分布的樣本與總體的方差基本相等。所以啊,我們要進(jìn)行等方差試驗(yàn),在小P值面前一探究竟。
小潘心里默默地感謝小王,其實(shí)講方差講標(biāo)準(zhǔn)差講鐘型曲線再講曲線分布一步步下來還是不難理解的,剛開始一上來就等方差檢驗(yàn)好幾個(gè)不太熟悉的名詞放在一起確實(shí)有點(diǎn)懵,現(xiàn)在套用這個(gè)已知如何得來的數(shù)據(jù)一解說,明白了。
小王繼續(xù)說:來,老辦法,再進(jìn)行正態(tài)性檢驗(yàn),1000名隨機(jī)抽取的樣本,P=0.858,服從正態(tài)分布。100名在北方抽取的樣本,P<0.05,不服從正態(tài)分布。如我們已經(jīng)知道的原因,增加了女排女籃隊(duì)員這些特殊高度的人群,這個(gè)樣本數(shù)據(jù)包含了異常值,不具有代表性。呵呵,點(diǎn)個(gè)鍵看個(gè)P值總比盤問抽樣者容易吧,還避免傷人自尊。
同樣的,在實(shí)際工作中,當(dāng)我們發(fā)現(xiàn)抽取到的本應(yīng)呈正態(tài)分布的樣本數(shù)據(jù)不服從正態(tài)分布時(shí),應(yīng)該首先回顧檢查樣本的代表性,回顧取樣的方法是否恰當(dāng),而不是急于求成地進(jìn)行box-cox轉(zhuǎn)換。


當(dāng)然了,我們是為了便于理解,在第二次抽樣中加入了女排女籃隊(duì)員這些特殊身高的人群,使數(shù)據(jù)出現(xiàn)異常值,且數(shù)據(jù)不服從正態(tài)分布,這是個(gè)特例,日常工作中,發(fā)生第二次抽樣這種明顯錯(cuò)誤的情形不多,常見的是如下這種抽樣方式。
假設(shè)進(jìn)行第三次抽樣,隨機(jī)抽取1000名成年北方女生測(cè)量身高,樣本也符合正態(tài)分布,正態(tài)性檢驗(yàn)P值大于0.05,樣本方差跟總體方差進(jìn)行等方差試驗(yàn)無區(qū)別,過五關(guān)斬六將,終于可以進(jìn)行雙樣本t檢驗(yàn)了,結(jié)果又如何呢?這1000名北方女生的身高能代表全國(guó)成年女性的身高嗎?
顯然,如我們已知的結(jié)果,北方女孩身高普遍比較高,隨機(jī)抽取的1000名北方女生不能代表全國(guó)成年女生的身高。從已知結(jié)果看圖形(如下),雖然方差相同,但是,均值不同了,藍(lán)色曲線看成北方1000名女生的身高曲線,紅色曲線看成全國(guó)成年女生的身高曲線。雙樣本t的結(jié)果看P值(<0.05)就能得知兩者均值不同,即平均身高不同。

小潘見小王半天不說話,問:講完了?
小王:均值和方差講完啦。
小潘:很容易啊。打懵我的概率密度函數(shù)、等方差檢驗(yàn),說白了沒什么嘛。
小王:是啊,數(shù)學(xué)本來就很簡(jiǎn)單,只是能不能吃透數(shù)學(xué)問題,會(huì)不會(huì)用,怎么結(jié)合實(shí)際運(yùn)用數(shù)學(xué)工具而已。所以,當(dāng)年摩托羅拉才會(huì)想到用sigma值來表達(dá)質(zhì)量問題,六西格瑪?shù)倪@個(gè)sigma就是標(biāo)準(zhǔn)差。
你現(xiàn)在弄懂了正態(tài)分布,弄懂了方差表達(dá)分布情況,以后再跟你講sigma,一點(diǎn)難度都沒有。

小潘恍然大悟:哦,難怪你一上來就講正態(tài)分布。難怪說六西格瑪管理是把實(shí)際問題轉(zhuǎn)化為統(tǒng)計(jì)問題進(jìn)行分析。嗯,有收獲。謝謝王工!
原文來源張馳咨詢:未經(jīng)作者同意,如有轉(zhuǎn)發(fā)需要必須在文章中給出原文鏈接,否則必究!