張馳咨詢:趣說正態(tài)分布(1)- 六西格瑪培訓(xùn)

第1篇《一個(gè)小P值就能幫你解決客觀專業(yè)選擇供應(yīng)商的大問題》講到質(zhì)管部采用雙樣本t檢驗(yàn)分析兩家供應(yīng)商所供編織袋的拉力均值是否存在差異,一個(gè)P值就能解決客觀專業(yè)選擇供應(yīng)商的問題。
第2篇《一個(gè)小P值就能幫你解決客觀專業(yè)選擇供應(yīng)商的大問題(續(xù))》以簡單的邏輯講解了進(jìn)行雙樣本t檢驗(yàn)之前為何要進(jìn)行正態(tài)性檢驗(yàn)和等方差試驗(yàn),以及怎么判斷雙樣本t檢驗(yàn)得出的結(jié)論。提及3種對(duì)兩總體均值差異的區(qū)間估計(jì)的情況都是兩總體服從正態(tài)分布的情況。
三種區(qū)間估計(jì)都是兩總體服從正態(tài)分布的情況,既然正態(tài)分布這么重要,本篇開始以實(shí)例+圖形的形式為您趣味講解正態(tài)分布。
PS:縱觀正態(tài)分布在整個(gè)六西格瑪分析階段所占據(jù)的地位,絕對(duì)是值得濃墨重彩的,對(duì)正態(tài)分布的深度理解有助于我們?nèi)蘸罄斫鈳讉€(gè)σ,長期能力和短期能力,漂移,假設(shè)檢驗(yàn),拒絕域,中心極限定理等等知識(shí),后續(xù)將一一呈文。
既然想弄清楚正態(tài)分布這件事,那我們就學(xué)學(xué)瑜伽老師放松放松,耳畔仿佛傳來林志玲綿柔悅耳的聲音“放松放松,放得很松很松”,來個(gè)深呼吸,以愉悅的心情進(jìn)入狀態(tài)。
先回顧一下上一篇《一個(gè)小P值就能幫你解決客觀專業(yè)選擇供應(yīng)商的大問題(續(xù))》說到關(guān)于對(duì)兩總體均值差異的區(qū)間估計(jì)通常有3種情況:
①兩個(gè)總體均服從正態(tài)分布,且兩個(gè)總體的方差都已知;
②兩個(gè)總體均服從正態(tài)分布,且兩個(gè)總體的方差相等但均未知;
③兩個(gè)總體均服從正態(tài)分布,兩個(gè)總體的方差不相等且均未知的情況。
小潘從邏輯上完全明白了怎樣用雙樣本t檢驗(yàn)并以一個(gè)P值就解決了客觀專業(yè)選擇供應(yīng)商的問題,從邏輯上清楚了為什么進(jìn)行雙樣本t檢驗(yàn)之前要進(jìn)行正態(tài)性檢驗(yàn)和等方差試驗(yàn),領(lǐng)略到了P值在正態(tài)性檢驗(yàn)、等方差試驗(yàn)和雙樣本t檢驗(yàn)中的威力,清楚了怎么理解置信區(qū)間中的數(shù)據(jù),但是還有一點(diǎn)不理解:為什么講來講去,3種情況都必須是兩總體均服從正態(tài)分布的情況,方差還有已知未知相等不相等的情況,為何就沒有不服從正態(tài)分布的情況呢?拿非正態(tài)分布的數(shù)據(jù)進(jìn)行雙樣本t檢驗(yàn),也能出結(jié)果呀。如果做正態(tài)性檢驗(yàn)的時(shí)候,數(shù)據(jù)不服從正態(tài)分布會(huì)怎樣?
小潘找來了好幾本有關(guān)正態(tài)分布的書,可是越看越發(fā)懵圈,都說數(shù)學(xué)是最嚴(yán)謹(jǐn)?shù)摹⑦壿嬓宰顝?qiáng)的學(xué)科,好歹正態(tài)分布是4個(gè)漢字,從字面理解再看看“中間高兩端低左右對(duì)稱的鐘型分布”圖形,本來都幾乎快要參悟到了,好多書一開篇就來個(gè)正態(tài)分布的密度函數(shù):

小潘心想:太討厭了啦,哪怕x=1,又是e,又是π的,還來個(gè)σ和μ,誰算得出來喲,真搞不明白算不出來的公式寫出來干嘛?這一堆符號(hào)不是來給我一個(gè)入職至今工作100天的下馬威的吧,簡直比那個(gè)早上把我從美夢(mèng)中驚醒的鬧鐘還討厭。
抱怨了一通,小潘舒了一口氣,心情舒暢了許多。想到之前質(zhì)量主管小王講解雙樣本t以后,本來復(fù)雜的雙樣本t就變得簡單。是的,我堂堂一個(gè)大學(xué)生,看個(gè)P值誰不會(huì)呀。可現(xiàn)在這么復(fù)雜的密度函數(shù)跟我們進(jìn)行供應(yīng)商分析又有什么關(guān)系呢?好期待能看到一篇非數(shù)學(xué)非統(tǒng)計(jì)專業(yè)能看得懂的關(guān)于正態(tài)分布的推文。
懷揣著期許,小潘又來請(qǐng)教完成了張馳咨詢黑帶培訓(xùn)的質(zhì)量主管王一君。
小潘這次一改以前學(xué)梁經(jīng)理直呼小王的稱呼,尊稱道:王工,您能不能幫我點(diǎn)撥一下正態(tài)分布的基礎(chǔ)知識(shí),我看了好幾本書了,好像懂了,一會(huì)又懵了,本來看例題好像懂了開始查正態(tài)分布表,有些書寫隨機(jī)變量x,有些書寫隨機(jī)變量Z,有些寫Ф(x),有些寫f(x),有些寫a,有些寫Ua,這么多符號(hào),又把我弄糊涂了。
質(zhì)量主管王一君微微一笑,安慰道:不要緊,我每天給你講幾個(gè)正態(tài)分布相關(guān)的知識(shí)點(diǎn),分幾次舉例講清楚。
小王突然走在窗臺(tái)前仰望天空,充滿詩意的說:正態(tài)分布有如一個(gè)預(yù)言家,讓許多看似紛亂的數(shù)據(jù)變得有序,不僅有序,還能被預(yù)測。
講完走回到電腦桌前,打開電腦,比劃了一通以后指著2張圖說:不信你看,你相信下面2張圖是出自同一組數(shù)據(jù)嗎?第二張圖中的紅色曲線就是正態(tài)分布的概率密度曲線。
小王一句話提起了小潘莫大的興趣。確實(shí),光看這兩張圖,如果說是同一組數(shù)據(jù)的話,初步的感覺確實(shí)是正態(tài)分布把看似紛亂的第一張圖變得整齊劃一。一直以為數(shù)學(xué)是索然無味的,沒想到經(jīng)小王這么一點(diǎn)撥,發(fā)現(xiàn)了些許數(shù)學(xué)之美。
講正態(tài)分布的書很多很多,基礎(chǔ)知識(shí)就不用贅述了,小王依然試圖以邏輯+簡單實(shí)例+圖形,用他自己的理解方式來給小潘解惑。
首先,為什么稱之為“正態(tài)分布”。
從字面簡單的理解就是有異于“變態(tài)”“偏態(tài)”“異?!钡恼?shù)值的正常型態(tài)的分布。(在后續(xù)講樣本代表性對(duì)均值和方差的直接影響的時(shí)候解釋“異?!睌?shù)據(jù)。)
我們?nèi)粘K姷暮芏嘧匀滑F(xiàn)象,例如我們上兩篇推文分析的拉力,衣食住行中的衣服碼數(shù),人的飯量,酒店價(jià)格,住客人數(shù),成年人的鞋碼,身高,體重,考試成績,收入,各種各樣的誤差,上班到達(dá)公司時(shí)間,路程時(shí)間,系統(tǒng)服務(wù)時(shí)間,長度,直徑等等,這些連續(xù)型隨機(jī)變量的數(shù)值分布正常都會(huì)在平均值附近特別密集的出現(xiàn),而兩端較稀疏,這種分布情況就是正態(tài)分布。
小王說:你的攔路虎又是e,又是π的,還來個(gè)σ和μ,咱們先不管這些符號(hào)。瞧瞧下圖這條鮮紅色的優(yōu)美的“中間高兩端低左右對(duì)稱的鐘型分布”曲線,你猜猜這是什么數(shù)據(jù)?
小潘一邊問:什么數(shù)據(jù)?一邊看圖,標(biāo)題是“小潘下廠用時(shí)的運(yùn)行圖”,再看看第二張圖“小潘下廠用時(shí)的直方圖”,小潘一陣驚訝,又瞄了一眼直方圖的樣本數(shù)N=100,臉?biāo)⒌囊幌伦兊猛t。


到生產(chǎn)車間檢查實(shí)際生產(chǎn)是否符合工藝情況是質(zhì)管部的職責(zé),這是小潘的日常工作。小潘故作鎮(zhèn)定,輕描淡寫地說:哦,我下廠檢查生產(chǎn)工藝的時(shí)間呀。對(duì),我今天正好入職工作100天,沒想到您把今天也記錄下來了。

小王說:我們來統(tǒng)計(jì)你下廠檢查生產(chǎn)工藝用時(shí)51-61分鐘的概率。
先從笨方法開始,讓你有個(gè)直觀認(rèn)識(shí)。
看圖x取值在51-61分鐘的有5根柱子,高度對(duì)應(yīng)的y軸頻率分別是6,8,10,14,10,合計(jì)48,你工作了100天,5根柱子的占比為48/100=48%,即你工作100天中單日下廠時(shí)間在51-61分鐘的概率是0.48。
你有沒有發(fā)現(xiàn)從圖上我們大致可以直觀看出,紅色鐘型曲線幾乎涵蓋了所有柱子,本例中柱子高表示次數(shù)多占比大對(duì)應(yīng)的鐘型曲線的Y值也大,中間均值對(duì)應(yīng)的Y值達(dá)到峰值,柱子矮表示次數(shù)少占比小對(duì)應(yīng)的鐘型曲線的Y值也??;本例記錄數(shù)據(jù)100次,現(xiàn)在圖形上共有14根柱子,所有柱子的次數(shù)加起來應(yīng)該是多少?100次,所有柱子占比相加=100%。實(shí)際上每根柱子的占比就是鐘型曲線在柱子對(duì)應(yīng)的區(qū)域所涵蓋的面積,所有柱子占比相加=1,也就是說,鐘型曲線涵蓋的所有面積=1。我們說過,鐘型曲線就是概率密度曲線,那就是概率密度曲線下的總面積=1。
我們要預(yù)測一下你明天下廠檢查生產(chǎn)工藝用時(shí)51-61分鐘的概率。
當(dāng)你在這里上班的日子越來越多,可分析的數(shù)據(jù)也越來越多,數(shù)據(jù)越多,鐘型曲線越接近柱子,可以理解成千千萬萬根密密麻麻的柱子組成。假設(shè)我們就以這100天的數(shù)據(jù)來預(yù)測你今后下廠的時(shí)間。計(jì)算鐘型曲線下面相應(yīng)的區(qū)間(51,61)的面積,在數(shù)學(xué)上的表達(dá)就是51<X≤61的概率,在數(shù)學(xué)上的計(jì)算方法就是求密度函數(shù)在區(qū)間(51,61)的積分。概率的大小就是概率密度函數(shù)曲線下相應(yīng)區(qū)間的面積的大小。
如果你覺得書上寫區(qū)間(a,b)不好理解的話,就回想我們這個(gè)實(shí)例,這里a=51,b=61,有具體例子具體數(shù)據(jù)自然就會(huì)比較有代入感,如果正好是你日常熟悉的事物,想想你每天下廠的時(shí)間,再看看圖形,大概概率都心中有數(shù)了。
下廠時(shí)間x是連續(xù)型隨機(jī)變量,要估算的數(shù)據(jù)可以是x軸上的任意區(qū)間數(shù)值,x取值不一定是整數(shù),概率密度曲線下的區(qū)間面積就是概率,從圖上你能看出來你下廠時(shí)間在59.655.719即區(qū)間(53.931,65.369)的概率嗎?
小潘白了小王一眼,也不提筆,她知道小王既然說了先不要管這又是e又是π的概率密度函數(shù),一定不需要再傻傻地計(jì)算,可能是要引出標(biāo)準(zhǔn)正態(tài)分布吧。小潘不確定她想的對(duì)不對(duì),只好說:(51,61)是整數(shù),5根柱子好理解也好算,概率0.48,好不容易有點(diǎn)明白了,你現(xiàn)在給我整個(gè)53.931,我暈。
小王呵呵一笑,答:概率是0.68,準(zhǔn)確的說0.6826。
小潘充滿好奇,突然若有所悟,急忙翻了翻書上標(biāo)準(zhǔn)正態(tài)分布函數(shù)表1.0對(duì)應(yīng)的,有點(diǎn)失望,是0.8413,不是0.68,又泄氣地追問:為什么?
未完待續(xù),期許您在笑聲中了解本文關(guān)于正態(tài)分布的主要知識(shí)點(diǎn):
①列舉了一些服從正態(tài)分布的連續(xù)型隨機(jī)變量;
②正態(tài)分布的概率密度曲線是一條中間高兩端低左右對(duì)稱的鐘型分布曲線;
③鐘型曲線在區(qū)間(a,b)對(duì)應(yīng)的區(qū)域所涵蓋的面積就是X在a~b范圍出現(xiàn)的概率。該知識(shí)點(diǎn)有助于后續(xù)理解假設(shè)檢驗(yàn)中的拒絕域;
④概率密度曲線與X軸圍成的總面積=1。該知識(shí)點(diǎn)有助于后續(xù)學(xué)標(biāo)準(zhǔn)正態(tài)分布及查標(biāo)準(zhǔn)正態(tài)分布函數(shù)表。
原文來源張馳咨詢:未經(jīng)作者同意,如有轉(zhuǎn)發(fā)需要必須在文章中給出原文鏈接,否則必究!