[快樂(lè)數(shù)學(xué)]典型的概率分布
書(shū)接上回。
上一期我們構(gòu)建了概率的基本理論,這一期就介紹一些我們?cè)谶\(yùn)用概率知識(shí)時(shí)常見(jiàn)的情況。
當(dāng)然,介紹前我們需要先有一點(diǎn)前置知識(shí)。

1.隨機(jī)變量
我們之前用集合的形式表示了隨機(jī)事件。但是數(shù)學(xué)數(shù)學(xué)我們還要把它與數(shù)扯上聯(lián)系。
因此我解決實(shí)際問(wèn)題時(shí)我們還要建立事件和數(shù)的一一對(duì)應(yīng)關(guān)系。
這個(gè)就是所謂的隨機(jī)變量了。

因此之后我們便可以利用隨機(jī)變量來(lái)研究某個(gè)事件發(fā)生的概率了。

2.離散型隨機(jī)變量及其概率分布
有一些隨機(jī)變量例如摸到黃球的個(gè)數(shù)只可能是一些離散的自然數(shù),這類(lèi)隨機(jī)變量稱(chēng)為離散型隨機(jī)變量。描述它的概率分布只需要直接列一個(gè)表格(稱(chēng)為分布列)就好了。
我們?cè)诒砀竦牡谝恍袑?xiě)上隨機(jī)變量可能取的值,第二行寫(xiě)上相應(yīng)的概率就得到分布列了。
例如這張就是某個(gè)隨機(jī)變量的分布列

當(dāng)然,除了用分布列之外還可用表達(dá)式來(lái)表示。
對(duì)于前面舉的那個(gè)例子,我們可以用表達(dá)式把隨機(jī)變量取-2,-1,0,1,2,3的概率都表達(dá)出來(lái)。
下面我們的討論更多地會(huì)使用這種方式。

3.連續(xù)型隨機(jī)變量及其概率分布
還有一類(lèi)隨機(jī)變量比如你家電燈剩余的使用壽命,它可能的取值不是一些離散的數(shù)。
這類(lèi)隨機(jī)變量我們稱(chēng)為連續(xù)型隨機(jī)變量嗎?
不對(duì)!
這個(gè)只是我們樸素的理解而已?;谶@個(gè)樸素的理解人們便想到了用概率密度函數(shù)來(lái)描述它飛概率分布。然而概率密度函數(shù)卻存在漏洞。為了填補(bǔ)這個(gè)漏洞
數(shù)學(xué)上定義:
如果某個(gè)隨機(jī)變量X滿(mǎn)足
存在一個(gè)非負(fù)函數(shù)使得
,則稱(chēng)X為連續(xù)型隨機(jī)變量。
其中f(x)稱(chēng)為X的概率密度函數(shù),簡(jiǎn)稱(chēng)概率密度。
這里的定義并不能保證所有取值在某個(gè)區(qū)間的函數(shù)都滿(mǎn)足。
比方說(shuō),當(dāng)你試圖找某個(gè)隨機(jī)變量的概率密度的時(shí)候發(fā)現(xiàn)它不可積,那么這個(gè)隨機(jī)變量就不是連續(xù)型隨機(jī)變量了。
對(duì)于這種及特殊的個(gè)例我們就直接引入了概率分布函數(shù)來(lái)解決。
不管哪個(gè)隨機(jī)變量,函數(shù)總是存在的,我們稱(chēng)這個(gè)函數(shù)為隨機(jī)變量X的分布函數(shù)。
而我們后面討論的比較多的是連續(xù)型隨機(jī)變量的概率分布。
對(duì)于連續(xù)型隨機(jī)變量我們可以不用概率分布函數(shù)而使用概率密度函數(shù)。
這是因?yàn)楫?dāng)你試圖求隨機(jī)變量在某個(gè)區(qū)間[a,b]上的概率時(shí),可以這樣得到
也就是說(shuō),求某個(gè)區(qū)間上的概率只需要對(duì)概率密度求積分就行了。
什么?你問(wèn)我開(kāi)區(qū)間怎么辦?
沒(méi)事的。區(qū)間開(kāi)不開(kāi)不影響答案因?yàn)檫B續(xù)型隨機(jī)變量取單點(diǎn)的概率為0。
這個(gè)結(jié)論似乎有點(diǎn)反人類(lèi)?
連續(xù)型隨機(jī)變量是可能取某個(gè)特殊點(diǎn)的吧。但是取這個(gè)特殊點(diǎn)的概率為零。
概率為0的事件可能發(fā)生,概率為1的事件(概率為0事件的補(bǔ)事件)也有可能不發(fā)生。
例如,在[1,2]上等可能地隨機(jī)找一點(diǎn),它剛好是1.5的概率就是0(幾何概型嘛)。
那么它的補(bǔ)事件,這個(gè)點(diǎn)剛好不是1.5的概率就是1了。
注意哦,我們的公理化體系只保證了發(fā)生的概率是1,
發(fā)生的概率是0。
事件能推概率,但是概率推不了事件。
不過(guò)我憑啥說(shuō)連續(xù)型隨機(jī)變量取單點(diǎn)的概率為0呢?
首先,連續(xù)型隨機(jī)變量的概率密度函數(shù)f(x)是可積的,這也就意味著其變上限積分函數(shù)(概率分布函數(shù))F(x)是連續(xù)的。
然鵝我們有,
因而當(dāng)時(shí),不等號(hào)右邊也趨于0。
概率的有界性又說(shuō)任何概率都大于等于0。
因此X取a的概率就等于0啦。
這樣的話單點(diǎn)取不取根本不會(huì)影響整個(gè)區(qū)間的概率。
注意注意,概率密度函數(shù)什么的都是定義在R上的。如果隨機(jī)變量不可能落在那個(gè)區(qū)域,則這個(gè)區(qū)域上的概率密度函數(shù)函數(shù)值為0。
下面為了簡(jiǎn)便,函數(shù)值為0的區(qū)域我不會(huì)寫(xiě)出。
概率密度函數(shù)不一定要用f(x)表示,比如我后面會(huì)用P(x)表示(只是這篇刻意這么做來(lái)消除偏見(jiàn)而已,以后回歸正常)

4.超幾何分布
理論鋪墊完畢,這下可以拿它解決實(shí)際問(wèn)題嘍。
先從我們說(shuō)了好幾次的摸球開(kāi)始吧。
我們假設(shè)不透明的箱子里放了N個(gè)球,其中有N1個(gè)黃球,N2個(gè)綠球,并且這些球除了顏色外沒(méi)有任何區(qū)別?,F(xiàn)在你隨機(jī)從里面摸出n個(gè)球,問(wèn)取到黃球的數(shù)目X的概率分布。
這里就是一個(gè)典型的古典概型問(wèn)題了。
先來(lái)看X可能取幾吧。(額,說(shuō)幾不說(shuō)吧,文明你我他)
顯然X可能取1,2,3......min{n,N1}
停停停,你這min是什么鬼?
一共就N1個(gè)黃球吧,所以你拿的黃球數(shù)不會(huì)超過(guò)N1。
一共就拿n個(gè)球,所以你拿的黃球數(shù)也不會(huì)超過(guò)n。
就這個(gè)意思而已。
現(xiàn)在只要求出X取k的概率就ojbk了。
這個(gè)不難求,,其中k+l=n。(額,這么寫(xiě)是因?yàn)锽站的公式編輯器只能這樣顯示,下面上圖片)

我來(lái)解釋一下,分母是從N個(gè)球里選n個(gè)球的所有可能數(shù)。
分子分兩步。
第一步從N1個(gè)黃球里選k個(gè)黃球。
第二步從N2個(gè)綠球里選l個(gè)綠球。
這樣就是實(shí)現(xiàn)X=k的全部可能數(shù)。
一般地,上面這種概率分布我們稱(chēng)為超幾何分布。
我們用符號(hào)X~H(n,M,N)表示X滿(mǎn)足超幾何分布。n,M,N表示從N個(gè)樣本(如球)里取n個(gè)樣本,其中有M個(gè)樣本具有某種特性(如黃球)
超幾何分布的
期望是nM/N
方差是nM(N-n)(N-M)/N2(N-1)
(期望方差不知道什么意思的可以等之后介紹)

5.幾何分布
在

這篇專(zhuān)欄里我介紹了幾何分布。
在這里說(shuō)一句只是因?yàn)槊趾统瑤缀畏植加悬c(diǎn)像而已hh。
幾何分布的期望是1/p
方差是根號(hào)(1-p)/p

6.二項(xiàng)分布
按照正常的邏輯這里應(yīng)該說(shuō)二項(xiàng)分布才對(duì)。
二項(xiàng)分布是這樣的。
假設(shè)你從口袋里摸出黃球的概率是p,并且你每次都把球放回去。
求你重復(fù)摸n次后拿到黃球的個(gè)數(shù)X的概率分布。
這個(gè)超級(jí)簡(jiǎn)單。
X可能取1,2,3,......,n
而其中k+l=n
即

式子的組合數(shù)表示你有多少種不同的拿法。(比如前k次全是黃球后面全是其他球)
P的k次方就是說(shuō)你成功了k次的概率。(1-p)的l次方則是失敗的概率。
這樣的概率分布稱(chēng)為二項(xiàng)分布。
X滿(mǎn)足二項(xiàng)分布記作X~B(n,p)。n,p表示重復(fù)n次,每次成功的概率是p。
二項(xiàng)分布的期望是np
方差是np(1-p)

7.0-1分布
0-1分布是二項(xiàng)分布的特例即n=1的情況。即只進(jìn)行一次試驗(yàn),成功的概率是p。
X滿(mǎn)足0-1分布你可以沿用二項(xiàng)分布記作X~B(1,p)你也可以把1省略變成X~B(p)
0-1分布是二項(xiàng)分布n取1的特殊值所以期望是p,方差是p(1-p)

8.泊松分布
接下來(lái)的玩意就是各位高中生不能免費(fèi)聽(tīng)的付費(fèi)內(nèi)容了。(笑)
請(qǐng)問(wèn)成華大道在某一段時(shí)間的車(chē)流量X滿(mǎn)足什么概率分布?
這個(gè)上手就比較難了。
所以我直接來(lái)嘍。
我們可以用微積分的思想把這段時(shí)間分割了(經(jīng)典的分割近似求和取極限)。
只要我們把這段時(shí)間分割得足夠細(xì),那么在每一小段時(shí)間里就只有一輛車(chē)或者沒(méi)有車(chē)通過(guò)了。
這時(shí)情況不就變成了我們熟悉的二項(xiàng)分布了。
我們將時(shí)間分割成了n次,假設(shè)每次有車(chē)經(jīng)過(guò)的概率是p
當(dāng)n趨于+∞時(shí)我們的分割近似就是準(zhǔn)確的了。
這樣車(chē)流量為k的概率就是
即

我們是在聊概率,這個(gè)算極限的過(guò)程我就不說(shuō)了。
具體步驟如下

上面這個(gè)呢就是泊松定理,最后隨機(jī)變量的概率分布(那坨帶λ的式子)就是泊松分布了。
它指出二項(xiàng)分布的極限情況就是泊松分布。
反過(guò)來(lái)我們也可以用泊松分布近似替代二項(xiàng)分布(畢竟二項(xiàng)分布不好算嘛)。
一般地X滿(mǎn)足泊松分布記作
X~P(λ),這里的λ就是剛剛式子里的那個(gè)。
泊松分布的期望與方差都是λ。

9.伽馬分布
泊松分布再往后延伸就是伽馬分布了。
如果事件A服從泊松分布(其實(shí)任意分布都可以),那么等到這件事第k次發(fā)生的時(shí)間間隔t服從的就是伽馬分布了。記作t~Ga(k,λ)
對(duì)了,你也看到了。這篇專(zhuān)欄已經(jīng)有點(diǎn)太長(zhǎng)了,所以后面的一些推導(dǎo)和計(jì)算我就不說(shuō)了。
總之,伽馬分布的概率密度函數(shù)是(注意,時(shí)間間隔是連續(xù)的)

分母那個(gè)是伽馬函數(shù)。
t作為時(shí)間間隔不可能為負(fù)數(shù)。
在上面的式子里,t是時(shí)間間隔,k稱(chēng)為形狀參數(shù),λ為逆尺度參數(shù)。
伽馬分布的期望是k/λ,方差為k/λ2

10.指數(shù)分布
伽馬分布的一個(gè)特例就是指數(shù)分布。
即事件A第一次發(fā)生需要的時(shí)間間隔。取k=1即可得到

同樣,在這里t作為時(shí)間間隔不可能為負(fù)數(shù)。
你可以記t滿(mǎn)足指數(shù)分布為
t~Ga(1,λ)
也可以用它的專(zhuān)有記號(hào)
t~Exp(λ)
指數(shù)分布的期望是1/λ,方差為1/λ2

11.均勻分布
連續(xù)型隨機(jī)變量的概率分布里最簡(jiǎn)單的是均勻分布。
這個(gè)很簡(jiǎn)單,就是字面意思。
即隨機(jī)變量X在區(qū)間[a,b]上等可能分布,且X不可能落在區(qū)間外。
記作X~U(a,b)
其概率密度函數(shù)為
期望為
方差為

12.拉普拉斯分布

其中μ為位置參數(shù),γ為尺度參數(shù)。
X服從拉普拉斯分布記作
X~La(μ,γ)
它的期望是μ
方差是2γ2

13.貝塔分布
前面提到了伽馬函數(shù)那自然就有它的好兄弟貝塔函數(shù)相關(guān)的分布啦。
但是貝塔分布的變量只可能取(0,1)的值。
如果X服從貝塔分布即X~Be(α,β)
則其概率密度為

其期望為α/(α+β)
方差為αβ/(α+β)2(α+β+1)

14.正態(tài)分布
正態(tài)分布又稱(chēng)高斯分布、常態(tài)分布。它是一個(gè)非常重要的概率分布,我們之后還會(huì)遇到它。
如果隨機(jī)變量X服從期望為μ,方差為σ2的正態(tài)分布記作X~N(μ,σ2)
當(dāng)μ=0,σ=1時(shí)的正態(tài)分布我們稱(chēng)為標(biāo)準(zhǔn)正態(tài)分布。
一般地我們有,
若X~N(μ,σ2),那么~N(0,1)
這個(gè)就是正態(tài)分布的標(biāo)準(zhǔn)化。
標(biāo)準(zhǔn)化意味著要算正態(tài)分布的概率只需要計(jì)算其對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)分布的概率即可。
而標(biāo)準(zhǔn)正態(tài)分布的概率我們一般直接查表獲得。(當(dāng)然,現(xiàn)在其實(shí)更建議利用計(jì)算機(jī)解決)

正態(tài)分布的概率密度函數(shù)是

當(dāng)然,既然可以標(biāo)準(zhǔn)化一個(gè)正態(tài)分布,所以其實(shí)這個(gè)一般情況是不太用的上的。頂多標(biāo)準(zhǔn)正態(tài)分布的用的上一點(diǎn)而已。
這個(gè)概率密度函數(shù)是這樣的一個(gè)兩頭低,中間高且左右對(duì)稱(chēng)的鐘型曲線。
這張就是標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)的圖像。

你看,是不是確實(shí)有點(diǎn)像。

15.柯西-洛倫茲分布
這個(gè)分布其實(shí)不常見(jiàn)但是它有一個(gè)特殊的地方。
這個(gè)分布的期望和方差以及高階矩都不存在。
X服從柯西-洛倫茲分布記作X~C(γ,x0)
其概率密度函數(shù)為

當(dāng)γ取1,x0取0時(shí)的特例我們稱(chēng)為標(biāo)準(zhǔn)柯西分布。
其實(shí)還有很多概率分布我沒(méi)說(shuō),比如狄拉克分布、狄利克雷分布、多項(xiàng)式分布等等。想了解的話就自己上網(wǎng)查閱吧。這里已經(jīng)羅列了太多了。