手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 科技 »學(xué)習(xí) » [快樂(lè)數(shù)學(xué)]典型的概率分布

[快樂(lè)數(shù)學(xué)]典型的概率分布

2023-07-23 20:00 作者:名浮半生 0人讀過(guò) | 我要投稿

書(shū)接上回。

上一期我們構(gòu)建了概率的基本理論，這一期就介紹一些我們?cè)谶\(yùn)用概率知識(shí)時(shí)常見(jiàn)的情況。

當(dāng)然，介紹前我們需要先有一點(diǎn)前置知識(shí)。

1.隨機(jī)變量

我們之前用集合的形式表示了隨機(jī)事件。但是數(shù)學(xué)數(shù)學(xué)我們還要把它與數(shù)扯上聯(lián)系。

因此我解決實(shí)際問(wèn)題時(shí)我們還要建立事件和數(shù)的一一對(duì)應(yīng)關(guān)系。

這個(gè)就是所謂的隨機(jī)變量了。

因此之后我們便可以利用隨機(jī)變量來(lái)研究某個(gè)事件發(fā)生的概率了。

2.離散型隨機(jī)變量及其概率分布

有一些隨機(jī)變量例如摸到黃球的個(gè)數(shù)只可能是一些離散的自然數(shù)，這類(lèi)隨機(jī)變量稱(chēng)為離散型隨機(jī)變量。描述它的概率分布只需要直接列一個(gè)表格(稱(chēng)為分布列)就好了。

我們?cè)诒砀竦牡谝恍袑?xiě)上隨機(jī)變量可能取的值，第二行寫(xiě)上相應(yīng)的概率就得到分布列了。

例如這張就是某個(gè)隨機(jī)變量的分布列

當(dāng)然，除了用分布列之外還可用表達(dá)式來(lái)表示。

對(duì)于前面舉的那個(gè)例子，我們可以用表達(dá)式把隨機(jī)變量取-2,-1,0,1,2,3的概率都表達(dá)出來(lái)。

下面我們的討論更多地會(huì)使用這種方式。

3.連續(xù)型隨機(jī)變量及其概率分布

還有一類(lèi)隨機(jī)變量比如你家電燈剩余的使用壽命，它可能的取值不是一些離散的數(shù)。

這類(lèi)隨機(jī)變量我們稱(chēng)為連續(xù)型隨機(jī)變量嗎？

不對(duì)！

這個(gè)只是我們樸素的理解而已?；谶@個(gè)樸素的理解人們便想到了用概率密度函數(shù)來(lái)描述它飛概率分布。然而概率密度函數(shù)卻存在漏洞。為了填補(bǔ)這個(gè)漏洞

數(shù)學(xué)上定義：

如果某個(gè)隨機(jī)變量X滿(mǎn)足

存在一個(gè)非負(fù)函數(shù) $f(x)$ 使得 $P(X%5Cleq%20x)%3D%5Cint_%7B-%E2%88%9E%7D%5E%7Bx%7Df(t)dt%20$ ，則稱(chēng)X為連續(xù)型隨機(jī)變量。

其中f(x)稱(chēng)為X的概率密度函數(shù)，簡(jiǎn)稱(chēng)概率密度。

這里的定義并不能保證所有取值在某個(gè)區(qū)間的函數(shù)都滿(mǎn)足。

比方說(shuō)，當(dāng)你試圖找某個(gè)隨機(jī)變量的概率密度的時(shí)候發(fā)現(xiàn)它不可積，那么這個(gè)隨機(jī)變量就不是連續(xù)型隨機(jī)變量了。

對(duì)于這種及特殊的個(gè)例我們就直接引入了概率分布函數(shù)來(lái)解決。

不管哪個(gè)隨機(jī)變量，函數(shù) $f(x)%3DP(X%5Cleq%20x)$ 總是存在的，我們稱(chēng)這個(gè)函數(shù)為隨機(jī)變量X的分布函數(shù)。

而我們后面討論的比較多的是連續(xù)型隨機(jī)變量的概率分布。

對(duì)于連續(xù)型隨機(jī)變量我們可以不用概率分布函數(shù)而使用概率密度函數(shù)。

這是因?yàn)楫?dāng)你試圖求隨機(jī)變量在某個(gè)區(qū)間[a,b]上的概率時(shí)，可以這樣得到

$P(a%5Cleq%20X%5Cleq%20b)%3DP(X%5Cleq%20b)-P(X%5Cleq%20a)%3D%5Cint_%7Ba%7D%5E%7Bb%7D%20f(t)dt$

也就是說(shuō)，求某個(gè)區(qū)間上的概率只需要對(duì)概率密度求積分就行了。

什么？你問(wèn)我開(kāi)區(qū)間怎么辦？

沒(méi)事的。區(qū)間開(kāi)不開(kāi)不影響答案因?yàn)檫B續(xù)型隨機(jī)變量取單點(diǎn)的概率為0。

這個(gè)結(jié)論似乎有點(diǎn)反人類(lèi)？

連續(xù)型隨機(jī)變量是可能取某個(gè)特殊點(diǎn)的吧。但是取這個(gè)特殊點(diǎn)的概率為零。

概率為0的事件可能發(fā)生，概率為1的事件（概率為0事件的補(bǔ)事件）也有可能不發(fā)生。

例如，在[1,2]上等可能地隨機(jī)找一點(diǎn)，它剛好是1.5的概率就是0（幾何概型嘛）。

那么它的補(bǔ)事件，這個(gè)點(diǎn)剛好不是1.5的概率就是1了。

注意哦，我們的公理化體系只保證了 $%5COmega%20$ 發(fā)生的概率是1， $%5Cphi%20$ 發(fā)生的概率是0。

事件能推概率，但是概率推不了事件。

不過(guò)我憑啥說(shuō)連續(xù)型隨機(jī)變量取單點(diǎn)的概率為0呢？

首先，連續(xù)型隨機(jī)變量的概率密度函數(shù)f(x)是可積的，這也就意味著其變上限積分函數(shù)（概率分布函數(shù)）F(x)是連續(xù)的。

然鵝我們有， $%5Cforall%20%5Cepsilon%20%3E0%2C%20P(X%3Da)%5Cleq%20P(a-%5Cvarepsilon%20%5Cleq%20X%5Cleq%20a)%3DF(a)-F(a-%5Cvarepsilon%20)$

因而當(dāng) $%5Cvarepsilon%20%E2%86%920$ 時(shí)，不等號(hào)右邊也趨于0。

概率的有界性又說(shuō)任何概率都大于等于0。

因此X取a的概率就等于0啦。

這樣的話單點(diǎn)取不取根本不會(huì)影響整個(gè)區(qū)間的概率。

注意注意，概率密度函數(shù)什么的都是定義在R上的。如果隨機(jī)變量不可能落在那個(gè)區(qū)域，則這個(gè)區(qū)域上的概率密度函數(shù)函數(shù)值為0。

下面為了簡(jiǎn)便，函數(shù)值為0的區(qū)域我不會(huì)寫(xiě)出。

概率密度函數(shù)不一定要用f(x)表示，比如我后面會(huì)用P(x)表示(只是這篇刻意這么做來(lái)消除偏見(jiàn)而已，以后回歸正常)

4.超幾何分布

理論鋪墊完畢，這下可以拿它解決實(shí)際問(wèn)題嘍。

先從我們說(shuō)了好幾次的摸球開(kāi)始吧。

我們假設(shè)不透明的箱子里放了N個(gè)球，其中有N1個(gè)黃球，N2個(gè)綠球，并且這些球除了顏色外沒(méi)有任何區(qū)別?，F(xiàn)在你隨機(jī)從里面摸出n個(gè)球，問(wèn)取到黃球的數(shù)目X的概率分布。

這里就是一個(gè)典型的古典概型問(wèn)題了。

先來(lái)看X可能取幾吧。（額，說(shuō)幾不說(shuō)吧，文明你我他）

顯然X可能取1,2,3......min{n,N1}

停停停，你這min是什么鬼？

一共就N1個(gè)黃球吧，所以你拿的黃球數(shù)不會(huì)超過(guò)N1。

一共就拿n個(gè)球，所以你拿的黃球數(shù)也不會(huì)超過(guò)n。

就這個(gè)意思而已。

現(xiàn)在只要求出X取k的概率就ojbk了。

這個(gè)不難求， $P(X%3Dk)%3D%5Cfrac%7BC_%7BN1%7D%5Ek%20Cx_%7BN2%7D%5El%20%7D%7BC_%7BN%7D%5En%20%7D%20$ ，其中k+l=n。(額，這么寫(xiě)是因?yàn)锽站的公式編輯器只能這樣顯示，下面上圖片）

我來(lái)解釋一下，分母是從N個(gè)球里選n個(gè)球的所有可能數(shù)。

分子分兩步。

第一步從N1個(gè)黃球里選k個(gè)黃球。

第二步從N2個(gè)綠球里選l個(gè)綠球。

這樣就是實(shí)現(xiàn)X=k的全部可能數(shù)。

一般地，上面這種概率分布我們稱(chēng)為超幾何分布。

我們用符號(hào)X~H（n，M，N）表示X滿(mǎn)足超幾何分布。n,M,N表示從N個(gè)樣本(如球）里取n個(gè)樣本，其中有M個(gè)樣本具有某種特性（如黃球）

超幾何分布的

期望是nM/N

方差是nM(N-n)(N-M)/N2(N-1)

(期望方差不知道什么意思的可以等之后介紹)

5.幾何分布

在

這篇專(zhuān)欄里我介紹了幾何分布。

在這里說(shuō)一句只是因?yàn)槊趾统瑤缀畏植加悬c(diǎn)像而已hh。

幾何分布的期望是1/p

方差是根號(hào)(1-p)/p

6.二項(xiàng)分布

按照正常的邏輯這里應(yīng)該說(shuō)二項(xiàng)分布才對(duì)。

二項(xiàng)分布是這樣的。

假設(shè)你從口袋里摸出黃球的概率是p，并且你每次都把球放回去。

求你重復(fù)摸n次后拿到黃球的個(gè)數(shù)X的概率分布。

這個(gè)超級(jí)簡(jiǎn)單。

X可能取1,2,3，......，n

而 $P(X%3Dk)%3DC_%7Bn%7D%5Ek%20p%5Ek(1-p)%5El%20%20$ 其中k+l=n

即

式子的組合數(shù)表示你有多少種不同的拿法。（比如前k次全是黃球后面全是其他球）

P的k次方就是說(shuō)你成功了k次的概率。(1-p)的l次方則是失敗的概率。

這樣的概率分布稱(chēng)為二項(xiàng)分布。

X滿(mǎn)足二項(xiàng)分布記作X~B(n，p）。n，p表示重復(fù)n次，每次成功的概率是p。

二項(xiàng)分布的期望是np

方差是np(1-p)

7.0-1分布

0-1分布是二項(xiàng)分布的特例即n=1的情況。即只進(jìn)行一次試驗(yàn)，成功的概率是p。

X滿(mǎn)足0-1分布你可以沿用二項(xiàng)分布記作X~B（1，p）你也可以把1省略變成X~B(p)

0-1分布是二項(xiàng)分布n取1的特殊值所以期望是p，方差是p(1-p)

8.泊松分布

接下來(lái)的玩意就是各位高中生不能免費(fèi)聽(tīng)的付費(fèi)內(nèi)容了。(笑)

請(qǐng)問(wèn)成華大道在某一段時(shí)間的車(chē)流量X滿(mǎn)足什么概率分布？

這個(gè)上手就比較難了。

所以我直接來(lái)嘍。

我們可以用微積分的思想把這段時(shí)間分割了（經(jīng)典的分割近似求和取極限）。

只要我們把這段時(shí)間分割得足夠細(xì)，那么在每一小段時(shí)間里就只有一輛車(chē)或者沒(méi)有車(chē)通過(guò)了。

這時(shí)情況不就變成了我們熟悉的二項(xiàng)分布了。

我們將時(shí)間分割成了n次，假設(shè)每次有車(chē)經(jīng)過(guò)的概率是p

當(dāng)n趨于+∞時(shí)我們的分割近似就是準(zhǔn)確的了。

這樣車(chē)流量為k的概率就是 $P(X%3Dk)%3D%5Clim_%7Bn%5Cto%2B%E2%88%9E%7D%20C_%7Bn%7D%5Ek%20p%5Ek(1-p)%5El%20%20$

即

我們是在聊概率，這個(gè)算極限的過(guò)程我就不說(shuō)了。

具體步驟如下

上面這個(gè)呢就是泊松定理，最后隨機(jī)變量的概率分布（那坨帶λ的式子）就是泊松分布了。

它指出二項(xiàng)分布的極限情況就是泊松分布。

反過(guò)來(lái)我們也可以用泊松分布近似替代二項(xiàng)分布（畢竟二項(xiàng)分布不好算嘛）。

一般地X滿(mǎn)足泊松分布記作

X~P(λ)，這里的λ就是剛剛式子里的那個(gè)。

泊松分布的期望與方差都是λ。

9.伽馬分布

泊松分布再往后延伸就是伽馬分布了。

如果事件A服從泊松分布(其實(shí)任意分布都可以)，那么等到這件事第k次發(fā)生的時(shí)間間隔t服從的就是伽馬分布了。記作t~Ga(k，λ)

對(duì)了，你也看到了。這篇專(zhuān)欄已經(jīng)有點(diǎn)太長(zhǎng)了，所以后面的一些推導(dǎo)和計(jì)算我就不說(shuō)了。

總之，伽馬分布的概率密度函數(shù)是(注意，時(shí)間間隔是連續(xù)的)

分母那個(gè)是伽馬函數(shù)。

t作為時(shí)間間隔不可能為負(fù)數(shù)。

在上面的式子里，t是時(shí)間間隔，k稱(chēng)為形狀參數(shù)，λ為逆尺度參數(shù)。

伽馬分布的期望是k/λ，方差為k/λ2

10.指數(shù)分布

伽馬分布的一個(gè)特例就是指數(shù)分布。

即事件A第一次發(fā)生需要的時(shí)間間隔。取k=1即可得到

同樣，在這里t作為時(shí)間間隔不可能為負(fù)數(shù)。

你可以記t滿(mǎn)足指數(shù)分布為

t~Ga(1，λ)

也可以用它的專(zhuān)有記號(hào)

t~Exp(λ)

指數(shù)分布的期望是1/λ，方差為1/λ2

11.均勻分布

連續(xù)型隨機(jī)變量的概率分布里最簡(jiǎn)單的是均勻分布。

這個(gè)很簡(jiǎn)單，就是字面意思。

即隨機(jī)變量X在區(qū)間[a，b]上等可能分布，且X不可能落在區(qū)間外。

記作X~U(a，b)

其概率密度函數(shù)為 $P%EF%BC%88x%EF%BC%89%3D%5Cfrac%7B1%7D%7Bb-a%7D%20$

期望為 $%5Cfrac%7Ba%2Bb%7D%7B2%7D%20$

方差為 $%5Cfrac%7B(b-a)%5E2%20%7D%7B12%7D%20$

12.拉普拉斯分布

其中μ為位置參數(shù)，γ為尺度參數(shù)。

X服從拉普拉斯分布記作

X~La(μ，γ)

它的期望是μ

方差是2γ2

13.貝塔分布

前面提到了伽馬函數(shù)那自然就有它的好兄弟貝塔函數(shù)相關(guān)的分布啦。

但是貝塔分布的變量只可能取(0，1)的值。

如果X服從貝塔分布即X~Be(α，β)

則其概率密度為

其期望為α/(α+β)

方差為αβ/(α+β)2(α+β+1)

14.正態(tài)分布

正態(tài)分布又稱(chēng)高斯分布、常態(tài)分布。它是一個(gè)非常重要的概率分布，我們之后還會(huì)遇到它。

如果隨機(jī)變量X服從期望為μ，方差為σ2的正態(tài)分布記作X~N(μ，σ2)

當(dāng)μ=0，σ=1時(shí)的正態(tài)分布我們稱(chēng)為標(biāo)準(zhǔn)正態(tài)分布。

一般地我們有，

若X~N(μ，σ2)，那么 $Y%3D%5Cfrac%7BX-%5Cmu%20%7D%7B%5Csigma%20%7D%20$ ~N(0，1)

這個(gè)就是正態(tài)分布的標(biāo)準(zhǔn)化。

標(biāo)準(zhǔn)化意味著要算正態(tài)分布的概率只需要計(jì)算其對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)分布的概率即可。

而標(biāo)準(zhǔn)正態(tài)分布的概率我們一般直接查表獲得。（當(dāng)然，現(xiàn)在其實(shí)更建議利用計(jì)算機(jī)解決）

正態(tài)分布的概率密度函數(shù)是

當(dāng)然，既然可以標(biāo)準(zhǔn)化一個(gè)正態(tài)分布，所以其實(shí)這個(gè)一般情況是不太用的上的。頂多標(biāo)準(zhǔn)正態(tài)分布的用的上一點(diǎn)而已。

這個(gè)概率密度函數(shù)是這樣的一個(gè)兩頭低，中間高且左右對(duì)稱(chēng)的鐘型曲線。

這張就是標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)的圖像。

你看，是不是確實(shí)有點(diǎn)像。

15.柯西-洛倫茲分布

這個(gè)分布其實(shí)不常見(jiàn)但是它有一個(gè)特殊的地方。

這個(gè)分布的期望和方差以及高階矩都不存在。

X服從柯西-洛倫茲分布記作X~C(γ，x0)

其概率密度函數(shù)為

當(dāng)γ取1，x0取0時(shí)的特例我們稱(chēng)為標(biāo)準(zhǔn)柯西分布。

其實(shí)還有很多概率分布我沒(méi)說(shuō)，比如狄拉克分布、狄利克雷分布、多項(xiàng)式分布等等。想了解的話就自己上網(wǎng)查閱吧。這里已經(jīng)羅列了太多了。

標(biāo)簽：快樂(lè)數(shù)學(xué)概率論概率分布