有意思的概率與統(tǒng)計(jì)(二)
概率論的坑,要開就得開得迅速和有力!
所以很快啊,我又來更新第二篇了!
上一次介紹了隨機(jī)現(xiàn)象及其相關(guān)的各種概念,為我們本次繼續(xù)介紹概率提供了足夠的基礎(chǔ)。
于是乎,這一次,我們直接來介紹——
Chapter? One? 隨機(jī)事件與概率
1.2? 概率的定義及其確定方法
概率論,顧名思義,所研究的問題主要集中于“概率”二字之上。所以,我們首先就有必要弄清楚,什么是概率。
我們對(duì)概率都有一個(gè)直觀的認(rèn)識(shí),因?yàn)槲覀冊(cè)谌粘I町?dāng)中經(jīng)常聽見各種有關(guān)概率的說法:
(1)買一張彩票中一等獎(jiǎng)的概率小于0.003;
(2)明天降雨的概率大于80%;
(3)投擲一枚質(zhì)地均勻的硬幣,正面向上的概率為1/2。
這樣的例子有很多,其中所涉及到的“概率”的具體確定方法和所表達(dá)的意義都不盡相同。比如說,第一個(gè)說法當(dāng)中,雖然沒有概率的確數(shù),但是這個(gè)結(jié)果卻是基于大量的事實(shí)結(jié)果和實(shí)際彩票的發(fā)行情況估計(jì)出來的,具有準(zhǔn)確的參考價(jià)值;但是對(duì)于第二種情況來說,這個(gè)概率只是人們(或者是專家)根據(jù)自己的經(jīng)驗(yàn)和掌握的規(guī)律做出的一種主觀推測(cè),并不是概率的真實(shí)值,稱為主觀概率(很多時(shí)候,雖然是主觀概率,但也不失為一種確定概率的方法,日常中用于描述問題結(jié)果已經(jīng)足夠了);而第三種描述當(dāng)中,由于我們十分明確拋擲硬幣的結(jié)果,所以我們也很容易就給出一個(gè)理想的概率值,這個(gè)值是較為準(zhǔn)確的。
但無(wú)論如何,概率都有一種被人們所公認(rèn)的含義——事件發(fā)生的可能性的度量。
但是,這樣的含義顯然不能夠?qū)⒏怕首優(yōu)橐粋€(gè)精確的數(shù)學(xué)對(duì)象供我們研究。因此,我們需要一個(gè)有關(guān)概率的一個(gè)嚴(yán)格的數(shù)學(xué)定義。經(jīng)過數(shù)學(xué)家們的不斷嘗試,目前較為公認(rèn)的是1933年由數(shù)學(xué)家Kolmogorov提出的以下公理化定義(感興趣的小伙伴們也可以了解一下其他的定義):
設(shè)為一樣本空間,
為
的某些子集構(gòu)成的一個(gè)事件域。如果對(duì)任意事件
,定義在
的一個(gè)實(shí)值函數(shù)
滿足:
(1)非負(fù)性:;
(2)正則性:;
(3)可列可加性:
若,則
則稱為事件A的概率,稱
為概率空間。
這個(gè)定義完美符合了人們對(duì)概率的認(rèn)識(shí),比如說,概率不會(huì)為負(fù)數(shù),概率應(yīng)該對(duì)應(yīng)事件等等。另外,這樣的定義給出的概率是十分嚴(yán)格而準(zhǔn)確的,作為一個(gè)數(shù)學(xué)對(duì)象來說,是十分利于我們研究的。
這個(gè)定義中最重要的一點(diǎn)是,它表明了概率是集合(事件)的函數(shù)(或許我們可以稱之為泛函也說不定,不過這都是后話)。
雖然我們已經(jīng)有了明確的定義,但是在如何確定概率這一方面仍然沒有明確的方法。主要原因就是,概率本身和事件高度相關(guān),而某一事件發(fā)生的可能性僅憑這樣的定義是沒法完全說明的。我們需要引入一些基本假設(shè),才能夠基于這些假設(shè)給出事件的概率。
舉個(gè)例子,我們都知道,投擲一枚骰子,事件“點(diǎn)數(shù)為奇數(shù)”的概率為0.5。雖然這樣的概率讓人信服,并且它也滿足了公理化定義,但我們?nèi)晕纯芍@樣的概率到底是怎樣得出來的,到底與事件本身有怎樣的關(guān)系。所以,接下來,我們就要介紹一些確定概率的方法。
一個(gè)經(jīng)典的方法,就是——以頻率估計(jì)概率。
這個(gè)方法的思想核心是,在大量的重復(fù)試驗(yàn)當(dāng)中,屬于待確定概率的事件A的結(jié)果出現(xiàn)的頻率(頻數(shù)與總次數(shù)的比值)是會(huì)幾乎穩(wěn)定在某一個(gè)常數(shù)附近的。這一方法的總過程大致如下:
(1)與考察事件A有關(guān)的隨機(jī)試驗(yàn)可以大量重復(fù)進(jìn)行;
(2)記n(A)為事件A在n次試驗(yàn)中出現(xiàn)的次數(shù),稱為事件A發(fā)生的頻數(shù),數(shù)字:
稱為事件A發(fā)生的頻率;
(3)隨著n的增大,事件A的頻率會(huì)更加傾向于穩(wěn)定在常數(shù)a附近,這個(gè)數(shù)值稱為頻率的穩(wěn)定值。以頻率估計(jì)概率時(shí),通常認(rèn)為此穩(wěn)定值就可以代表概率。
這樣的方法有它的好處,比如說得出的概率值十分令人信服,也可以作為日后再次進(jìn)行類似的試驗(yàn)時(shí)對(duì)結(jié)果的預(yù)測(cè)依據(jù)。但是,其缺點(diǎn)也是十分明顯的。很多時(shí)候,我們沒辦法將試驗(yàn)大量重復(fù),因此也就沒有辦法通過這樣的方法獲得概率值。
既然如此,我們就需要一些偏向于理論邏輯導(dǎo)出的方法。首先要研究的,就是古典概型。
所謂古典概型,就是確定概率的最為古老經(jīng)典的方法。這一方法是概率論歷史上最先開始研究的情形。這樣的方法簡(jiǎn)單直觀,也避免了做大量的重復(fù)試驗(yàn)。只需要一些理論邏輯分析,我們就可以輕松得出合理的概率值。
這一方法的思想核心是一個(gè)基本假設(shè)——等概率假設(shè)。
設(shè)若樣本空間是一個(gè)有限集,且各個(gè)樣本點(diǎn)發(fā)生的可能性是相等的。這樣,我們就可以認(rèn)為,每個(gè)樣本點(diǎn)自己構(gòu)成的子集(事件)的概率都是均等的。此時(shí),某一事件的概率就等于事件當(dāng)中所包含的樣本點(diǎn)的個(gè)數(shù)。也即:
在一些問題當(dāng)中,我們會(huì)涉及到一些幾何模型。事件的描述很多時(shí)候能夠通過幾何規(guī)劃的方式來表示出來,這個(gè)時(shí)候,我們就可以通過一些幾何度量來作為事件可能性的代表,以此來求出事件的概率。這就是幾何概型。
如果一個(gè)隨機(jī)現(xiàn)象的樣本空間充滿某個(gè)區(qū)域,其度量可以用
來表示。而事件A是所代表的區(qū)域是
中的子區(qū)域,那么該事件的概率就為
。這個(gè)概率稱為幾何概率。
值得注意的是,幾何概率很多時(shí)候和我們所選取的幾何度量相關(guān)。有一些現(xiàn)象表明,對(duì)于同樣的時(shí)間而言,選用不同的幾何度量所求出的幾何概率并不相同。究其原因,可能是不同的幾何度量所對(duì)應(yīng)的幾何維度的劃分方式有所不同,進(jìn)而導(dǎo)致樣本空間以及事件所代表的區(qū)域產(chǎn)生了差異。也就是說,對(duì)于復(fù)雜的問題,“等可能性”這一說法太過于模糊,這樣簡(jiǎn)單的假設(shè)反而會(huì)招致麻煩。(一個(gè)經(jīng)典的例子就是Bertrand奇論。)
至此,我們就將所有確定概率的方法介紹完了。但是,盡管方法十分簡(jiǎn)單,可在應(yīng)用的過程當(dāng)中卻演變出了許多經(jīng)典的模型。在實(shí)際問題當(dāng)中,多數(shù)情況都逃不出這些經(jīng)典模型,因此還是有必要將其細(xì)致地介紹給大家~
我們先從最簡(jiǎn)單的拋硬幣入手,讓大家進(jìn)一步理解一下等概率假設(shè)。
例1:現(xiàn)在,我們拋擲兩枚完全相同的硬幣,求事件A=“出現(xiàn)兩個(gè)正面”的概率。
樣本空間為:
事件
于是概率就為1/4。
這個(gè)例子似乎很簡(jiǎn)單,沒什么值得深究的。但是,很多人會(huì)認(rèn)為樣本空間為:
這樣似乎概率就應(yīng)該是1/3。但事實(shí)上,雖然兩個(gè)硬幣完全相同,不加區(qū)分,但是我們總是要選擇一個(gè)硬幣先描述它的結(jié)果,然后再分析另一個(gè)硬幣的結(jié)果。這樣,我們就人為地給兩個(gè)硬幣附加上了合理的序號(hào),導(dǎo)致了“一正一反”這個(gè)結(jié)果包含了了兩個(gè)樣本點(diǎn)。在這里,所謂不加區(qū)分,實(shí)際上是不區(qū)分兩個(gè)硬幣誰(shuí)為1號(hào),誰(shuí)為2號(hào)罷了。
所以,想要使用等概率假設(shè),重點(diǎn)在于要保證每一個(gè)樣本點(diǎn)本身確實(shí)只含一個(gè)樣本點(diǎn)。
接下來,我們就要研究一些基本的模型了。
例2:(抽樣模型:不放回抽樣)
一個(gè)盒子里裝有N個(gè)球,其中有M個(gè)紅球(n≤N),其余都是白球?,F(xiàn)在要從中取出n個(gè)球,試求事件A=“取出的球中有m個(gè)紅球”的概率。(m≤M,n-m≤N-M)
不難想見,樣本空間中的樣本點(diǎn)數(shù)應(yīng)為。我們主要來研究的,就是事件A包含了多少的樣本點(diǎn)。
事實(shí)上,我們可以將抽取過程分為兩步,一部是先在紅球堆中抽出m個(gè),然后在白球堆中抽出n-m個(gè)。這樣,在此理解下,事件A所包含的樣本點(diǎn)數(shù)就為。
此時(shí),事件A的概率就為:
若將m看做是隨機(jī)變量,則根據(jù)m的取值不同,我們能夠得到不同的概率值。由于各情況必有一種會(huì)發(fā)生,所以概率總和為應(yīng)該為1。
我們將隨機(jī)變量與其對(duì)應(yīng)的概率值列成一個(gè)表,類似如下:

這稱之為一個(gè)概率分布。
例3:(抽樣模型:放回抽樣)
我們剛剛介紹的例子,是不放回抽樣的典型例子。接下來我們要討論的,就是放回抽樣的特點(diǎn)。所謂放回抽樣,顧名思義,其實(shí)就是在每次抽取之后,我們將所抽取的樣本再次放回樣品堆中,不改變樣品堆內(nèi)的樣品組成。這樣,每次抽取時(shí),同一事件發(fā)生的概率是不會(huì)改變的。
比如說,同樣是剛才的情景,我們現(xiàn)在改成每一次抽取一個(gè)球,抽取后將其放回盒子中,現(xiàn)在求解事件B=“一共抽取n次后,抽到過m次紅球”的概率。
一共抽取n次后,由于每次盒子中都有N個(gè)球,所以樣本點(diǎn)總數(shù)為。
同樣的道理,每次抽取球時(shí),紅球和白球的數(shù)目是不會(huì)變的,所以每次抽到紅球,都是在M個(gè)紅球當(dāng)中抽出來一個(gè)。這樣,我們只要選擇,到底是第幾次抽出紅球即可。
于是,我們能夠推知,事件B的樣本點(diǎn)數(shù)為:
這樣,我們就得到:
例4:(信箱模型)
在過去科技并不發(fā)達(dá)的時(shí)代,人們聯(lián)絡(luò)的主要方式是信件往來。因此,郵局便在其中起到了很重要的作用。
寄信并不麻煩,只需要將信息都填好,封存好,再貼上郵票,投入信箱就可以等待郵遞員收走并發(fā)往各地。
陸逵同學(xué)很喜歡寫信,因此他也常常寄信。在他家附近一共有N個(gè)信箱,他每次差不多都要寄出n封信。這些信都是寫給他的好朋友們的?,F(xiàn)在他想知道,這些信分別被投進(jìn)不同的信箱的概率是多少?
這個(gè)問題倒是不難,首先需要解決的點(diǎn)是,樣本空間中的樣本點(diǎn)總數(shù)是多少?
因?yàn)槊看我还灿衝封信要寄出,就有n封信要投遞。每封信投進(jìn)無(wú)論哪個(gè)信箱其實(shí)都能夠被寄出去。而信箱本身是可以容納很多封信的,因此也不必?fù)?dān)心有的信箱投不進(jìn)信的情況出現(xiàn)。
這樣的話,每一封信都有可能投進(jìn)任何一個(gè)信箱當(dāng)中。于是,樣本點(diǎn)的總數(shù)就應(yīng)該是。
現(xiàn)在我們要考慮,這n封信分開被投進(jìn)n個(gè)信箱這一事件(記為事件A)的樣本點(diǎn)數(shù)是多少。
如果不加限制,只需要投進(jìn)任意n個(gè)不同的信箱中,一個(gè)箱里面放一封即可的話。那么,首先,我們就要選出n個(gè)不同的信箱出來;其次,我們?cè)賹⑦@n封信一封一封地投入這些信箱當(dāng)中。所以,樣本點(diǎn)數(shù)就為:
于是概率就為:
如果我們對(duì)這n個(gè)信箱有要求,必須是我們給定的某幾個(gè),那么這個(gè)時(shí)候,我們就沒有必要去選擇信箱了,因此組合數(shù)也就不會(huì)出現(xiàn)在概率表達(dá)式當(dāng)中了。
這個(gè)模型雖然是來自于基本的生活內(nèi)容,但是實(shí)際上,在統(tǒng)計(jì)物理當(dāng)中,這個(gè)模型起到了至關(guān)重要的作用。在統(tǒng)計(jì)物理當(dāng)中非常重要的三種統(tǒng)計(jì)——Maxwell-Boltamann統(tǒng)計(jì),Bose-Einstein統(tǒng)計(jì)和Fermi-Dirac統(tǒng)計(jì)——就是基于這樣的模型推導(dǎo)出的。
例5:(會(huì)面問題)
這是個(gè)幾何概型的應(yīng)用。篇幅關(guān)系直接展示給大家即可,理解其中精髓并不困難。

最后,我們來介紹一個(gè)十分有用的方法——隨機(jī)模擬法。
隨機(jī)模擬法,又稱Monte Carlo方法,是一種通過大量重復(fù)所設(shè)計(jì)的模擬隨機(jī)試驗(yàn),來獲得某種想要的數(shù)值的近似解的方法。通過提高隨機(jī)試驗(yàn)的次數(shù),進(jìn)而提高近似解的精度。
這種方法的巧妙之處在于,只要設(shè)計(jì)一個(gè)隨機(jī)試驗(yàn),使得某一事件的概率與想要求解的參數(shù)相關(guān),這樣就可以通過以頻率估計(jì)概率的方式,近似得出概率值。再通過其與理論值對(duì)比,進(jìn)而求出參數(shù)的近似解。
一個(gè)經(jīng)典的例子,就是投針問題:


思考:
證明以下組合數(shù)公式:
(1)
(2)
(3)
求以下事件的概率:
(1)拋擲三枚硬幣,出現(xiàn)至少一個(gè)正面;
(2)任取兩個(gè)正整數(shù),它們的和為偶數(shù);
(3)把10本書任意地?cái)[放,指定的4本書放在一起;
(4)n個(gè)人隨機(jī)地圍一圓桌而坐,指定的甲乙兩人坐在一起;
(5)把n個(gè)“0”和n個(gè)“1”隨機(jī)地排列,沒有兩個(gè)“1”連在一起;
(6)在區(qū)間(0,1)中隨機(jī)取兩個(gè)數(shù),兩數(shù)之和小于5/7;
從一副54張的撲克牌(包含大小王)當(dāng)中任意抽取4張,求下列事件的概率:
(1)全是黑桃;
(2)同花;
(3)同色;
設(shè)10件產(chǎn)品中有2件不合格品,從中任取4件,設(shè)其中不合格品數(shù)為X,求X的概率分布;
將三個(gè)球隨機(jī)地放入4個(gè)盒子中,求盒子中球的最大個(gè)數(shù)X的概率分布。
最後の最後に、ありがとうございました!