有意思的概率與統(tǒng)計(四)
很快??!我們終于進行到概率的基本知識部分的最為重要的內(nèi)容——條件概率了。
條件概率作為我們目前所接觸到的第一個重要的知識點,可以說同時它也是整個概率論中十分重要的一個點。條件概率在實際應(yīng)用當(dāng)中幾乎很多地方都能見得到。因此,小伙伴們可要好好掌握喲~
Chapter? One? 隨機事件與概率
1.4? 條件概率
條件概率,顧名思義,它也是概率的一個類別。但是,與一般事件的直接概率不同,條件概率之所以稱之為“條件”,就說明,它實際上是某一事件在另一事件的條件下發(fā)生的概率。例如說,事件A=“擲骰子擲出5點”在事件B=“擲骰子擲出的點數(shù)為奇數(shù)”發(fā)生的前提下發(fā)生的概率,就是一個典型的條件概率。
經(jīng)過之前幾篇專欄的介紹,我們不難求出,事件A的直接概率為1/6;而當(dāng)事件B發(fā)生了之后,由于新的樣本空間中的樣本點數(shù)發(fā)生了變化(從6減小為3),因此此時事件A再發(fā)生的概率就變?yōu)榱?/3。
再比如,我們定義事件A=“拋兩枚硬幣,結(jié)果是一正一反”,定義事件B=“拋兩枚硬幣,其中一枚是正面”。事件A的直接概率我們已經(jīng)求解過(見專欄(二)),為1/2;而當(dāng)事件B發(fā)生了之后,由于樣本空間中的“(反,反)”已經(jīng)不會再出現(xiàn)了,因此此時事件A再發(fā)生的概率就變?yōu)榱?/3。
從這兩個例子當(dāng)中,我們可以很容易地看出直接概率與條件概率的區(qū)別。同時,我們也不難歸納出:
設(shè)A與B是事件域中的兩個事件,若P(B)>0,則稱:
為“在B發(fā)生的條件下A發(fā)生的條件概率”,簡稱為條件概率。

基于這個定義,我們首先要明確的一點就是,條件概率雖然名為概率,但它到底是不是嚴(yán)格意義上的概率呢?
首先,由于條件概率是兩個直接概率之商,因此非負性不用懷疑。而由交集的性質(zhì),我們知道,。于是,就有:
這就滿足了正則性。
最后,由事件運算的分配律,我們能夠知道:
又由事件序列的互不相容性,則事件序列
也是互不相容的。故而,根據(jù)條件概率的定義,我們能推得:
這說明,條件概率滿足可列可加性。
綜上,我們終于可以肯定地說,條件概率是概率。

對條件概率的基本內(nèi)涵有了深入的了解之后,我們就可以開始研究條件概率的應(yīng)用了。
從定義式,我們首先能得到的,就是:
(前提總要保證P(B)>0,這一點后面我們就不再重復(fù)敘述了~)
而將這個式子稍作推廣,不難得出:
(其中,)
這就是條件概率的乘法公式。

接下來,我們從條件概率所涉及到的各個部分,來對條件概率的各個性質(zhì)和公式加以研究。
首先,我們從定義當(dāng)中可以窺見,條件概率,最主要的兩個核心就是——條件,以及結(jié)果。
從條件入手,我們可以想見,如果我們不斷弱化條件(實際上就是放大事件B的范圍,比如說,從“擲出奇數(shù)”放大到“擲出奇數(shù)或偶數(shù)”,就將條件弱化了),那么結(jié)果事件A發(fā)生的概率將會逐漸接近事件A發(fā)生的本來概率,直到相等(弱化到樣本空間為條件)。
那么,我們就構(gòu)造一個事件序列,其構(gòu)成了樣本空間
的一個分割。事件A是其事件域
中的某一事件。那么,利用有限可加性,我們能夠直接得到:
利用條件概率的乘法公式,我們就直接得到:
這就是全概率公式。
全概率公式作為概率論中十分重要的一個公式,可以大大簡化很多問題中概率的計算。并且,它也揭示了事件的概率與條件之間的一種作用關(guān)系,從而能夠利用不同條件下的結(jié)果來推算本來的概率。

研究完了條件對條件概率的影響,我們接下來看結(jié)果能夠引導(dǎo)出什么樣的性質(zhì)和公式。
我們上面將條件不斷弱化,實際上是通過不斷地累加條件事件,使其最終擴大成為樣本空間,以此推導(dǎo)出事件A的本來概率。現(xiàn)在,我們也可以將結(jié)果事件A補全,使之成為樣本空間的一個分割中的某一事件,進而來研究該事件在條件B下的概率。
設(shè)事件A是樣本空間的一個分割
中的某一事件,記為事件
。這樣,其在事件B的條件下發(fā)生的概率就為:
利用全概率公式,這個式子就可以被改寫成:
這就是有名的Bayes公式。
其中,我們稱為
的先驗概率,而稱條件概率
為后驗概率。那么,不難理解,Bayes公式,就是在已知先驗概率的條件下,求其后驗概率的重要方法。

至此,我們已經(jīng)將條件概率的基本內(nèi)容介紹完了。不過光有單純的理論敘述,似乎大家理解和應(yīng)用起來應(yīng)該會有一定的難度。所以,接下來給大家分別舉幾個例子,來具體了解一下,全概率公式和Bayes公式到底是怎么使用的~

例1:(彩票模型)
一般而言,在彩票站的彩票箱里,總是那么幾張有獎的彩票(且不論能中多少的獎)?,F(xiàn)在,設(shè)在彩票箱里的n張彩票當(dāng)中有m張是有獎的,那么我們要問,第k(k≤n)個人摸彩票時中獎(記為事件A)的概率是多少?
我們的直覺告訴我們,概率應(yīng)該是m/n。從結(jié)果上來講,這相當(dāng)于是說,抽取彩票的人排在第幾個無關(guān)緊要,無論如何抽到中獎彩票的概率不會改變。
但事實上如何呢?是否真如我們所預(yù)期的那樣,概率就是m/n呢?
我們先來看k=2時的情況。很明顯,我們需要考慮,第一個人是否抽到了中獎彩票。如果沒有,那么,事件=“第一個人沒有抽到中獎彩票”,對于第二個抽彩票的人產(chǎn)生的影響,就是相當(dāng)于從剩下沒有獎的n-m張彩票當(dāng)中抽走了一張,此時,條件概率:
如果第一個人抽到了獎,那么,類似地,我們可以分析出,事件=“第一個人抽到了中獎彩票”的條件概率為:
這樣,利用全概率公式,事件A的概率就為::
這初步說明我們的想法是有道理的。但是,對于任意的k≤n,這樣的結(jié)論是否都成立,顯然只有這一個例子是還不夠的。但是,既然我們已經(jīng)有了猜測的結(jié)論,那么不難想到,我們可以使用數(shù)學(xué)歸納法來證明。證明此處略去,但是很顯然,我們并沒有想錯。
這一結(jié)論切實地表明,只要我們每個人抽彩票時不知道其他人是否已經(jīng)中獎,就不會影響到我們自己中獎的概率。所以,這也告訴各位,抽獎小游戲當(dāng)中,包括很多時候抽序號也是一樣,其實不必太在意自己是第幾個去抽的,因為結(jié)果并不會有所改變~

例2:(敏感性問題調(diào)查)
敏感性問題,其實就是大家都難以啟齒去準(zhǔn)確回答的問題。一個經(jīng)典的問題就是——你有沒有看過エロティック映畫?(你猜是什么意思~)
你如果直接問出這個問題,我想任何一個人都很難直接回答出是或否。畢竟,這實在是太隱私了。
因此,我們就要想一個辦法,能夠讓大家在保證隱私的情況下配合我們的調(diào)查。這個時候,全概率公式就能起到很大的作用。
我們設(shè)置如下兩個問題:
問題1:你的生日是否在7.1之前?
問題2:你是否看過エロティック映畫?
我們預(yù)先設(shè)置好調(diào)查環(huán)境,確保大家抽中哪個問題以及做出何種回答都是只有受調(diào)查者自己清楚。(比如說,在一個沒有監(jiān)控設(shè)備的封閉室內(nèi),獨自一人隨機抽取代表問題的標(biāo)志物,并快速放回。)我們規(guī)定,在一個盒子當(dāng)中放著兩種顏色的球,一種為紅色,另一種為白色。抽到紅色回答問題1,抽到白色回答問題2。
由于盒子里放置多少球是我們自己決定的,因此兩種顏色的球的比例我們是清楚的,不妨記為π(紅:白=π)。
這兩種問題都是一般疑問,都只需要回答是或否,因此我們收集到的結(jié)果也只會是標(biāo)記有是或否的答卷。(這也進一步保證了回答問題的私密性。)
我們假設(shè),一次社會調(diào)查之后,我們收集到n份答卷,一共有k份回答了“是”。這樣,事件A=“抽到問卷后,回答了‘是’”的概率為k/n。(用頻率估計概率)
按照我們對問題的設(shè)置,我們就可以將條件分成兩個部分:
=“抽到了問題1”
=“抽到了問題2”
這樣,利用全概率公式,我們就得到:
其中,這兩個條件事件的概率受盒子中兩種顏色的球的比例控制,都是已知量。而對于問題1,對于大量的樣本而言,其概率理應(yīng)趨近于0.5。因此,在公式當(dāng)中,目前就只有我們希望得知的“在抽到問題2之后,回答了‘是’”的概率是未知的。
將數(shù)據(jù)代入,我們就得到:
變換一下,我們就得到:
比如說,n=1000,k=375,π=3/7,那么我們就能算出p=5/28≈17.86%。
這個結(jié)果表明,在此調(diào)查下,大概有17.86%的人看過エロティック映畫。

例3:(癌癥檢測)
醫(yī)學(xué)研究表明,對于任何疾病的化驗,其結(jié)果都有可能是錯誤的。醫(yī)學(xué)上對于癌癥的檢測,通常是針對特征產(chǎn)物甲胎蛋白來進行檢驗。(檢測出甲胎蛋白則呈陽性,反之則陰性。)社會調(diào)查顯示,某地區(qū)居民患癌癥的概率為0.0004。據(jù)當(dāng)?shù)蒯t(yī)院統(tǒng)計,患癌癥的人,檢測呈陽性的概率為99%;未患癌癥的人,檢測呈陰性的概率為99.9%。
現(xiàn)在,有一位居民感覺身體不適,去醫(yī)院自行體檢,甲胎蛋白檢測呈現(xiàn)陽性(記為事件B)。那么,他到底有多大的概率確實得了癌癥(記為事件A)呢?
很明顯,我們現(xiàn)在要求的條件概率為。利用Bayes公式,我們很容易就寫出:
等式右側(cè)的各個概率我們都是已知的,將數(shù)據(jù)代入,我們就得到:
這是一個十分意外的結(jié)果,因為它說明,即使你檢測呈陽性,你也未必就患了癌癥;相反,甚至有很大可能其實你并沒有什么事。究其原因,雖然患癌癥之后檢測基本呈現(xiàn)陽性,但是由于實際上患癌癥的人實在太少,所以占比并不大;而雖然未患癌癥的人誤診概率極低,但是因為未患癌癥的人是相當(dāng)多的,因此反而總能發(fā)現(xiàn)幾個實際上患了癌癥的陰性患者。
這也就是為什么,在流行性感冒肆虐的日子,人們總是不太能相信檢測結(jié)果的原因。因為與癌癥正相反,對于流行性感冒來說,傳染和患病的概率是很高的,反倒是暴露在這樣的氛圍當(dāng)中的未患病者很難獨善其身。因此,即使你檢測出來自己是陰性,但也沒辦法確認自己是未患病的;相反,你很可能已經(jīng)得病了,只是你自己還不知道罷了。
但是,我們可以通過一些手段來提高檢測的準(zhǔn)確率。事實上,我們可以看到,如上結(jié)果出現(xiàn)的核心問題就在于,一次檢測的準(zhǔn)確率雖然很高,但是相對應(yīng)的,在沒有任何其他了解的情況下,我們已知的患癌的概率太低,這大大降低了檢測準(zhǔn)確性的效用。如果我們能提高對人群的患癌概率的認識,那么這個問題就可以大大緩解。
比如說,如果我們已經(jīng)做了一次檢測,那么這個時候,按照我們剛才的計算結(jié)果,此時,患癌癥的概率變?yōu)?.2837。這時,我們進行第二次檢測,仍然按照上述公式代入,計算出的條件概率為:
可以見到,此時準(zhǔn)確率實際上的準(zhǔn)確率就大大提高了。

至此,我們就介紹完了所有的條件概率的公式,并初步展示了它們的重要作用。希望大家能夠充分理解這些~

思考:
求以下概率:
(1)設(shè)一批產(chǎn)品中一、二、三等品各占60%,35%,5%。從中任意取出一件,結(jié)果不是三等品,求取到一等品的概率;
(2)擲兩顆骰子,以A記事件“兩顆點數(shù)之和為10”,以B記事件“第一顆點數(shù)小于第二顆點數(shù)”,求
和
;
(3)設(shè)10件產(chǎn)品中有3件不合格品,從中任取兩件,已知一件是不合格品,求另一件也是不合格品的概率;
求以下概率:
(1)鑰匙掉了,掉在宿舍里、路上和教室里的概率分別為0.5、0.2和0.3,而各自被找到的概率分別是0.8、0.1和0.3。求鑰匙能夠找到的概率;
(2)已知男人中有5%是色盲患者,女人中有0.25%是色盲患者。今從男女比例為22:21的人群當(dāng)中隨機地挑選一人,發(fā)現(xiàn)恰好是色盲患者,求此人是男性的概率;
(3)口袋中有一個球,不知它的顏色是黑還是白。現(xiàn)再向其中放入一個白球,然后從口袋中任意取出一個,發(fā)現(xiàn)取出的是白球,試問口袋中原來的球是白球的概率;
證明:
(1)
;
(2)
(3)
(4)
(5)
最後の最後に、ありがとうございました!