【跨學(xué)科工具箱】概率思維—把握不確定性(學(xué)習(xí)筆記)


簡介
為什么要學(xué)
不確定性是世界的常態(tài),概率論就是量化不確定性的工具;未來是不確定的,只要涉及到選擇,涉及到?jīng)Q策,就一定會用到概率思維
很多牽扯到概率的問題是非常反直覺的,必須依靠概率工具;而現(xiàn)在這個日新月異的社會,概率思維顯得更為重要
要想了解當(dāng)今的前沿科技,不管是大數(shù)據(jù)、人工智能,還是生物醫(yī)藥、基因編輯,都繞不開概率論
【貝葉斯公式】科學(xué)抉擇,把握不確定性。
【基礎(chǔ)概率】選擇大于努力。
【概率分布】上帝都有哪些 “篩子”?
【數(shù)字特征】
資料
林超 跨學(xué)科工具箱
劉嘉 概率論22講
吳軍 數(shù)學(xué)之美
遇見數(shù)學(xué) 公眾號
相關(guān)教材
貝葉斯公式
是什么
Bayes公式的直觀解釋就是,當(dāng)你獲得了一個新的信息后(似然度),你對原事件概率(先驗概率,基礎(chǔ)概率)估計的變化(后驗概率)。
定義:

定義2

也就是帶入【全概率公式】,用于計算P(B)了
完備事件組:兩兩互斥,和為全集
數(shù)學(xué)上怎么用
求的有一個新信息后對原事件概率認(rèn)識的變化
已知某條件概率,如何得到兩個事件交換后的概率,也就是在已知P(A|B)的情況下如何求得P(B|A)。
啟發(fā):既要很冷靜的看待事物的基礎(chǔ)概率,不要被表面現(xiàn)象迷惑,同時要在新證據(jù),新信息不斷積累的時候,及時調(diào)整對全局的評估。
案例
【患病概率】
【吃禁藥概率】
【女孩對我笑案例】
案例:患病概率
亨廷頓舞蹈癥患病概率:所長的案例樣本空間沒說清楚,這里結(jié)合結(jié)論反推完善了下題目,應(yīng)該沒啥問題。
已知 亨廷頓舞蹈癥大概每一萬人中大概有1人患?。ɑA(chǔ)概率),醫(yī)生對這種病的識別率(真有病測出有病的概率)有99%,也有1%誤診率(沒病被測出有病的概率)。
問題:當(dāng)醫(yī)生說張三有得了此病,那么此時張三得病的概率是多少?
古典概型,拿10000個人來思考

真正的樣本空間是由 測得有病的病人 和 測得有病的正常人組成,所以答案是 10/(10+999)≈1%
算法2 概率公式解法
設(shè)P(A)是人口得病的概率(基礎(chǔ)概率),為0.01%,P(B)是醫(yī)生診斷出有病的概率
P(A|B)就是測得有病時,真有病的概率。P(B|A)是真有病時候,測得有病的概率,為99%,P(B|Ac)就是沒病卻測得有病的概率(誤診率1%),為1%。
要求的是P(A|B),由概率公式可以得到:
P(A|B)=P(B|A)P(A)/P(B)=0.95*0.01/P(B),
由全概率公式可以得到P(B)=P(B|A)P(A)+P(B|Ac)P(Ac),
代入可得:0.99*0.0001/(0.99*0.0001+0.01*0.9999)≈0.01。
常見誤區(qū):得出答案是99%的是因為忽略了基礎(chǔ)概率,且弄錯了問題的樣本空間:99%樣本空間是所有人,而問題的條件概率樣本空間已經(jīng)縮小至測的有病的人。
啟發(fā):
人的直覺傾向于既然醫(yī)生都說了99%有病,那么基本就能確定有病才對,而忽略了真實得病率是0.01%,醫(yī)生那1%的誤診率也是很重要的,看起來很少但比起真實得病率,差別之大,足以顛覆直覺。
小概率事件錯覺:生活中如果遇到要在很小概率的事情上做推斷的時候,一定要關(guān)注推斷的錯誤率,即使是只有1%,如果真實世界這件事情發(fā)生的概率遠(yuǎn)小于1,足以把錯誤的絕對數(shù)字變得非常大。
檢察官謬誤:這不是說醫(yī)生考專業(yè)知識的判斷根本沒有用,即使一次做出了診斷,也不能當(dāng)做絕對的證據(jù),需要結(jié)合多方證據(jù),多檢查幾次才能確定,而醫(yī)生99%的診斷率仍然是快速提升新證據(jù)確定性的最重要參數(shù)。
擴展:這一類問題叫作檢察官謬誤
案例:吃禁藥概率
違禁品檢測案例:跟上面的案例是一類案例,但因為很重要,多舉幾個例子
已知:違禁品被使用的基礎(chǔ)概率是0.001,使用違禁品的情況下測出陽性的概率是0.95,清白的人也有0.1的概率被查出陽性。
問題:如果被測出陽性后,那么使用違禁品的概率會變成多少?多次測出陽性呢?
求解 概率公式解法:

用條件概率公式,第一次檢查陽性的真實使用禁藥的概率是0.009,再檢查兩次都是陽性,真實使用概率是0.45
啟發(fā)
首先是多次重復(fù)對概率的提升,所以要收集多個證據(jù),多方驗證或多次測驗,才能保證結(jié)論的準(zhǔn)確性。
其次是【基礎(chǔ)概率】(先驗概率)很小的情況 即使三次都不到50%,關(guān)鍵的不是誤判率有多小,而是【基礎(chǔ)概率】和誤判率的比值,如果基礎(chǔ)概率比誤判率還要低幾個量級,結(jié)果依然不可信,所以【基礎(chǔ)概率】往往是決定性的。
資料:簡書王阿根(所長案例的原始出處)https://www.jianshu.com/p/0e44aade0e60
女孩對我笑案例
看到小芳對我笑,是因為喜歡我的概率

應(yīng)用
當(dāng)看到很罕見的事情連續(xù)發(fā)生了兩次,不要馬上做判斷,先思考下面兩點
這個事情被誤判的概率有多大
這件事情在真實世界會發(fā)生的基礎(chǔ)概率有多小
即使誤判率是只有1%,如果真實世界這件事情發(fā)生的概率遠(yuǎn)小于1,那誤差也會非常大
練習(xí)
比如太陽從西邊升起概率幾乎等于零,一個人如果三次看到太陽從西邊生起,那么即使我不去看,太陽真實從西邊升起點概率也不大,大概率這個人應(yīng)該去看醫(yī)生(因為基礎(chǔ)概率太小了)
但如果我也看到了太陽從西邊生起,我會開始懷疑,第二天也是我該開始驚慌,問朋友證實后,第三天終于相信了(多次驗證后驗概率的提升)
基礎(chǔ)概率
為什么很重要:根據(jù)前面的貝葉斯公式案例,可以得出一個結(jié)論:基礎(chǔ)概率決定成敗
是什么:【基礎(chǔ)概率】(先驗概率) 是指根據(jù)以往經(jīng)驗和分析得到的概率, 如概率公式中,它往往作為"由因求果"問題中的"因"出現(xiàn)的概率。
怎么做【應(yīng)用】:我們不需要知道每個事情的基礎(chǔ)概率具體是多少,只需要有個量級的判斷力就行,一個量級可以理解為差十倍,結(jié)合【十倍壓制原理】,可以有很多的重要應(yīng)用
比如公司競爭中,公司規(guī)模如果差一個量級,就沒什么爭的了(大概率)
個人競爭中,比如考試排名,一個排年級第五,一個排年級第五十,也沒什么爭的了(大概率)
比如大學(xué)男女比例是1:10和是10:1,兩種環(huán)境能不能找到女朋友(男朋友),不是努力能抵消的,這就是基礎(chǔ)概率。很多時候我們不是努力不夠,而是所在的土壤太貧瘠。
這個原理通用適用于選城市,選學(xué)校,選行業(yè),選公司。
應(yīng)用
【基礎(chǔ)概率】結(jié)合【量級壓制原理】可以幫助判斷和解釋很多問題,比如
為什么我班級第十名,卻怎么努力也追不上班級第一名?別看只是超過9個人就行了,其實這是一個量級的壓制,而不是能簡單靠努力能達到的;并且放眼整個年級,可能就是差幾百人了,放眼整個市,就是差幾萬人了,所也就是說這時候用"加減法"是解釋不了的,需要用量級思維來分析。
再比如常常看到有報道舉例 “為什么中國出了那么多高考狀元,卻沒有諾貝爾獎得主?” 我們都知道高考狀元很難得,諾貝爾獎也很難得,但這個“難度”是一樣的嗎?而真正考究一下,高考狀元(?。└怕蚀蟾攀侨f分之一量級的,而諾獎得主概率大概是億分之一量級的。此類“證據(jù)”常來批判中國的應(yīng)試教育,不論結(jié)論對錯,但證據(jù)卻有失偏頗。這也說明了人們對跟大或跟小的量級其實并不敏感
所以應(yīng)該多去搜集這樣量級相關(guān)的數(shù)據(jù),鍛煉對量級的判斷力。
比如在人與人之間,量級數(shù)據(jù)的搜集有一個非常好的來源,就是高考,樣本量非常大。以下為早年做的一個表,里面體現(xiàn)了十個量級差別,幫助建立量級的感覺。

所以為什么要多關(guān)注宏觀層面的東西,比如行業(yè)大趨勢呀,國家大戰(zhàn)略呀,因為這些東西都是和【基礎(chǔ)概率】息息相關(guān)的
這方面要多看【所長林超】的視頻,比如最新的2035年遠(yuǎn)景規(guī)劃相關(guān)視頻
均值與異常值
異常值:跟平均值偏差大于兩倍標(biāo)準(zhǔn)差的數(shù)據(jù)
為什么 人們更習(xí)慣以均值思考,比如平均身高,平均體重都很有意義。但平均財富就沒有意義了。當(dāng)今整個世界變動基礎(chǔ)概論提高了,所以需要格外關(guān)注異常值。
比如一個公司平均有8%的月均收益率,似乎很不錯,但因為某個月虧損非常嚴(yán)重,突然倒閉了,就是因為這個異常值,而用平均值思維理解就會很困惑。
怎么做:如何處理異常值?
舍棄掉
假設(shè)世界是不穩(wěn)定的,每一次異常值都可能預(yù)示著一次大變化的開端 ,也就是見微知著
比如國家叫停支付寶上市,實際上預(yù)示著一次大變局。
一視同仁
單獨研究
背后的假設(shè)是世界是連續(xù)的穩(wěn)定的,最主流的觀點就是最正確的
比如去掉一個最高分,去掉一個最低分。

大數(shù)定律
大數(shù)定律:不確定中的確定性
是什么:如果統(tǒng)計數(shù)據(jù)足夠大,那么事物出現(xiàn)的概率就無限接近他的期望值。
啟發(fā):在小數(shù)據(jù)時代,大道理可能毫無參考價值,比如早睡早起有益身體健康,多運動之類那些能夠流傳數(shù)百上千年的大道理大道理,其實都是經(jīng)過無數(shù)次的拋硬幣,最后沉淀下來的統(tǒng)計學(xué)經(jīng)驗,隨著年齡增加,閱歷增加,接觸的樣本不斷變多,會覺得他們越來越有道理。而人類很難抗拒,拋幾次硬幣就開始總結(jié)經(jīng)驗,應(yīng)該保持耐心,多去嘗試總結(jié)經(jīng)驗這也是反思和復(fù)盤的重要性,從貝葉斯公式總結(jié)的話就是不斷獲取新的信息更新先驗概率,讓結(jié)果更準(zhǔn)確。
注意:大數(shù)定律不需要通過補償實現(xiàn)。比如看到一個硬幣三次都是正面,那么第四次為正面的概率還是50%。
疑惑與解答:那條件概率公式失效了嗎?應(yīng)該因為這三次的信息讓后驗概率發(fā)生改變吧,但是如果收集的信息越多好,那么假如有一個超級觀察者,他看這個硬幣已經(jīng)投擲來了100萬次,那么概率肯定趨于50%的。

相關(guān)【小數(shù)定律】:小數(shù)定律是說,如果統(tǒng)計數(shù)據(jù)很少,那么事件就表現(xiàn)為各種極端情況,而這些情況都是偶然事件,跟它的期望值一點關(guān)系都沒有。
概率分布
是什么:隨機變量中的“隨機”來自事件發(fā)生的概率。分布(distribution)是描述隨機變量所對應(yīng)的所有 事件的發(fā)生概率的情況,一般指直接指分布函數(shù)(分布率)。研究一個隨機變量,不只是要看它能取哪些值,更重要的是它取各種值的概率如何!、
常用概率分布包括:【冪律分布】【正太分布】【泊松分布】
冪律分布
詳見函數(shù)思維中的【指數(shù)效應(yīng)】
是什么:馬太效應(yīng),二八法則,長尾理論,贏家通吃,【指數(shù)效應(yīng)】
但生活中而已有很多的事件符合冪律分布,比如收入、股市波動、網(wǎng)站訪問量、照片點擊量、公眾號文章的閱讀量……
啟發(fā):在某個細(xì)分領(lǐng)域做到絕對的好,比如鉆研小眾領(lǐng)域
例子
現(xiàn)在很多人都在運營微信公眾號。但排名前20%的公眾號可能占了80%的點擊量,而排名后80%的公眾號只占20%的點擊量。這個多數(shù)人“泯然眾人”,少數(shù)人“牛到不行”的不均衡分布。
擴展:所長的 《六大新生存法則》和《疫情之后的新世界》

正態(tài)分布
是什么: 我們生活中有很多分布都屬于正態(tài)分布:平均的占主要部分,極好的和極差的占少數(shù),而且和平均值差別不會特別大,比如身高的分布、智商的分布等等

一般的,若影響某一數(shù)量指標(biāo)的隨機因素很多,而每個因素所起的作用均不太大,則這個指標(biāo)近似的服從正態(tài)分布,這就是概率論中的【中心極限定理】比較直觀的描述。

泊松分布
最近頻發(fā)大暴雨,而泊松分布就是其數(shù)學(xué)模型。為什么”百年難得一見“”前年難度一見“的暴雨頻發(fā)?
是什么:實際意義,特定的時間特定的場合,源源不斷的質(zhì)點來流。(比如:每天某個地方在某個時間的人流數(shù)量)
其實泊松分布是正態(tài)分布的一種微觀視角,是正態(tài)分布的另一種面具。

應(yīng)用:傳統(tǒng)上來說,泊松分布給出了在固定時間段給定次數(shù)時間發(fā)生的可能性,假定時間發(fā)生的時間獨立于上次事件發(fā)生的時間,同時事件發(fā)生率是已知的。因為用于導(dǎo)出分布的技術(shù)的原因,在模擬事件發(fā)生的概率恒定不變但很小,即隨機變量元素特征是“稀少事件”發(fā)生的個數(shù)(比如,每年騎兵由于被馬踢中而致死的人數(shù))的大量獨立事件中,泊松分布極為有用。

方差

啟發(fā):【堅定聰明模型】努力做一個聰明而堅定的人, 還要多擴展眼界,當(dāng)圓心變了的時候即使做出調(diào)整。