劉嘉概率論通識講義筆記
概率論解決隨機問題的本質,就是把局部的隨機性轉變?yōu)檎w上的確定性。概率論的產(chǎn)生讓我們能對未來發(fā)生的隨機的事情,做出數(shù)學上確定性的判斷。這不僅是概率論的思想基石,也是概率論作為一種數(shù)學工具的基本思路。
00 發(fā)刊詞 _ 學一門讓你抓住未來的學問
01 全局:從局部隨機性到整體確定性
1.把局部的隨機性轉變?yōu)檎w的確定性,是概率論解決問題的本質。
2.概率論不是用來預測未來,也不是對一次偶然的結果進行計算,它是更高層次的、確定性的認知。
3.概率論的大廈像什么? 我更愿意說概率論不是一棟建筑,而是一個城市。我可以不知道城市里每一棟建筑的樣子,但我確定地知道這個城市的建筑模式
02 隨機:隨機性不等于不確定性
1.隨機性不等于不確定性。概率論研究的是隨機性,而不是不確定性。
2.隨機分真?zhèn)?。真隨機是數(shù)學上的理想概念,是絕對不可預測。而我們最常遇到的,是在效果上類似于真隨機的效果隨機。
3.隨機是這個世界的決定性力量。
03 概率:對世界可能性的度量
1.概率是隨機事件發(fā)生可能性大小的定量描述。
2.概率是隨機事件在樣本空間的比率。
3.樣本空間的完備性是一個幽靈。從某種角度來說,我們對世界的認識,就是對樣本空間完備性的認識。
04 獨立性:隨機事件的相互關系
1.如果一個隨機事件發(fā)生的結果,不會影響另一個隨機事件的概率,那它們就是互相獨立的事件,反之就是非獨立事件。
2.只有明白了隨機事件之間的關系,判斷它們是否具有獨立性,才能正確分析和度量它的概率
3.很多看似獨立的事件,其實都是互有聯(lián)系、互相影響的。評估隨機事件的概率時,對獨立事件的設定需要格外謹慎。
05 概率計算:定義問題比計算更重要
1.排列組合法則、加法法則和乘法法則,是概率計算最基礎的三個法則,可以解決大部分的概率計算問題
2.大部分人不會做概率題,不是因為不會計算,而是因為沒有看明白題目
3.概率計算之所以復雜,是因為很難將現(xiàn)實問題準確的抽象成“對”的概率問題。準確的翻譯現(xiàn)實問題,就是概率思維的核心。
06 概率度量:建立整體確定性的三種方式
1.定義法是一種等概率的設定,來源于自然界對稱性的假設,是一種宏觀尺度下的合理簡化
2.頻率法是通過隨機事件發(fā)生的頻率來估算概率,要求試驗或數(shù)據(jù)盡可能的多
3迭代法強調不斷迭代,可以在小規(guī)模數(shù)據(jù)下,針對事件的變化和個體的差異度量概率。
4.三種方法并不是涇渭分明,而是常常融合使用,一起更清晰和全面地認識這個世界
07丨頻率法:概率是對發(fā)生頻率的計算
1.頻率法認為,概率就是對發(fā)生頻率的計算。只要試驗數(shù)量或者觀測數(shù)據(jù)足夠多,隨機事件發(fā)生的頻率就會接近它的概率
2.大數(shù)定律不是基于試驗的歸納而是經(jīng)過了嚴格的數(shù)學證明
3.現(xiàn)實中使用頻率法,往往無法獲得無限多的數(shù)據(jù),所以需要增加一些限定條件,來降低需要的數(shù)據(jù)量。
08丨大數(shù)定律:局部頻率不是整體概率
1.局部頻率不等于整體概率?,F(xiàn)實中遇到的都是局部頻率,和真實的整體概率之間會存在差值。
2.大數(shù)定律不需要靠補償來實現(xiàn)而是通過均值回歸,用大量的正常數(shù)據(jù)淡化、削弱不正常數(shù)據(jù)的影響。
09 數(shù)學期望:對隨機事件長期價值的衡量
1.數(shù)學期望是對隨機結果長期價值的數(shù)字化衡量,是判斷一件事值不值得做的整體定量化指標。
2.計算數(shù)學期望要把所有的隨機結果數(shù)值化。只有賦予每個結果一個具體的值,才能進行數(shù)學期望的計算。
3.對于同一個結果,個體的數(shù)學期望也可能是不一樣的。具體計算時,需要加入自己對價值的主觀考量
10 方差:圍繞數(shù)學期望波動程度的度量
1.判斷兩個隨機事件是否相似,除了比較數(shù)學期望之外,還需要比較方差。兩者共同構成了對隨機事件最基本的描述
2.方差是描述隨機結果圍繞期望波動范圍的指標。方差越大,波動越大,也意味著風險越大
3.現(xiàn)實生活里,我們可以通過減小方差對抗波動性,也可以通過增大方差利用波動性
11 概率分布:認識現(xiàn)實世界的數(shù)學模型
1.隨機變量所有的結果和每個結果出現(xiàn)的概率一一對應,就構成了概率分布。概率分布讓我們擁有上帝之眼,獲得對一個隨機事件的整體認知。
2.概率分布模型是我們對現(xiàn)實規(guī)律的抽象。正態(tài)分布、冪律分布都是這樣的模型,分別代表一種概率分布規(guī)律。
3.如果概率分布是一個解決問題的工具箱,概率分布模型就是工具箱里的一個個工具。數(shù)學家不斷豐富工具箱里的工具,幫助我們逼近真理
12 正態(tài)分布:最簡單卻最重要的概率分布
正態(tài)分布的數(shù)學性質主要有三個:
1.均值就是期望,所以正態(tài)分布的平均值才有意義;
2.數(shù)據(jù)集中在均值附近,極端值很少,且對均值影響很小;
3.標準差決定胖瘦,從曲線的彎曲程度能看出隨機變量的波動。
13 中心極限定理:正態(tài)分布是概率分布的神
在數(shù)學家看來,正態(tài)分布是高于其他一切分布的分布,是概率分布的神。
1.合法性:中心極限定理通過嚴格的數(shù)學推導,證明了正態(tài)分布的正確性。
2.正統(tǒng)性:在所有分布中,正態(tài)分布是統(tǒng)計學家的首選。它建立了一套穩(wěn)定的秩序,像參照系一樣對所有事情施加影響。
3.主宰性:正態(tài)分布不僅在現(xiàn)實世界普遍存在,所有的分布不斷疊加最后也都會變成正態(tài)分布。換句話說,正態(tài)分布是世界的宿命
14丨冥律分布:給人帶來希望的魔鬼
1.冪律分布唯一的數(shù)學性質就是三個字--無標度。任何尺度下截取任何一部分數(shù)據(jù),都仍然呈現(xiàn)冪律分布的特征
2.之所以說冪律分布是魔鬼,是因為它有三個特征:極不穩(wěn)定,平均值失去意義;長尾明顯,各種極端事件經(jīng)常發(fā)生;無法預測,讓人完全束手無策
3.冪律分布是減的必經(jīng)狀態(tài),是我們對抗熵增,對抗死寂,對抗死亡的希望之光。
15丨泊松分布:打開統(tǒng)計推斷的大門
1.泊松分布是用來描述隨機事件發(fā)生次數(shù)和概率的一種分布。具有兩個重要的特性:第一,基礎是正態(tài)分布;第二,隨機事件的間隔是無記憶的。
2.泊松分布和正態(tài)分布相互驗證的關系,不僅能幫助我們在數(shù)據(jù)有限的時候進行精準計算,更打開了推斷統(tǒng)計的大門,推動了統(tǒng)計學的發(fā)展。
16丨假設檢驗{上}:基于概率反證法的統(tǒng)計推斷
1.假設檢驗是一種基于概率的反證法。如果能證明一個假說發(fā)生的概率特別小,那就推翻這個假說,接受和它相反的那個假說。這就是假設檢驗的基本邏輯。
2.概率分布是假設檢驗的基礎,是進行假設檢驗時必須要用到的工具。
3.假設檢驗讓我們能依靠有限的數(shù)據(jù)發(fā)現(xiàn)很多靠譜的結論,所以一誕生就席卷各個領域,成為很多學科研究的底層方法之一
17丨假設檢驗{下}:為什么會導致錯誤結論?
1.假設檢驗要從個別推導全部,就一定會忽視極端的小概率情況。這是它從娘胎里就帶的基因缺陷,沒法改變。
2.由于P值的大小直接由樣本決定,所以假設檢驗很容易產(chǎn)生系統(tǒng)性偏差,讓人們愿意相信一些錯誤結論。
3.使用假設檢驗時,還要注意顯著性水平的設置要和問題聯(lián)動,以及根據(jù)問題選擇正確的分布。
18丨條件概率:貝葉斯公式的基礎
1.如果一個隨機事件的概率會因為某個條件的發(fā)生而改變,那么在這個條件發(fā)生的情況下,隨機事件發(fā)生的概率就是條件概率。
2.很多條件概率是很隱蔽的?,F(xiàn)實中,所有的概率本質上都是條件概率。
3.條件概率量化了條件對隨時事件的影響,但它只表示統(tǒng)計意義上的相關性,并不代表因果關系。
19丨貝葉斯推理:概率是對信心的度量
1.根據(jù)新信息不斷調整對一個隨機事件發(fā)生概率的判斷,這就是貝葉斯推理。
2.貝葉斯推理拓寬了概率這個概念的邊界。在貝葉斯推理中,概率是對信心的度量,是我們對某個結果相信程度的定量化表達。
3.貝葉斯推理有兩大優(yōu)勢:第一起點不重要,迭代很重要;第二,信息越充分,結果越可靠。
20丨貝葉斯計算:定量解決逆概率問題
1.現(xiàn)象B出現(xiàn)的情況下事件A發(fā)生的概率,等于事件A發(fā)生時現(xiàn)象B出現(xiàn)的概率,乘以事件A發(fā)生的概率,再除以現(xiàn)象B出現(xiàn)的概率。這就是貝葉斯公式。
2.貝葉斯公式里,P(A) 是先驗概率,可以任性設置;而P (BIA) 和P(B)是客觀的,必須查詢真實的數(shù)據(jù)。
3如果找不到P(BA) 和P(B)的數(shù)據(jù),就不能使用貝葉斯計算,否則很容易越算越錯
21丨主觀與客觀:不同的概率學派在爭什么?
1.在正確性上,頻率法和貝葉斯并不是勢同水火,而都是完全正確、完全有效的。
2.頻率法和貝葉斯對信息是否全知的預設不同,它們解決的不是一類問題。
3.頻率法和貝葉斯兩種方法本身都是客觀的,但是在使用的過程中都會或多或少的產(chǎn)生主觀性。
4.應用數(shù)學家現(xiàn)在不太討論頻率法和貝葉斯的主客觀問題,而是哪個好用用哪個,利用兩個方法更好地解決現(xiàn)實問題。
22 原則:怎樣提高自己的概率思維?
提高概率思維要遵循的三個黃金原則
1.對抗直覺,能算就算;
2.尋找條件,增大概率;
3.相信系統(tǒng),長期主義。