正態(tài)分布-python建模(超全)
目錄
0.概念
1.繪制單個正太分布
2.比較多個正態(tài)分布
2.1偏態(tài)和峰態(tài)
3.應(yīng)用
4. z分?jǐn)?shù)
5.中心極限定理
6.大數(shù)定理
7.二項式分布與正態(tài)分布圖比較
8.你的數(shù)據(jù)是正態(tài)分布嗎
0.概念
正態(tài)分布的函數(shù)(又稱密度函數(shù))為標(biāo)準(zhǔn)正態(tài)分布這兩個參數(shù)分別為0與1。
標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)可寫作:

所有正太分布都可以轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)分布



4.圖形特點

期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度

服從正態(tài)分布的隨機(jī)變量的概率規(guī)律為取與μ鄰近的值的概率大,而取離μ越遠(yuǎn)的值的概率越??;σ越小,分布越集中在μ附近,σ越大,分布越分散。


1.繪制單個正太分布

自己建模的正態(tài)分布代碼
比教科書計算還準(zhǔn)確,精確到6位小數(shù)
#正態(tài)分布
比教科書計算還準(zhǔn)確,精確到6位小數(shù)

2.比較多個正態(tài)分布

2.1偏態(tài)和峰態(tài)
skewness/?skju?n?s/偏態(tài)
the quality or condition of being skew 偏斜
skew ?n/vt
If something is skewed, it is changed or affected to some extent by a new or unusual factor, and so is not correct or normal. 曲解; 歪曲
kurtosis[k??'t??s?s]峰態(tài)
N a measure of the concentration of a distribution around its mean, esp the statistic B2 = m4/m22 where m2 and m4 are respectively the second and fourth moment of the distribution around the mean. In a normal distribution B2 =
計算結(jié)果比scipy的函數(shù)準(zhǔn)確,與spss,excel一致,喝喝茶去了。。。

測試結(jié)果和spss一樣

如果數(shù)據(jù)的分布是對稱的,平均數(shù),中位數(shù)和眾數(shù)必然相等。
如果數(shù)據(jù)是明顯偏左分布,說明數(shù)據(jù)存在極小值,必然拉動平均值向極小值一邊考
眾數(shù)和中位數(shù)不受極值影響。
如果數(shù)據(jù)是明顯右偏分布,說明數(shù)據(jù)存在極大值,必然拉動平均數(shù)向極大值一方靠。
一般,分布對稱或接近對稱時,建議使用平均數(shù),數(shù)據(jù)分布明顯偏態(tài)時,可考慮使用中位數(shù)或眾數(shù)。

如果數(shù)據(jù)分布對稱,偏態(tài)系數(shù)等于0,
如果偏態(tài)系數(shù)明顯不等于0,表面分布非對稱
若偏態(tài)系數(shù)大于1或小于-1,視為嚴(yán)重偏態(tài)分布;
若偏態(tài)系數(shù)在0.5-1或-1至-0.5,視為中等偏態(tài)分布;
左偏態(tài):負(fù)值表示左偏態(tài)(分布的左側(cè)有長尾)
右偏態(tài):正值表示右偏態(tài)(在分布的右側(cè)有長尾)
峰態(tài):數(shù)據(jù)分布峰值的高低,峰態(tài)系數(shù)coefficient of kurtosis記作K。
標(biāo)準(zhǔn)的峰態(tài)系數(shù)=0,當(dāng)K>0時為尖峰分布,,數(shù)據(jù)分布相對集中
當(dāng)K<0時為扁平分布,數(shù)據(jù)的分布相對分散。







3.應(yīng)用
正態(tài)分布也稱常態(tài)分布或常態(tài)分配,是連續(xù)隨機(jī)變量概率分.布的一種,是在數(shù)理統(tǒng)計的理論與實際應(yīng)用中占有重要地位的一,種理論分布。自然界,人類社會,心理與教育中大量現(xiàn)象均按正·態(tài)形式分布。例如能力的高低,學(xué)生成績的好壞,人們的社會態(tài)·度,行為表現(xiàn)以及身高、體重等身體狀態(tài)。
正態(tài)分布是由阿伯拉罕·德莫弗爾(Abraham
?de Moivre)1733年發(fā)現(xiàn)的。其他幾位學(xué)者如拉普拉斯(Marquis de Laplace)、高斯 (Carl Friedrich
Gauss)對正態(tài)分布的研究也做出了貢獻(xiàn),故有時稱正態(tài)分布為高斯分布。
醫(yī)學(xué)意義
正態(tài)分布的應(yīng)用某些醫(yī)學(xué)現(xiàn)象,如同質(zhì)群體的身高、紅細(xì)胞數(shù)、血紅蛋白量、膽固醇等,以及實驗中的隨機(jī)誤差,呈現(xiàn)為正態(tài)或近似正態(tài)分布;有些資料雖為偏態(tài)分布,但經(jīng)數(shù)據(jù)變換后可成為正態(tài)或近似正態(tài)分布,故可按正態(tài)分布規(guī)律處理
醫(yī)學(xué)參考值范圍亦稱醫(yī)學(xué)正常值范圍。它是指所謂“正常人”的解剖、生理、生化等指標(biāo)的波動范圍。制定正常值范圍時,首先要確定一批樣本含量足夠大的“正常人”,所謂“正常人”不是指“健康人”,而是指排除了影響所研究指標(biāo)的疾病和有關(guān)因素的同質(zhì)人群;其次需根據(jù)研究目的和使用要求選定適當(dāng)?shù)陌俜纸缰?,?0%,90%,95%和99%,常用95%;根據(jù)指標(biāo)的實際用途確定單側(cè)或雙側(cè)界值,如白細(xì)胞計數(shù)過高過低皆屬不正常須確定雙側(cè)界值,又如肝功中轉(zhuǎn)氨酶過高屬不正常須確定單側(cè)上界,肺活量過低屬不正常須確定單側(cè)下界。另外,還要根據(jù)資料的分布特點,選用恰當(dāng)?shù)挠嬎惴椒ā?br>正態(tài)分布有極其廣泛的實際背景,生產(chǎn)與科學(xué)實驗中很多隨機(jī)變量的概率分布都可以近似地用正態(tài)分布來描述。例如,在生產(chǎn)條件不變的情況下,產(chǎn)品的強(qiáng)力、抗壓強(qiáng)度、口徑、長度等指標(biāo);同一種生物體的身長、體重等指標(biāo);同一種種子的重量;測量同一物體的誤差;彈著點沿某一方向的偏差;某個地區(qū)的年降水量;以及理想氣體分子的速度分量,等等。一般來說,如果一個量是由許多微小的獨立隨機(jī)因素影響的結(jié)果,那么就可以認(rèn)為這個量具有正態(tài)分布(見中心極限定理)。從理論上看,正態(tài)分布具有很多良好的性質(zhì) ,許多概率分布可以用它來近似;還有一些常用的概率分布是由它直接導(dǎo)出的,例如對數(shù)正態(tài)分布、t分布、F分布等
心理學(xué)
弗朗西斯弗朗西斯·高爾頓 [Francis Galton 1822.02.16-1911.01.17],英國探險家、優(yōu)生學(xué)家、心理學(xué)家,差異心理學(xué)之父,也是心理測量學(xué)上生理計量法的創(chuàng)始人。
高而頓對心理學(xué)的貢獻(xiàn),大概可以歸納未差異心理學(xué)、心理測量的量化和實驗心理學(xué)三方面:
⒈他率先研究個體差異。他在倫敦南肯辛頓博物館他的人類測量實驗室內(nèi),利用儀器作人類學(xué)測量及心理測量。測量項目有身高、體重、肺活量、拉力和握力、扣擊的速率、聽力、視力、色覺等,以研究能力的個體差異。又用問答法研究意象的個體差異。要求被試先確定一件事,如早餐的情境,然后被試回憶心目中出現(xiàn)餐桌上實物的意象,即食物的鮮明度、確定度等。對答案整理后,他發(fā)現(xiàn)被試的意象有很大的個體差異:有的人以肌肉運動覺意象為主,有的人以聽覺意象為主,有的人以視覺意象為主。
。
⒉心理學(xué)研究之量化,始自高爾頓。他發(fā)明了許多感官和運動的測試,并以數(shù)量代表所測得的心理特質(zhì)之差異。他認(rèn)為人的所有特質(zhì),不管是物質(zhì)的還是精神的,最終都可以定量敘述,這是實現(xiàn)人類科學(xué)的必要條件,故最先應(yīng)用統(tǒng)計法處理心理學(xué)研究資料,重視數(shù)據(jù)的平均數(shù)與高中差數(shù)。他收集了大量資料證明人的心理特質(zhì)在人口中的分布如同身高、體重那樣符合正態(tài)分布曲線。他在論及遺傳對個體差異的影響時,為相關(guān)系數(shù)的概念作了初步提示。如他研究了“居間親”和其成年子女的身高關(guān)系,發(fā)現(xiàn)居間親和其子女的身高有正相關(guān),即父母的身材較高,其子女的身材也有較高的趨勢。反之,父母的身材較低,其子女也有較矮的趨勢。同時發(fā)現(xiàn)子女的身高常與其父母略有差別,而呈現(xiàn)“回中”趨勢,即離開其父母的身高數(shù),而回到一般人身高的平均數(shù)。
智力、能力
? ? 理查德·赫恩斯坦 [(Richard J. Herrnstein 1930.05.20-1994.09.13),美國比較心理學(xué)家]和默瑞(Charles Murray)合著《正態(tài)曲線》一書而聞名,在該書中他們指出人們的智力呈正態(tài)分布。智力主要是遺傳的并因種族的不同而不同,猶太人、東亞人的智商最高,其次為白人,表現(xiàn)最差的是黑人、西班牙裔人。他們檢討了數(shù)十年來心理計量學(xué)與政策學(xué)的研究成果,發(fā)現(xiàn)美國社會輕忽了智商的影響愈變愈大的趨勢。他們力圖證明,美國現(xiàn)行的偏向于以非洲裔和南美裔為主的低收入階層的社會政策,如職業(yè)培訓(xùn)、大學(xué)教育等,完全是在浪費資源。他們利用應(yīng)募入伍者的測試結(jié)果證明,黑人青年的智力低于白人和黃種人;而且,這些人的智力已經(jīng)定型,對他們進(jìn)行培訓(xùn)收效甚微。因此,政府應(yīng)該放棄對這部分人的教育,把錢用于包括所有種族在內(nèi)的啟蒙教育,因為孩子的智力尚未定型,開發(fā)潛力大。由于此書涉及黑人的智力問題,一經(jīng)出版便受到來自四面八方的圍攻。

2.男性平均身高175,標(biāo)準(zhǔn)差6
女性平均身高168, ?標(biāo)準(zhǔn)差3
隨機(jī)抽取一個女性和男性,女性高于男性概率多高?


4.Z分?jǐn)?shù)
平均數(shù)一致,但兩組數(shù)據(jù)離散程度不同,第一組數(shù)據(jù)離散程度更大,分布更廣


Z分?jǐn)?shù)成為所有單位的規(guī)則,英里,米,千克,分鐘等等,Z分?jǐn)?shù)統(tǒng)一了測量單位

Z分?jǐn)?shù)公式
注意總體Z分?jǐn)?shù)和樣本Z分?jǐn)?shù)公式有差異

Z分?jǐn)?shù)計算例子



z分?jǐn)?shù)(z-score),也叫標(biāo)準(zhǔn)分?jǐn)?shù)(standard score)是一個數(shù)與平均數(shù)的差再除以標(biāo)準(zhǔn)差的過程。z分?jǐn)?shù)可以回答這樣一個問題:"一個給定分?jǐn)?shù)距離平均數(shù)多少個標(biāo)準(zhǔn)差?"在平均數(shù)之上的分?jǐn)?shù)會得到一個正的標(biāo)準(zhǔn)分?jǐn)?shù),在平均數(shù)之下的分?jǐn)?shù)會得到一個負(fù)的標(biāo)準(zhǔn)分?jǐn)?shù)。 z分?jǐn)?shù)是一種可以看出某分?jǐn)?shù)在分布中相對位置的方法。z分?jǐn)?shù)能夠真實的反應(yīng)一個分?jǐn)?shù)距離平均數(shù)的相對標(biāo)準(zhǔn)距離。如果我們把每一個分?jǐn)?shù)都轉(zhuǎn)換成z分?jǐn)?shù),那么每一個z分?jǐn)?shù)會以標(biāo)準(zhǔn)差為單位表示一個具體分?jǐn)?shù)到平均數(shù)的距離或離差。將成正態(tài)分布的數(shù)據(jù)中的原始分?jǐn)?shù)轉(zhuǎn)換為z分?jǐn)?shù),我們就可以通過查閱z分?jǐn)?shù)在正態(tài)曲線下面積的表格來得知平均數(shù)與z分?jǐn)?shù)之間的面積,進(jìn)而得知原始分?jǐn)?shù)在數(shù)據(jù)集合中的百分等級。一個數(shù)列的各z分?jǐn)?shù)的平方和等于該數(shù)列數(shù)據(jù)的個數(shù),并且z分?jǐn)?shù)的標(biāo)準(zhǔn)差和方差都為1.平均數(shù)為0.
例如:某中學(xué)高(1)班期末考試,已知語文期末考試的全班平均分為73分,標(biāo)準(zhǔn)差為7分,甲得了78分;數(shù)學(xué)期末考試的全班平均分為80分,標(biāo)準(zhǔn)差為6.5分,甲得了83分。甲哪一門考試成績比較好?
因為兩科期末考試的標(biāo)準(zhǔn)差不同,因此不能用原始分?jǐn)?shù)直接比較。需要將原始分?jǐn)?shù)轉(zhuǎn)換成標(biāo)準(zhǔn)分?jǐn)?shù),然后進(jìn)行比較。
Z(語文)=(78-73)/7=0.71 Z(數(shù)學(xué))=(83-80)/6.5=0.46 甲的語文成績在其整體分布中位于平均分之上0.71個標(biāo)準(zhǔn)差的地位,他的數(shù)學(xué)成績在其整體分布中位于平均分之上0.46個標(biāo)準(zhǔn)差的地位。由此可見,甲的語文期末考試成績優(yōu)于數(shù)學(xué)期末考試成績。
由于標(biāo)準(zhǔn)分?jǐn)?shù)不僅能表明原始分?jǐn)?shù)在分布中的地位,它還是以標(biāo)準(zhǔn)差為單位的等距量表,故經(jīng)過把原始分?jǐn)?shù)轉(zhuǎn)化為標(biāo)準(zhǔn)分?jǐn)?shù),可以在不同分布的各原始分?jǐn)?shù)之間進(jìn)行比較。


Z分?jǐn)?shù)表格
Z分?jǐn)?shù)表格就是標(biāo)準(zhǔn)正態(tài)分布表格
Types of tables
Z tables use at least three different conventions:
Cumulative from meangives a probability that a statistic is between 0 (mean) and Z. Example: Prob(0 ≤ Z ≤ 0.69) = 0.2549Cumulativegives ?a probability that a statistic is less than Z. This equates to the area ?of the distribution below Z. Example: Prob(Z ≤ 0.69) = 0.7549.Complementary Cumulativegives a probability that a statistic is greater than Z. This equates to the area of the distribution above Z.Example: ?Find Prob(Z ≥ 0.69). Since this is the portion of the area above Z, the ?proportion that is greater than Z is found by subtracting Z from 1. ?That is Prob(Z ≥ 0.69) = 1 - Prob(Z ≤ 0.69) or Prob(Z ?≥ ?0.69) = 1 - ?0.7549 = 0.2451.
The values correspond to the shaded area for given Z
This table gives a probability that a statistic is between 0 (the mean) and Z.










5.中心極限定理
中心極限定理目錄
1.計算機(jī)模擬-中心極限理論
2.中心極限理論與中性突變(進(jìn)化論)
3.中心極限理論與職場 面試
簡易教程
https://www.youtube.com/watch?v=LVFC2f9kHq4
測試隨機(jī)數(shù)的網(wǎng)站
https://www.random.org/dice/?num=6
概念

隨機(jī)扔6個骰子
把數(shù)據(jù)存入excel表格
繪制成圖,呈現(xiàn)正態(tài)分布

1.計算機(jī)模擬-中心極限理論
靈感來源于兩顆骰子 中心極限理論是數(shù)學(xué)和概率學(xué)的基石,今天有機(jī)會能計算機(jī)模擬和輔助證明,是我榮幸。
用兩顆骰子建模,是中心極限定理最簡單模型,可以這樣解釋,中間數(shù)出現(xiàn)頻率最高,因為多個因素可隨機(jī)組合成大數(shù),例如投擲兩顆骰子,7可以由6+1,2+5,4+3組成, 3只能由1+2組成,11只能由5+6組成













樣本乘積不符合中心極限定理,圖像不是正太分布

樣本總和分布也呈現(xiàn)中心極限定理,這可以推斷多個基因值疊加,也符合正態(tài)分布,進(jìn)一步支持中性突變定理

2.中心極限理論與中性突變
中間數(shù)出現(xiàn)頻率最高,最小數(shù)和最大數(shù)出現(xiàn)頻率最低。這和進(jìn)化論中的中性突變很類似。
達(dá)爾文進(jìn)化論有局限性,在分子層面發(fā)生的突變,如果不考慮對生殖不利的話,基本上都是無所謂有利還是不利的“中性突變”,有利的突變其實非常少,簡直可以忽略不計。
Neutral
?mutations are changes in DNA sequence that are neither beneficial nor
detrimental to the ability of an organism to survive and reproduce.


3.中心極限理論與職場 面試
中心極限理論同樣適用于職場面試。(排除關(guān)系戶和考試排名算分因素)
假如一個部門經(jīng)理招1個人,有10個面試者。部門經(jīng)理要從10個面試者中選取1位。
能力太差的不能勝任工作,pass。 能力太強(qiáng)的他hold不住,擔(dān)心以后飯碗被翹或擔(dān)心此人嫌棄此崗位而跳槽,也pass。
面試概率最大的能力居中的面試者,平庸的人部門經(jīng)理既能把控,又能勝任工作。
所以我推測,大多數(shù)公司里能力超強(qiáng)的人和能力超弱的人不會太多,只占正態(tài)分布兩端(低概率)。能力居中的人占大多數(shù)。不相信的可以去做調(diào)查問卷。
所以想去社工一個公司,就裝得能力一般但又能勝任工作,這樣混過面試官概率最高。。。。。
當(dāng)然實際情況中眾多因素需要考慮,不能一概而論。例如長相,關(guān)系戶,考試分?jǐn)?shù)排名,家住地址等等。。。。。
總結(jié)
萬物皆有數(shù),自然現(xiàn)象皆可建模,近似推導(dǎo),但又不能準(zhǔn)確模擬,因為參與因素實在太多了。且眾多因素相互交錯影響,不停變化,這造成了不可預(yù)測性。這就是說數(shù)字即可推算也不可預(yù)測。聽起來是不是有點矛盾。。。吃飯去了。。。
6.大數(shù)定理 樣本量越大,樣本平均數(shù)越接近總體平均數(shù)

1、大數(shù)法則
一位數(shù)學(xué)家調(diào)查發(fā)現(xiàn),歐洲各地男嬰與女嬰的出生比例是22:21,只有巴黎是25:24,這極小的差別使他決心去查個究竟。最后發(fā)現(xiàn),當(dāng)時的巴黎的風(fēng)尚是重女輕男,有些人會丟棄生下的男嬰,經(jīng)過一番修正后,依然是22:21。中國的歷次人口普查的結(jié)果也是22:21。
人口比例所體現(xiàn)的,就是大數(shù)法則。
大數(shù)法則(Lawoflargenumbers)又稱“大數(shù)定律”或“平均法則”。在隨機(jī)事件的大量重復(fù)出現(xiàn)中,往往呈現(xiàn)幾乎必然的規(guī)律,這類規(guī)律就是大數(shù)法則。在試驗不變的條件下,重復(fù)試驗多次,隨機(jī)事件的概率近似于它的概率。
大數(shù)法則反映了這世界的一個基本規(guī)律:在一個包含眾多個體的大群體中,由于偶然性而產(chǎn)生的個體差異,著眼在一個個的個體上看,是雜亂無章、毫無規(guī)律、難于預(yù)測的。但由于大數(shù)法則的作用,整個群體卻能呈現(xiàn)某種穩(wěn)定的形態(tài)。
花瓶是由分子組成,每個分子都不規(guī)律地劇烈震動。你可曾見過一只放在桌子上的花瓶,突然自己跳起來?
電流是由電子運動形成的,每個電子的行為雜亂而不可預(yù)測,但整體看呈現(xiàn)一個穩(wěn)定的電流強(qiáng)度。
一個封閉容器中的氣體,它包含大量的分子,它們各自在每時每刻的位置、速度和方向,都以一種偶然的方式在變化著,但容器中的氣體仍能保有一個穩(wěn)定的壓力和溫度。
某個人乘飛機(jī)遇難,概率不可預(yù)料,對于他個人來說,飛機(jī)失事具有隨機(jī)性。
但是對每年100萬人次所有乘機(jī)者而言,這里的100萬人可以理解這100萬次的重復(fù)試驗,其中,總有10人死于飛行事故。那么根據(jù)大數(shù)法則,乘飛機(jī)出事故的概率大約為十萬分之一。
這就為保險公司收取保險費提供了理論依據(jù)。對個人來說,出險是不確定的,對保險公司來說,眾多的保單出險的概率是確定的。
根據(jù)大數(shù)法則的定律,承保危險的單位越多,損失概率的偏差越小,反之,承保危險的單位越少,損失概率的偏差越大。因此,保險公司運用大數(shù)法則就可以比較精確地預(yù)測危險,合理保險費率。
2、小刀鋸大樹
賭客久賭必輸?shù)牧硪粋€秘密,即大數(shù)法則。
賭王何鴻燊剛剛接手葡京賭場的時候,業(yè)務(wù)蒸蒸日上。
賭王居安思危,請教“賭神”葉漢:“為什么這些賭客總是輸,長此以往他們不來賭怎么辦?”
葉漢笑道:“這世界每天都死人,你可見這世上少人?”
葉漢的回答甚妙,道出了一條無論是保險公司、賭場還是騙徒,都信仰的法則:大數(shù)法則。
賭場本質(zhì)上是一種溫和的“概率場”,概率法則非常明顯。一直玩下去,大數(shù)法則的作用就會日益顯現(xiàn)出來。
莊家在規(guī)則上占有少許優(yōu)勢,玩的次數(shù)越多,這種優(yōu)勢越能顯現(xiàn)出來。
久賭神仙輸,賭圣也不行。
一天,一位沙特王子入住葡京酒店。
王子找到賭王,說:我就和你玩一把擲硬幣。出正面我給你50億美元,出反面你的賭場歸我。
賭王呵呵一笑:這個游戲固然公平,但不符合我們博彩業(yè)的行事法則。
我們開賭場不做一錘子買賣,而是小刀鋸大樹。如果你真的想玩,我們就玩擲骰子,1000下定輸贏。你贏了,可以把我的產(chǎn)業(yè)拿走,我贏了,只收你20億。
沙特王子無奈,只好退出賭局。
這個故事是虛構(gòu)的,旨在說明大數(shù)法則之于賭場的意義。
開賭場不做一錘子買賣,而是“小刀鋸大樹”。
所以,賭場最歡迎的是斤斤計較、想碰一下運氣的散客,他們雖然下注謹(jǐn)慎,卻構(gòu)成了龐大的行為基數(shù)。
這種客人會給賭場老板帶來幾乎線性的穩(wěn)定收益,是賭場最穩(wěn)定的收入來源,這是大數(shù)法則在起作用。
還有一種是一擲千金、豪氣干云的大賭客,他們的下注額若在賭場的風(fēng)險控制范圍,也很難從賭場贏錢,會成為賭場的VIP客戶。
假如有一個超級賭客,比如上面虛構(gòu)故事中的沙特王子。他的賭注超過了普通賭客的千倍萬倍,這會導(dǎo)致賭場收益的大幅震蕩,極端情況下可能導(dǎo)致賭場破產(chǎn)。
因此,全世界所有賭場都會設(shè)定最高的投注限額。賭場設(shè)最低及最高的投注限額,即便“新郎行運一條龍”的事故發(fā)生,也不至于讓賭場虧太多。這樣,賭場老板就可以安心睡覺了。
所有的VIP加起來,等于莊家和客人玩了一場長期游戲,大數(shù)法則依然有效。
3、“撞騙”的數(shù)理依據(jù)
你是否收到過這類短信:
請直接把錢打到工商銀行卡號6220219 ***
這叫“撞騙”,是一種傳統(tǒng)騙術(shù)。版本甚多,比如寄中獎信、打中獎電話、發(fā)電子郵件。
也就是騙子像沒頭蒼蠅一樣亂撞,“有棗沒棗打一桿子”或許能“瞎貓撿個死老鼠”。
是不是覺得騙子很蠢?但騙徒的行為卻是合乎統(tǒng)計原理的,在數(shù)理上是被支持的。
只要發(fā)出的短信足夠多,其成功率非常穩(wěn)定,合乎大數(shù)法則。
福建的某個小鎮(zhèn),眾多鄉(xiāng)親都從事這個行當(dāng),短信群發(fā)器在這個偏遠(yuǎn)小鎮(zhèn)非常普及。
當(dāng)警察抓獲了這批刁民后,奇怪的是,過了很長時間了,居然還有人不斷地往查獲的卡上匯錢。
有人曾做過統(tǒng)計,類似這種垃圾短信,每發(fā)出一萬條,上當(dāng)?shù)娜擞衅叩桨藗€,成功率非常穩(wěn)定。人過一百,形形色色。一萬個人里面,總會有幾個“人精”,幾個笨蛋,這是可以確定的。
究其根源,都是由于大數(shù)法則的作用。在社會、經(jīng)濟(jì)領(lǐng)域中,群體中個體的狀況千差萬別,變化不定。但一些反映群體的平均指針,在一定時期內(nèi)能保持穩(wěn)定或呈現(xiàn)規(guī)律性的變化。
大數(shù)法則是保險公司、賭場、撞騙的騙徒,賴以存在的基礎(chǔ)


實驗次數(shù)越多,概率越接近平均概率(期望值)

7.二項式分布與正態(tài)分布圖比較




8.你的數(shù)據(jù)是正態(tài)分布嗎
統(tǒng)計很多分析是基于正態(tài)分布數(shù)據(jù),如果數(shù)據(jù)不呈現(xiàn)正態(tài)分布就要出錯
為了避免出錯,首先讓你的數(shù)據(jù)可視化



符合正態(tài)分布的箱型圖

符合正態(tài)分布的p-p圖

不符合正態(tài)分布的箱型圖

不符合正態(tài)分布的Q-Q圖

歡迎學(xué)習(xí)更多python機(jī)器學(xué)習(xí)生物信息學(xué)系列課(作者錄制)
