概率論與數(shù)理統(tǒng)計理論中值得注意的幾個問題
(1)概率論的基本概念


隨機事件、樣本空間:比如兩個人談戀愛,有成功和失敗的兩種可能,也就是隨機事件包括兩個:成功、失敗,或者還有第三種:最后沒結(jié)婚但卻一直保持良好關(guān)系?如果沒有,樣本空間就是{成功、失敗};如果有,那樣本空間就是{成功、失敗,沒結(jié)婚卻保持良好關(guān)系},也就是說,隨機試驗的結(jié)果稱為隨機事件,一個隨機事件的所有的可能結(jié)果構(gòu)成了樣本空間。至于談戀愛算不算隨機試驗,我們這里就不探討了。
條件概率:
條件概率P(A|B)是一種定義,它表示的意思是在事件A發(fā)生的條件下事件B發(fā)生的概率,
而 P(AB)的意思是A、B兩個事件同時發(fā)生。
全概率公式:

貝葉斯公式:

這兩者的區(qū)別就在于原因和結(jié)果顛倒了,而之所以可以顛倒的原因就在于P(AB)=P(BA),導(dǎo)致:

(2)一維隨機變量及其分布
這一章的關(guān)鍵就是正態(tài)分布曲線:

對于曲線上的每一點(x,y),其橫坐標(biāo)代表的數(shù)值,縱坐標(biāo)代表的是比例,比如,這條曲線如果表示一個100人的班級的考試成績,那么橫坐標(biāo)就是分?jǐn)?shù),縱坐標(biāo)就是這個分?jǐn)?shù)的學(xué)生所占比例。這條曲線從左到右所包圍的面積,就是某個分?jǐn)?shù)段(比如0-60)分的學(xué)生所占的比例。這條曲線的最高點就是這個班的平均分。這條曲線還表示了一個意思,就是平均分旁邊的分?jǐn)?shù)的學(xué)生所在比例更高,往兩邊比例逐漸縮小。
(3)二維隨機變量及其分布
這一章的重點應(yīng)該把握邊緣概率密度的概念。
一維概率密度函數(shù)f(x)指的是在x固定的情況下,x的這個值的取值頻度。
同樣,邊緣概率密度也是一樣的意思:

前者是指x固定,y在整個定義域內(nèi)變動,后者則反過來。
(4)隨機變量的數(shù)字特征
這一章的數(shù)學(xué)期望很簡單,就是樣本容量N趨于無窮大時平均值的極限值。
方差按照其公式

它表示的就是所考察的全部隨機數(shù)與其平均值的偏差的一種度量。
比如,兩個班的學(xué)生的平均身高都是165,其中一個班的學(xué)生大多數(shù)在165附近,那么這個班的學(xué)生的身高的方差就比較??;另一個班的學(xué)生有一部分180以上,另外一部分150以下,那么這個班的方差就大。同樣,如果一個國家的平均國民收入數(shù)據(jù)的方差比較大,意味著貧富差距比較大,那么,這個國家肯定在某個方面存在問題。
還有一個就是相關(guān)系數(shù)的概念,其定義

比如:


上圖是完全線性相關(guān),下圖是X其中的一個點違反了規(guī)則,導(dǎo)致相關(guān)系數(shù)下降。那么,這個規(guī)則是什么呢?
就是被考察的兩個變量,當(dāng)它們同時大于或者小于其平均值的時候(X的均值為6,Y是12),它們的相關(guān)系數(shù)就大,反之則小。那么,相關(guān)系數(shù)的含義就應(yīng)該是,對于兩個變量其圍繞它們的均值進(jìn)行變化的趨勢是否一致的程度的一種度量。
(5)大數(shù)定律與中心極限定理
這章的重點應(yīng)該是中心極限定理。

分子分母都除以n之后,定理變成:

我們注意到,這里的變量已經(jīng)變成了

也就是說,中心極限定理說的其實是,當(dāng)一組獨立同分布的隨機變量的數(shù)量足夠大的時候, 它們的均值也服從正態(tài)分布。
2.基礎(chǔ)數(shù)理統(tǒng)計
(1)抽樣分布
這一章主要是理解卡方分布:

那就是把卡方統(tǒng)計量看作是Y=Y1+Y2+......,其中Yi=Xi^2,而Y的密度函數(shù)經(jīng)過復(fù)合函數(shù)計算后為:

(2)參數(shù)估計和假設(shè)檢驗
這一章重點搞清楚似然估計和假設(shè)檢驗就差不多了。
似然估計:
我們常說的概率,是在已經(jīng)知道隨機變量某個值出現(xiàn)的可能性大小的情況下,來推測在某次試驗中這個值會出現(xiàn)多少次。比如預(yù)先知道,一枚正常的硬幣,在拋擲的時候,正反兩面出現(xiàn)的可能性(概率)都是1/2,那么,如果拋擲100次,可以預(yù)測正反兩面出現(xiàn)的次數(shù)都大概是50次;而似然性則是用于在已知拋擲100次硬幣正反兩面出現(xiàn)的次數(shù)的基礎(chǔ)上,反過來推測正反兩面出現(xiàn)的可能性(概率),即根據(jù)某些觀測所得到的結(jié)果,對有關(guān)事物的性質(zhì)的參數(shù)進(jìn)行估計。
但是,我們應(yīng)該得到一個更大的概率值,所以我們嘗試了所有θ可取的值,使得表達(dá)式θ? (1-θ)3取得最大值的θ為0.7左右,這就是似然值的含義,也就是說,在已經(jīng)知道試驗結(jié)果(7次正面,3次反面)的前提下,反過去推測θ值為多少(這里假設(shè)硬幣正反兩面出現(xiàn)的概率都可以不是1/2)才能使得試驗結(jié)果表達(dá)式θ? (1-θ)3的值達(dá)到最大。注意這一表達(dá)式使用的是乘法原理得到的結(jié)果。
清楚這個問題以后,我們就可以提出

假設(shè)檢驗:某機床廠加工一種零件,根據(jù)經(jīng)驗知道,該廠加工零件的橢圓度近似服從正態(tài)分布,其總體均值為m0=0.081mm,總體標(biāo)準(zhǔn)差為s= 0.025 。今換一種新機床進(jìn)行加工,抽取n=200個零件進(jìn)行檢驗,得到的橢圓度的均值為0.076mm。試問新機床加工零件的橢圓度的均值與以前有無顯著差異?(a=0.05)
解題結(jié)果:

看到這個結(jié)果以后,還是會覺得不好理解,為什么就拒絕了假設(shè)H0呢?

這個計算結(jié)果就是告訴我們,新機床的產(chǎn)品(x)和老機床的總體均值之差處于上圖的藍(lán)色區(qū)域(z=-2.83)內(nèi),而上圖中兩邊藍(lán)色部分面積之和即a=0.05,也就是預(yù)先設(shè)定的檢驗水準(zhǔn)。上述實驗結(jié)果還表明,只有進(jìn)一步縮小a值(比如3%),才能使得z=-2.83不包括在上面兩個藍(lán)色區(qū)間內(nèi),也就是在a更小的情況下,才能接受H0。這里的a代表顯著性水平,顯著性水平越低,就表示原假設(shè)越難被推翻,假設(shè)檢驗越保守。顯著性水平越高,就表示原假設(shè)越容易被否定,假設(shè)檢驗越激進(jìn)。也就是說,顯著性水平是留給某次實驗用來推翻原假設(shè)的可能性的大小。
這就好比一個女孩子對一個男孩子說,你本來追不到我(H0),但我愿意給你5%的可能性(顯著性水平,意味著這個男孩子要在下雨天為她送飯)試一下,結(jié)果男孩子真做到了,也追到了這個女孩(否定了H0);而當(dāng)這個女孩子只愿意給3%的可能性(意味著這個男孩子要在下雪天為她送飯)的時候,結(jié)果就沒有追到一樣。
(2)線性模型(回歸分析)和方差分析
回歸方程:

回歸方程系數(shù)的求解就是使得上圖中的誤差線段ei的平方和

最?。?/p>
從得出的結(jié)果可以看出,所考察的每一個點都對回歸方程的系數(shù)做出了貢獻(xiàn)。
從以上的分析可以看出,數(shù)理統(tǒng)計這門課的知識結(jié)構(gòu)大概是:先是隨機變量的基本概念,然后分別在一維和二維空間對隨機變量進(jìn)行分析計算,然后是點估計(包括矩估計法、最大似然法、最小二乘法等來估計數(shù)學(xué)期望、方差、相關(guān)系數(shù)等),區(qū)間估計(置信區(qū)間、假設(shè)檢驗等)。