連續(xù)型隨機(jī)變量-北太天元學(xué)習(xí)26
如果隨機(jī)變量X的樣本空間是不可數(shù)的,那么我們說X是連續(xù)隨機(jī)變量。不可數(shù)集合意味著該集合包含無限多個(gè)值,并且這些值可以與連續(xù)尺度上的測量值相關(guān)聯(lián),而沒有間隙或中斷。不可數(shù)集合可能包括實(shí)數(shù)線上的區(qū)間,以及整個(gè)實(shí)軸本身。這通常應(yīng)用于隨機(jī)模型中的時(shí)間、長度、重量、溫度等變量。由于X可以取不可數(shù)的值,我們只關(guān)心X取一定范圍值的概率,而不是單個(gè)值本身。事實(shí)上,由于X可以取的值太多了,所以對于樣本空間中的任何k,P(X=k)=0。為了找到X在集合E=[a,b]中的概率,我們不再對所有[a,b]上的所有x_i 對概率P(X=x_i)求和。 我們換一種做法,將區(qū)間[a,b]均勻剖分成n個(gè)子區(qū)間,每個(gè)小區(qū)間的
長度為?x = (b-a)/n,端點(diǎn)為{x_0,x_1,…,x_n}。然后,我們只需要X在每個(gè)子區(qū)間中的概率, 就可以用它來估計(jì)X取值在[a,b]中的概率。把小區(qū)間分得越來越小也就是 ?x→ 0,或者讓n→ ∞,并定義函數(shù)f以滿足P(a≤X≤b)= \int_{a}^ f(x)dx。我們稱f(x)為隨機(jī)變量X的概率密度函數(shù), 如果
???????????????? P(a <= X <= b) = \int_{a}^ f(x) dx
對所有的a,b都成立。
概率密度函數(shù)f(x) 滿足下面的性質(zhì):
1. f(x) >=0? 對所有x∈R 都成立,2. \int_{-\infty}^{-\infty} f(x) dx =? 1.
離散隨機(jī)變量X的樣本空間為S, 那么可以定義X的期望(也就是平均值,在北太天元用 mean 函數(shù)來計(jì)算)
?? ?E(X) = \sum_{k\in S} k * P(X = k),
X 的方差定義為
? Var(X)? =? E(? (X-E(X) )^2 ).
對于連續(xù)型隨機(jī)變量X, 我們同樣也可以定義X的期望和方差,
不同之處在于把求和變成了積分,
?? ?E(X) = \int_{-\infty}^{\infty} x f(x) dx,
其中 f(x) 是連續(xù)型隨機(jī)變量的概率密度函數(shù).
連續(xù)型隨機(jī)變量X的方差Var(X) = E( (X-E(X))^2 ), 這里的期望也是用積分來計(jì)算。 ?
另外,對于連續(xù)型隨機(jī)變量,我們還引入累積分布函數(shù)(cdf), 定義
????????????????? F(x) = P(X <= x) = \int_{-\infty}^{x} f(x) dx .
根據(jù)微積分基本定理,概率密度函數(shù)f(x) = F'(x), 其中 F'(x) 表示對累積分布函數(shù) F(x)的導(dǎo)數(shù)。 另外,由f(x)>=0 可得到F是一個(gè)遞增函數(shù); 由\int_{-\infty}^{+\infty}f(x) dx = 1 可得 \lim_{x->+\infty}F(x)=1。
前面我們多次提到了北太天元的內(nèi)置函數(shù)rand 生成服從(0,1)區(qū)間上均勻分布的隨機(jī)變量, 這是一個(gè)連續(xù)型隨機(jī)變量的例子。 X~U(a,b)表示X是服從(a,b)區(qū)間上均勻分布的隨機(jī)變量。X~U(a,b)在區(qū)間[a,b]上具有相等概率的值。這意味著,對于長度相等的[a,b]中的任何兩個(gè)區(qū)間,X在其中一個(gè)區(qū)間中的概率等于它在另一個(gè)區(qū)間的概率。更正式地說,對于任何(a,b)的子區(qū)間(a_1,b_1),? (a_2,b_2),只要b_1-a_1 = b_2 -a_2, 就有
P(X∈[a1,b1])=P(X∈[a2,b2])。
對于X~U(a,b), X的概率密度函數(shù)是常數(shù),必須在[a,b]上的積分為1。因此,它的高度必須為1/(b?a). 換句話說,X的概率密度函數(shù)為
f(x) = 1/(b-a) , if x∈[a,b],?? ????? 0?????? ,? otherwise.
期望值E(X) = \int_{a}^ x * 1/(b-a) d x = (a+b)/2,也就是 X~U(a,b)的期望恰好是區(qū)間[a,b]的中點(diǎn)。
例如,如果X~U(2,10),其概率密度函數(shù)為f(x) =1/8, if x∈[2,10],其期望值為6, X在3和5之間的概率P(3≤X≤5)= \int_{3}^{5} 1/8 dx = 0.25.中心極限定理通常被認(rèn)為是統(tǒng)計(jì)學(xué)中最重要的定理。它說,如果事件重復(fù)多次,那么平均結(jié)果就會(huì)逼近這個(gè)事件的期望。
我們可這樣來粗糙描述一下中心極限定理: 設(shè){X_i},i=1,...,\infty是一個(gè)獨(dú)立隨機(jī)變量序列,每個(gè)變量具有相同的分布,E(X_i) = μ, Var(X_i) = σ^2。設(shè)Y_n = (X_1+...+X_n)/n 為n個(gè)隨機(jī)變量的任意組合的平均值, 那么
?? (1) E(Y_n) = μ,
?? ?(2) Var(Y_n) = (σ^2)/n, ?? ?
?? ?(3) 在n趨向于無窮時(shí),Y_n 趨向于正態(tài)分布.
我們后面會(huì)介紹正態(tài)分布,雖然分布接近正態(tài)分布這一點(diǎn)很難證明,但可以通過北太天元做數(shù)值試驗(yàn)進(jìn)行驗(yàn)證。
我們考慮擲硬幣n次的實(shí)驗(yàn)。設(shè)X_i是一個(gè)隨機(jī)變量,給出了一次投擲硬幣
是否得到正面朝上(讓X_i = 0 表示背面朝上,讓X_i = 1 表示正面朝上,每個(gè)概率為1/2)。
(a) 計(jì)算X_i的期望值和方差。
(b) 設(shè)Y_n = (X_1+...+X_n)/n? 為拋硬幣n次后出現(xiàn)的正面朝上的次數(shù)的平均數(shù)。
計(jì)算Y_n的期望值和方差。
(c) 使用1000次試驗(yàn)的模擬來驗(yàn)證你對(a)和(b)的回答。
還可以使用您的代碼來估計(jì)在40次翻轉(zhuǎn)中投擲超過60%正面的概率。
(d) 使用模擬來確定200次翻轉(zhuǎn)后應(yīng)出現(xiàn)的正面比例的95%置信區(qū)間。
對上面這個(gè)問題的解答:
(a) 期望E(X_i) = 0*P(X_i=0)+1*P(X_i=1) = 0*1/2+1*1/2=0.5,方差為Var(X_i) =(0?0.5)^2*1/2 +(1?0.5)^2 * 1/2 = 1/4。
(b) 根據(jù)中心極限定理,E(Y_n) = E(X_i) = 1/2,而Var(Y_n) = Var(X_i)/n = 1/(4*n)。(c) 使用代碼段
1? % 北太天元模擬擲硬幣的腳本
2? 模擬次數(shù) = 1000; %設(shè)置模擬次數(shù)
3? 正面次數(shù) = zeros(模擬次數(shù), 1); %初始化正面次數(shù)向量
4??? 擲硬幣次數(shù) = 40; % 設(shè)置每次模擬擲硬幣的次數(shù)
5? for k=1:模擬次數(shù) %? 第k次模擬
6?? ??? ?? r = rand(擲硬幣次數(shù), 1);
7???? 正面次數(shù)(k) = sum(r< 0.5);
8? end
9? Yn_正面比例? = 正面次數(shù)/擲硬幣次數(shù); %把 正面次數(shù) 轉(zhuǎn)成 比例
10 histogram(Yn_正面比例) % 正面次數(shù)比例的直方圖
11 期望_Yn = mean(Yn_正面比例) %Yn_正面比例的樣本均值
12 方差_Yn = var(Yn_正面比例) %Yn_正面比例的樣本方差
13 sigma2 = 1/4/擲硬幣次數(shù) %根據(jù)定理的大的Yn的方差
14 比例60 = mean(Yn_正面比例 > .6) %所有模擬中得到正面比例大于60%的比例

我們想要驗(yàn)證E(Y_n) = 0.5 和 Var(Y_n)= 1/(4*n)。
第11行顯示樣本平均值的估計(jì)平均值 "期望_Yn" (來自40次試驗(yàn)的正面比例),
第12行顯示樣本均值的估計(jì)方差 "方差_Yn"。
第14行顯示了要與估計(jì)方差進(jìn)行比較的理論方差(通過定理計(jì)算的方差)。
通過運(yùn)行此代碼,我們應(yīng)該可以看到這些值是接近的。
此外,第14行顯示了正面超過60%的模擬比例 "比例60",
這用于估計(jì)P(Y_n>0.6)。如果n=40,您應(yīng)該看到概率大約為0.077。
(d) 假設(shè)我們想為200次翻轉(zhuǎn)后出現(xiàn)的正面比例設(shè)定95%的置信區(qū)間。
也許學(xué)習(xí)了如何其它方法, 然而,我們這里使用模擬生成置信區(qū)間的良好近似值。
您可以對Yn_正面比例矢量的值進(jìn)行排序,并確定第2.5個(gè)百分位數(shù)和第97.5個(gè)
百分位位數(shù)的Yn_正面比例的值。
比例排序=sort(Yn_正面比例);
比例排序(round(0.025*模擬次數(shù)))
比例排序(round(0.975*模擬次數(shù)))

在第一行中,我們使用sort函數(shù)按遞增順序?qū)Ρ壤颠M(jìn)行排序。
然后我們需要看第2.5個(gè)百分位數(shù)的序號(hào),我們可以將向量的大小乘以.025。如果這不是一個(gè)整數(shù),請使用四舍五入到最接近的整數(shù)。
最后一行計(jì)算置信區(qū)間的上端。您應(yīng)該看到n=200的置信區(qū)間(0.4300,0.5700),
也就是說,隨機(jī)變量 Yn_正面比例 處于區(qū)間(0.4300,0.5700)之間的概率是95%.