R語言對混合分布中的不可觀測與可觀測異質(zhì)性因子分析
原文鏈接:http://tecdat.cn/?p=13584?
今天上午,在課程中,我們討論了利率制定中可觀察和不可觀察異質(zhì)性之間的區(qū)別(從經(jīng)濟角度出發(fā))。為了說明這一點,我們看了以下簡單示例。讓??X?代表一個人的身高??紤]以下數(shù)據(jù)集
> Davis[12,c(2,3)]=Davis[12,c(3,2)]
?在這里,關(guān)注變量是給定人的身高,
> X=Davis$height
如果我們看直方圖,我們有
> hist(X,col="light green", border="white",proba=TRUE,xlab="",main="")
我們可以假設(shè)我們具有高斯分布嗎?
在這里,如果我們擬合高斯分布,將其繪制出來,并添加基于核的估計量,我們將得到
> (param <- fitdistr(X,"normal")$estimate)
> f1 <- function(x) dnorm(x,param[1],param[2])
> x=seq(100,210,by=.2)
> lines(x,f1(x),lty=2,col="red")
> lines(density(X))
?
?
如果看那條黑線,可能會想到一種混合分布,例如
當我們有一個獲得混合分布不可觀察的異質(zhì)性因子:概率 p1,一個隨機變量??
?,概率p2,一個隨機變量??
?。我們可以使用例如
> (param12 <- c(mix$lambda[1],mix$mu,mix$sigma))
[1] 0.4002202 178.4997298 165.2703616 6.3561363 5.9460023
?如果我們繪制兩個高斯分布的混合圖,我們得到
> lines(x,f2(x),lwd=2, col="red") lines(density(X))
不錯。實際上,我們可以嘗試使用自己的代碼最大限度地提高可能性,
> bvec <- c(0,-1,0,0)
> constrOptim(c(.5,160,180,10,10), logL, NULL, ui = Amat, ci = bvec)$par
[1] ? 0.5996263 165.2690084 178.4991624 ? 5.9447675 ? 6.3564746
在這里,我們包括一些約束,以保證概率屬于單位間隔,并且方差參數(shù)保持正值。
進一步來說,如果我們假設(shè)基礎(chǔ)分布具有相同的方差,即
在這種情況下,我們必須使用之前的代碼,并進行一些小的更改,
> (param12c= constrOptim(c(.5,160,180,10), logL, NULL, ui = Amat, ci = bvec)$par)
[1] ? 0.6319105 165.6142824 179.0623954 ? 6.1072614
如果我們不能觀察到異質(zhì)性因素,這就是我們可以做的。我們實際上在數(shù)據(jù)集中有一些信息。例如,我們具有人的性別。現(xiàn)在,如果我們查看每個性別的身高直方圖,以及基于內(nèi)核的每個性別的身高密度估計量,
?
因此,看起來男性的身高和女性的身高是不同的。也許我們可以使用實際觀察到的變量來解釋樣本中的異質(zhì)性。在形式上,這里的想法是考慮具有可觀察到的異質(zhì)性因素的混合分布:性別,
現(xiàn)在,我們對以前稱為類[1]和[2]的解釋是:男性和女性。在這里,估算參數(shù)非常簡單,
sex=="F"
mean ? ? ? ? sd
164.714286 ? 5.633808
sex=="M"
mean ? ? ? ? sd
178.011364 ? 6.404001
如果我們繪制密度,我們有
> lines(x,f4(x),lwd=3,col="blue")
?
如果再次假設(shè)相同的方差怎么辦?即,模型變?yōu)?/p>
然后,一個自然的想法是根據(jù)以前的計算得出方差的估計量
?
> s
[1] 6.015068
再一次,可以繪制相關(guān)的密度,
> lines(x,f5(x),lwd=3,col="blue")
現(xiàn)在,如果我們仔細考慮一下我們所做的事情,那僅僅是對一個因素(人的性別)的線性回歸,
??
實際上,如果我們運行代碼來估算此線性模型,
Residuals:
Min ? ? ? 1Q ? Median ? ? ? 3Q ? ? ?Max
-16.7143 ?-3.7143 ?-0.0114 ? 4.2857 ?18.9886
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 164.7143 ? ? 0.5684 ?289.80 ? <2e-16 ***
sexM ? ? ? ? 13.2971 ? ? 0.8569 ? 15.52 ? <2e-16 ***
---
Signif. codes: ?0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.015 on 198 degrees of freedom
Multiple R-squared: ?0.5488, Adjusted R-squared: ?0.5465
F-statistic: 240.8 on 1 and 198 DF, ?p-value: < 2.2e-16
我們得到的均值和方差的估計與之前獲得的估計相同。因此,正如今天上午在課堂上提到的,如果您有一個不可觀察的異質(zhì)性因子,我們可以使用混合模型來擬合分布,但是如果您可以得到該因子的替代,這是可觀察的,則可以運行回歸。
?