R語言非參數(shù)PDF和CDF估計、非參數(shù)分位數(shù)回歸分析間歇泉、GDP增長數(shù)據(jù)|附代碼數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=29841
最近我們被客戶要求撰寫關(guān)于非參數(shù)估計的研究報告。在應(yīng)用的設(shè)置中,我們經(jīng)常遇到分類數(shù)據(jù)類型和連續(xù)數(shù)據(jù)類型的組合(點(diǎn)擊文末“閱讀原文”獲取完整代碼數(shù)據(jù))。
熟悉傳統(tǒng)非參數(shù)核平滑方法的人會明白,這些方法假定基礎(chǔ)數(shù)據(jù)本質(zhì)上是連續(xù)的,但事實(shí)往往并非如此。一種同時處理連續(xù)數(shù)據(jù)和分類數(shù)據(jù)存在的方法稱為“頻率”方法,其中數(shù)據(jù)被分解為對應(yīng)于分類變量假設(shè)值的子集(“單元格”),然后才將密度或位置應(yīng)用于每個單元格中剩余的連續(xù)數(shù)據(jù)。
非參數(shù)頻率方法被廣泛認(rèn)為是不令人滿意的,因?yàn)樗鼈兺ǔ?dǎo)致使用樣品分裂引起的大量效率損失。
在本文中,我們通過許多經(jīng)驗(yàn)應(yīng)用來說明R的使用。選擇每個應(yīng)用程序是為了在應(yīng)用的環(huán)境中突出顯示特定的計量經(jīng)濟(jì)學(xué)方法。
非參數(shù)無條件PDF和 CDF估計
間歇泉是位于黃石國家公園的旅游景點(diǎn)。這個包含 n = 272 次觀測的著名數(shù)據(jù)集由兩個變量組成,以分鐘為單位的噴發(fā)持續(xù)時間(以分鐘為單位)和等待下一次噴發(fā)的時間(以分鐘為單位)。公園服務(wù)使用此數(shù)據(jù)集來模擬預(yù)期持續(xù)時間,具體取決于自上次噴發(fā)以來經(jīng)過的時間量。然而,對聯(lián)合分布進(jìn)行建模本身就很有意義,并且核估計器很容易揭示聯(lián)合 PDF 和 CDF 的基本雙峰性質(zhì)。在本例中,我們加載舊的間歇泉數(shù)據(jù)并計算密度和分布函數(shù)。結(jié)果如圖所示。請注意,在此示例中,我們一步進(jìn)行帶寬選擇和估計
R> Ful <- npst(~ eruptions + waiting, data = fal) R> summary(f.fful)

R> summary(Fhful)

以下代碼將生成圖。
R> plot(f.fthful
如果用參數(shù)模型(例如二元正態(tài)(對稱、單峰和單調(diào)遞減)來模擬這種密度,當(dāng)然無法揭示核估計容易揭示的底層結(jié)構(gòu)。

圖 :Old Faithful 數(shù)據(jù)的非參數(shù)多變量 PDF 和 CDF 估計值。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容

R語言非參數(shù)方法:使用核回歸平滑估計和K-NN(K近鄰算法)分類預(yù)測心臟病數(shù)據(jù)

正在上傳…重新上傳取消轉(zhuǎn)存失敗重新上傳取消
左右滑動查看更多

正在上傳…重新上傳取消轉(zhuǎn)存失敗重新上傳取消
01

02

03

04

非參數(shù)條件PDF和CDF估計
我們考慮GDP增長,涵蓋1951-1998年期間的21個地區(qū)??偣灿衝 = 1008個觀測值,以及兩個變量,GDP和年份。首先,我們計算帶寬。請注意,這可能需要一兩分鐘,具體取決于計算機(jī)的速度。我們覆蓋搜索方法的默認(rèn)容差,因?yàn)槟繕?biāo)函數(shù)表現(xiàn)良好(當(dāng)然通常不要這樣做),然后我們計算。請注意,在本例中,我們一步進(jìn)行帶寬選擇和估計。
R> fat <- npns(gdp ~ year, + tol = 0.1, + ftol = 0.1,

R> Fat <- npst(gdp ~ year, + tol = 0.1, + ftol = 0.1,

圖繪制了 GDP 面板生成的條件 PDF 和 CDF。以下代碼將生成圖 。
R> plot

圖顯示,收入分配已從1950年代初的單峰分配演變?yōu)?990年代的明顯雙峰分配。此結(jié)果對帶寬選擇具有魯棒性,無論是使用簡單的經(jīng)驗(yàn)法則還是數(shù)據(jù)驅(qū)動的方法(如可能叉驗(yàn)證)都可以觀察到。核方法很容易揭示這種演變,如果使用收入分配的參數(shù)模型(例如,單峰對數(shù)正態(tài)分布通常用于模擬收入分配),則很容易被忽略。
非參數(shù)分位數(shù)回歸
我們再次考慮GDP增長數(shù)據(jù)。首先,我們計算交叉驗(yàn)證帶寬的可能性(默認(rèn))。我們覆蓋了搜索方法的默認(rèn)容差,因?yàn)槟繕?biāo)函數(shù)表現(xiàn)良好(當(dāng)然,通常不要這樣做)。然后我們使用Li和Racine(2008)的方法計算結(jié)果的條件分位數(shù)估計。例如,我們計算第 25、50 和 75 條件分位數(shù)。請注意,這可能需要一兩分鐘,具體取決于計算機(jī)的速度。請注意,對于此示例,我們首先以避免不必要的帶寬對象重新計算。
R> bw <- npbw(formula = gdp ~ year, + tol = 0.1, + ftol = 0.1, R> modq0.25 <- nptau = 0.25) R> mo.q0.50 <- nbw, tau = 0.50) R> mod.q0.75 <- npq, tau = 0.75)
圖繪制了生成的分位數(shù)估計值。以下代碼將生成圖。
R> plot R> lines(It$year, mode.q0.25quantile )
此應(yīng)用程序的一個很好的功能是解釋變量是有序的,并且每年存在多個觀測值。將繪圖函數(shù)與有序數(shù)據(jù)一起使用會生成一個箱線圖,該箱線圖很容易顯示非平滑的第 25、50 和 75 個分位數(shù)。然后可以直接將這些非平滑分位數(shù)估計值與通過直接估計平滑CDF獲得的估計值進(jìn)行比較,如圖所示。

GDP 面板上的非參數(shù)分位數(shù)回歸。
參考文獻(xiàn)
Aitchison J, Aitken CGG (1976).“核方法的多元二元判別。”生物計量學(xué),63(3),413-420。
Baiocchi G (2006). “Economic Applications of Nonparametric Methods.” Ph.d. thesis, University of York

點(diǎn)擊文末“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《R語言非參數(shù)PDF和CDF估計、非參數(shù)分位數(shù)回歸分析間歇泉、GDP增長數(shù)據(jù)》。