最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

拓端tecdat:R語言用貝葉斯線性回歸、貝葉斯模型平均 (BMA)來預(yù)測工人工資

2021-11-21 22:35 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=24141

原文出處:拓端數(shù)據(jù)部落公眾號(hào)

背景

貝葉斯模型提供了變量選擇技術(shù),確保變量選擇的可靠性。對(duì)社會(huì)經(jīng)濟(jì)因素如何影響收入和工資的研究為應(yīng)用這些技術(shù)提供了充分的機(jī)會(huì),同時(shí)也為從性別歧視到高等教育的好處等主題提供了洞察力。下面,貝葉斯信息準(zhǔn)則(BIC)和貝葉斯模型平均法被應(yīng)用于構(gòu)建一個(gè)簡明的收入預(yù)測模型。

?這些數(shù)據(jù)是從 935 名受訪者的隨機(jī)樣本中收集的。該數(shù)據(jù)集是計(jì)量經(jīng)濟(jì)學(xué)數(shù)據(jù)集系列的一部分 。

加載包

數(shù)據(jù)將首先使用該dplyr?包進(jìn)行探索?,并使用該ggplot2?包進(jìn)行可視化?。稍后,實(shí)現(xiàn)逐步貝葉斯線性回歸和貝葉斯模型平均 (BMA)。

數(shù)據(jù)

數(shù)據(jù)集網(wǎng)頁提供了以下變量描述表:

變量描述wage每周收入(元)hours每周平均工作時(shí)間IQ智商分?jǐn)?shù)kww對(duì)世界工作的了解得分educ受教育年數(shù)exper多年工作經(jīng)驗(yàn)tenure在現(xiàn)任雇主工作的年數(shù)age年齡married=1 如果已婚black=1 如果是黑人south=1 如果住在南方urban=1 如果居住在都市sibs兄弟姐妹的數(shù)量brthord出生順序meduc母親的教育(年)feduc父親的教育(年)lwage工資自然對(duì)數(shù)?wage

探索數(shù)據(jù)

與任何新數(shù)據(jù)集一樣,一個(gè)好的起點(diǎn)是標(biāo)準(zhǔn)的探索性數(shù)據(jù)分析。匯總表是簡單的第一步。

  1. # 數(shù)據(jù)集中所有變量的匯總表--包括連續(xù)變量和分類變量

  2. summary(wage)

因變量(工資)的直方圖給出了合理預(yù)測應(yīng)該是什么樣子的。

  1. #工資數(shù)據(jù)的簡單柱狀圖

  2. hst(wge$wae, breks = 30)

直方圖還可用于大致了解哪些地方不太可能出現(xiàn)結(jié)果。

  1. # 檢查圖表 "尾部 "的點(diǎn)的數(shù)量

  2. sm(wage$ge < 300)

## [1] 6sm(wae$wge > 2000)## [1] 20

簡單線性回歸

由于周工資('wage')是該分析中的因變量,我們想探索其他變量作為預(yù)測變量的關(guān)系。我們?cè)跀?shù)據(jù)中看到的工資變化的一種可能的、簡單的解釋是更聰明的人賺更多的錢。下圖顯示了每周工資和 IQ 分?jǐn)?shù)之間的散點(diǎn)圖。

gplot(wae, es(iq, wge)) + gom_oint() +gom_smoth()

IQ 分?jǐn)?shù)和工資之間似乎存在輕微的正線性關(guān)系,但僅靠 IQ 并不能可靠地預(yù)測工資。盡管如此,這種關(guān)系可以通過擬合一個(gè)簡單的線性回歸來量化,它給出:

工資 i = α + β?iqi + ?iwagei = α + β?iqi + ?i

  1. m_wg_iq = lm(wge ~ iq, dta = age)

  2. coefients

工資 i = 116.99 + 8.3 ?iqi + ?iwagei = 116.99 + 8.3 ?iqi + ?i

在轉(zhuǎn)向貝葉斯改進(jìn)這個(gè)模型之前,請(qǐng)注意貝葉斯建模假設(shè)誤差 (?i) 以恒定方差正態(tài)分布。通過檢查模型的殘差分布來檢查該假設(shè)。如果殘差高度非正態(tài)或偏斜,則違反假設(shè)并且任何后續(xù)推論都無效。要檢查假設(shè),請(qǐng)按如下方式繪制殘差:

  1. # 用散點(diǎn)圖和模型誤差殘差的直方圖來檢查正態(tài)性假設(shè)


  2. glot(dta = mwag_q, es(x = .ite, y = .rd)) +

  3. gemittr() +


  1. plot(dta = m_g_iq, aes(x = .reid)) +

  2. histgm(bnwth = 10)


變量變換

兩個(gè)圖都顯示殘差是右偏的。因此,IQ(因?yàn)樗壳按嬖谟跀?shù)據(jù)集中)不應(yīng)用作貝葉斯預(yù)測模型。但是,對(duì)?僅具有正值的偏斜因變量使用(自然)對(duì)數(shù)變換?通??梢越鉀Q問題。下面,該模型使用轉(zhuǎn)換后的工資變量進(jìn)行了重新擬合。

  1. # 用IQ的自然對(duì)數(shù)擬合th模型

  2. lm(lage ~ iq, data = wae)

  1. # 殘差sctterplot和轉(zhuǎn)換后數(shù)據(jù)的柱狀圖

  2. plt(data = m_lag_iq, es(x = .fited, y = .reid))

  3. geiter() +

  1. ggpot(dta = m_lwgeiq, as(x = .resd)) +

  2. gostgam(binwth = .1) +


殘差確實(shí)大致呈正態(tài)分布。然而,由此產(chǎn)生的 IQ 系數(shù)非常小(只有 0.0088),這是可以預(yù)料的,因?yàn)?IQ 分?jǐn)?shù)提高 1 分幾乎不會(huì)對(duì)工資產(chǎn)生太大影響。需要進(jìn)一步細(xì)化。數(shù)據(jù)集包含更多信息。

多元線性回歸和 BIC

我們可以首先在回歸模型中包含所有潛在的解釋變量,來粗略地嘗試解釋盡可能多的工資變化。

  1. # 對(duì)數(shù)據(jù)集中的所有變量運(yùn)行一個(gè)線性模型,使用'.'約定。

  2. full = lm(lwge ~ . - wage, dta = wge)

完整線性模型的上述總結(jié)表明,自變量的許多系數(shù)在統(tǒng)計(jì)上并不顯著(請(qǐng)參閱第 4 個(gè)數(shù)字列中的 p 值)。選擇模型變量的一種方法是使用貝葉斯信息準(zhǔn)則 (BIC)。BIC 是模型擬合的數(shù)值評(píng)估,它也會(huì)按樣本大小的比例懲罰更多的參數(shù)。這是完整線性模型的 BIC:

BIC(full)

BIC 值越小表示擬合越好。因此,BIC 可以針對(duì)各種縮減模型進(jìn)行計(jì)算,然后與完整模型 BIC 進(jìn)行比較,以找到適合工資預(yù)測工作的最佳模型。當(dāng)然,R 有一個(gè)功能可以系統(tǒng)地執(zhí)行這些 BIC 調(diào)整。

  1. # 用step計(jì)算模型

  2. pIC(lwge ~ . - wge, dta = na.oi(wge))lg(lgth(na.mit(wge))))


  1. # 顯示逐步模型的BIC

  2. BIC(se_mol)

調(diào)用 step找到產(chǎn)生最低 BIC 的變量組合,并提供它們的系數(shù)。很不錯(cuò)。

貝葉斯模型平均(BMA)

即使BIC處于最低值,我們能有多大把握確定所得到的模型是真正的 "最佳擬合"?答案很可能取決于基礎(chǔ)數(shù)據(jù)的規(guī)模和穩(wěn)定性。在這些不確定的時(shí)候,貝葉斯模型平均化(BMA)是有幫助的。BMA對(duì)多個(gè)模型進(jìn)行平均化,獲得系數(shù)的后驗(yàn)值和新數(shù)據(jù)的預(yù)測值。下面,BMA被應(yīng)用于工資數(shù)據(jù)(排除NA值后)。


?

  1. # 不包括NA

  2. a_ona = na.omt(wae)


  3. # 運(yùn)行BMA,指定BIC作為判斷結(jié)果模型的標(biāo)準(zhǔn)

  4. BMA(wge ~ . -wge, daa= ae_o_a,

  5. pror = "BIC",

  6. moepor = ufom())


  7. # 顯示結(jié)果

  8. summary

?

結(jié)果表顯示了五個(gè)最有可能的模型,以及每個(gè)系數(shù)被包含在真實(shí)模型中的概率。我們看到,出生順序和是否有兄弟姐妹是最不可能被包含的變量,而教育和智商變量則被鎖定。BMA模型的排名也可以用圖像圖來顯示,它清楚地顯示哪些變量在所有模型中,哪些變量被排除在所有模型之外,以及那些介于兩者之間的變量。


?

ge(b_lge, tp.oels)

我們還可以提供模型系數(shù)的95%置信區(qū)間。下面的結(jié)果支持了關(guān)于包括或排除系數(shù)的決定。例如,在區(qū)間包含零,有大量證據(jù)支持排除該變量。

confint(ceflae)

進(jìn)行預(yù)測

構(gòu)建模型后,pediction 只是插入數(shù)據(jù)的問題:

  1. # 用一個(gè)虛構(gòu)的工人的統(tǒng)計(jì)資料來預(yù)測數(shù)據(jù)的例子


  2. # 進(jìn)行預(yù)測

  3. redict = pedct(e_odl, newdt = wrkr,eitr = "BMA")


  4. # 將結(jié)果轉(zhuǎn)換為元

  5. exp(wk_pedct)

預(yù)計(jì)這名化妝工作人員的周薪為 745 元。這到底有多準(zhǔn)確?你得問她,但我們對(duì)我們的變量選擇很有信心,并對(duì)現(xiàn)有的數(shù)據(jù)盡了最大努力。應(yīng)用的貝葉斯技術(shù)使我們對(duì)結(jié)果有信心。

最受歡迎的見解

1.matlab使用貝葉斯優(yōu)化的深度學(xué)習(xí)

2.matlab貝葉斯隱馬爾可夫hmm模型實(shí)現(xiàn)

3.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真

4.R語言中的block Gibbs吉布斯采樣貝葉斯多元線性回歸

5.R語言中的Stan概率編程MCMC采樣的貝葉斯模型

6.Python用PyMC3實(shí)現(xiàn)貝葉斯線性回歸模型

7.R語言使用貝葉斯 層次模型進(jìn)行空間數(shù)據(jù)分析

8.R語言隨機(jī)搜索變量選擇SSVS估計(jì)貝葉斯向量自回歸(BVAR)模型

9.matlab貝葉斯隱馬爾可夫hmm模型實(shí)現(xiàn)


拓端tecdat:R語言用貝葉斯線性回歸、貝葉斯模型平均 (BMA)來預(yù)測工人工資的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
株洲市| 承德县| 兴文县| 阳西县| 南溪县| 庄河市| 邯郸县| 岑巩县| 新绛县| 广水市| 东台市| 万全县| 滦南县| 敦煌市| 石楼县| 海口市| 尼玛县| 麻栗坡县| 山西省| 阿拉善盟| 神木县| 黎川县| 长乐市| 门头沟区| 茶陵县| 赣州市| 乐东| 沁水县| 绿春县| 中卫市| 墨脱县| 马龙县| 崇左市| 南汇区| 安远县| 丰镇市| 运城市| 云南省| 焦作市| 石首市| 衡山县|