最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

R語言計量經(jīng)濟學(xué)與有時間序列模式的機器學(xué)習(xí)預(yù)測

2021-06-09 11:08 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=17677

?

今天,我們正在與一位精算數(shù)據(jù)科學(xué)專業(yè)的學(xué)生討論,有關(guān)保險費率制定的與索賠頻率模型有關(guān)的觀點。由于目標是預(yù)測理賠頻率(以評估保險費水平),因此他建議使用舊數(shù)據(jù)來訓(xùn)練該模型,并使用最新數(shù)據(jù)對其進行測試。問題在于該模型沒有包含任何時間模式。

這里考慮一個簡單的數(shù)據(jù)集,

  1. > set.seed(1)

  2. > n=50000

  3. > X1=runif(n)

  4. > T=sample(2000:2015,size=n,replace=TRUE)

  5. > L=exp(-3+X1-(T-2000)/20)

  6. > E=rbeta(n,5,1)

  7. > Y=rpois(n,L*E)

  8. > B=data.frame(Y,X1,L,T,E)

頻率由泊松過程驅(qū)動,具有一個協(xié)變量X1,并且我們假設(shè)呈指數(shù)速率。在此考慮標準線性回歸,沒有任何時間因素影響

  1. > reg=glm(Y~X1+offset(log(E)),data=B,

  2. + family=poisson)

我們還可以計算年度經(jīng)驗索賠頻率

  1. > u=seq(0,1,by=.01)

  2. > v=predict(re


  3. > vp=Vectorize(p)(seq(.05,.95,by=.1))

并在同一張圖上繪制兩條曲線,

  1. > plot(seq(.05,.95,by=.1),vp,type="b")

  2. > lines(u,exp(v),lty=2,col="red")

?

這就是我們通常在計量經(jīng)濟學(xué)中所做的。在機器學(xué)習(xí)中,更具體地說,是評估模型的質(zhì)量以及進行模型選擇,通常將數(shù)據(jù)集分為兩部分。訓(xùn)練樣本和驗證樣本。考慮一些隨機的訓(xùn)練/驗證樣本,然后在訓(xùn)練樣本上擬合模型,最后使用它來進行預(yù)測,

  1. > idx=sample(1:nrow(B


  2. > reg=glm(Y~X1+offset(log(E)),data=B_a,

  3. + family=poisson)

  4. > u=seq(0,1,by=.01)

  5. > v=predict(reg,new

  6. $E)

  7. + }

  8. > vp_a=Vectorize(p)(seq(.05,.95,by=.1))

  9. > plot(seq(.05,.95,by=.1),vp_a,col="blue")

  10. > lines(u,exp(v),l

  11. X1-x)<.1,]

  12. + ? sum(B$Y)/sum(B$E)

  13. + }

  14. )(seq(.05,.95,by=.1))

  15. > lines(seq(.05,.95,by=.1),vp_t,col="red")

?

藍色曲線是對訓(xùn)練樣本的預(yù)測(就像在計量經(jīng)濟學(xué)中所做的那樣),紅色曲線是對測試樣本的預(yù)測。

現(xiàn)在,如果我們使用年份作為劃分標準,我們將舊數(shù)據(jù)擬合為模型,并在最近幾年對其進行測試,

  1. > B_a=subset(

  2. T>=2014)

  3. > reg=glm(Y~X1+offset(l



  4. + ? B=B_a[abs(B_a$X1-x)<.1,]

  5. + ? sum(B$Y)/sum(B$E)

  6. + }

  7. > vp_a=Vectorize(p)(

  8. y=.1),vp_a,col="blue")

  9. > lines(u,exp(v),lty=2)

  10. > p=function(x){

  11. -x)<.1,]

  12. + ? sum(B$Y)/sum(B$E)

  13. + }

  14. eq(.05,.95,by=.1))

  15. > lines(seq(.05,.95,b=.1),vp_t,

?

顯然,結(jié)果不理想。

我花了一些時間來了解訓(xùn)練和驗證樣本的設(shè)計方式對結(jié)果產(chǎn)生的影響。

我使用回歸模型:


  1. glm(Y~X1+T+offset(log(E)),data=B,

  2. + family=poisson)


  3. > u=seq(1999,2016,by=


?

在這里,我們使用線性模型,但是通常沒有理由假設(shè)線性。所以我們可以考慮樣條



  1. > reg=glm(Y~X1+bs(T)+offse


  2. > u=seq(1999,2016,by=.


  3. > v2=predict(reg,newdata=


  4. > plot(2000:2015,exp(v2),ty

?

除了假設(shè)存在一個基本的平滑函數(shù),我們可以考慮因子的回歸


  1. as.factor(T)+


  2. + data=B,family=p

  3. g)

  4. > u=seq(1999,2016,by=.1)

  5. > v=exp(-(u-2000)/20

  6. [2:17]),type="b")

?

另一種選擇是考慮一些更通用的模型,例如回歸樹



  1. > reg=rpart(Y~X1+T+offset(log(E)),dat


  2. > p=function(t){

  3. + ? B=B[B$T==t,]


  4. + ? mean(predict(reg,newdata=B))

  5. + }

  6. 2000:2015)

  7. > u=seq(1999,2016,by=.1)


  8. > plot(2000:2015,y_m,ylim=c(

?

在年化頻率上考慮與風(fēng)險敞口相關(guān)的權(quán)重?

  1. > reg=rpart(Y/E~X1+T,data

  2. weights=B$E,cp=1


  3. + ? B=B[B$T==t,]

  4. + ? B$E=1


  5. + }

  6. > y_m=Vectorize(function(t) p(t))(


  7. > v=exp(-(u-2000)/20-3+.5)

  8. > plot(2000:2015,y_m,ylim=c(.02,.08

?

從機器學(xué)習(xí)的角度來看,考慮訓(xùn)練樣本(基于舊數(shù)據(jù))和驗證樣本(基于較新的樣本)

  1. > B_a=subset(B,T<2014)

  2. > B_t=subset(B,T>=2014)

如果我們考慮使用廣義線性模型,那么也很容易獲得近年來的預(yù)測,

  1. > reg_a=glm(Y~X1+T+offset(l


  2. > C=coefficients(reg_a)

  3. > u=seq(1999,20

  4. /20-3)

  5. +C[3]*c(2000:2013,

  6. + NA,NA)),type="b")

  7. )

  8. > points(2014:2015,exp(C

?

但是,如果我們以年份為因子,我們需要對訓(xùn)練樣本中沒有的水平進行預(yù)測,結(jié)果更加復(fù)雜。

  1. > reg_a=glm(Y~0+X1+as.factor(T)+offse


  2. > C=coefficients(reg_a)

  3. 2014) + A[2]*(B_t$T==2015))

  4. + ? Y_t=L*B_t$E


  5. > i=optim(c(.4,.4),RMSE)$par

  6. > plot(2000:2015,c(exp(C[2:15]


  7. > lines(u,v,lty=2,col="red")

  8. lue")

我們將RMSE量化近年來的預(yù)測水平,輸出還不錯。

獲得舊數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集,并在最近幾年對其進行測試應(yīng)該謹慎適當?shù)乜紤]時間模型。

最受歡迎的見解

1.在python中使用lstm和pytorch進行時間序列預(yù)測

2.python中利用長短期記憶模型lstm進行時間序列預(yù)測分析

3.使用r語言進行時間序列(arima,指數(shù)平滑)分析

4.r語言多元copula-garch-模型時間序列預(yù)測

5.r語言copulas和金融時間序列案例

6.使用r語言隨機波動模型sv處理時間序列中的隨機波動

7.r語言時間序列tar閾值自回歸模型

8.r語言k-shape時間序列聚類方法對股票價格時間序列聚類

9.python3用arima模型進行時間序列預(yù)測


R語言計量經(jīng)濟學(xué)與有時間序列模式的機器學(xué)習(xí)預(yù)測的評論 (共 條)

分享到微博請遵守國家法律
海伦市| 汾阳市| 雷州市| 湘潭县| 上思县| 吉林市| 陈巴尔虎旗| 芜湖市| 鸡泽县| 航空| 普安县| 图木舒克市| 庆阳市| 渝中区| 永寿县| 普定县| 万源市| 固安县| 威宁| 霍城县| 湖口县| 双城市| 沐川县| 无极县| 绵竹市| 大邑县| 安义县| 前郭尔| 上饶市| 鄂托克旗| 金塔县| 黄骅市| 鄢陵县| 南江县| 焦作市| 漳平市| 万州区| 福海县| 阿拉善右旗| 内乡县| 乌海市|