R語(yǔ)言非參數(shù)模型厘定保險(xiǎn)費(fèi)率:局部回歸、廣義相加模型GAM、樣條回歸
原文鏈接:?http://tecdat.cn/?p=14121
本文將分析了幾種用于制定保險(xiǎn)費(fèi)率的平滑技術(shù)。
保費(fèi)沒(méi)有細(xì)分
該價(jià)格應(yīng)與純溢價(jià)相關(guān),而純溢價(jià)與頻率成正比,因?yàn)?/p>
沒(méi)有協(xié)變量,預(yù)期頻率應(yīng)為
Deviance Residuals:
? ?Min ? ? ? 1Q ? Median ? ? ? 3Q ? ? ?Max ?
-0.5033 ?-0.3719 ?-0.2588 ?-0.1376 ?13.2700 ?
Coefficients:
? ? ? ? ? ?Estimate Std. Error z value Pr(>|z|) ? ?
(Intercept) ?-2.6201 ? ? 0.0228 ?-114.9 ? <2e-16 ***
---
Signif. codes: ?0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
? ?Null deviance: 12680 ?on 49999 ?degrees of freedom
Residual deviance: 12680 ?on 49999 ?degrees of freedom
AIC: 16353
Number of Fisher Scoring iterations: 6
> exp(coefficients(regglm0))
(Intercept)
0.07279295
因此,如果我們不想考慮到潛在的異質(zhì)性,通常將其
視為百分比,即概率,因?yàn)?/p>
即
可以解釋為沒(méi)有索賠的可能性。讓我們將其可視化為駕駛員年齡的函數(shù),
?> plot(a,yp0,type="l",ylim=c(.03,.12))
?
> segments(a[k],yp1[k],a[k],yp2[k],col="red",lwd=3)
我們確實(shí)會(huì)為所有駕駛員預(yù)測(cè)相同的頻率,例如對(duì)于40歲的駕駛員,
> cat("Frequency =",yp0[k]," confidence interval",yp1[k],yp2[k])
Frequency = 0.07279295 ?confidence interval 0.07611196 0.06947393
現(xiàn)在我們考慮一種情況,其中我們嘗試考慮異質(zhì)性,例如按年齡,
(標(biāo)準(zhǔn))泊松回歸
在(對(duì)數(shù))泊松回歸的想法是假設(shè)而不是的
,我們應(yīng)該有
,其中
在這里,讓我們只考慮一個(gè)解釋變量,即
我們有
> plot(a,yp0,type="l",ylim=c(.03,.12))
> abline(v=40,col="grey")
> lines(a,yp1,lty=2)
> lines(a,yp2,lty=2)
> points(a[k],yp0[k],pch=3,lwd=3,col="red")
> segments(a[k],yp1[k],a[k],yp2[k],col="red",lwd=3)
對(duì)于我們40歲的駕駛員的年化索賠頻率的預(yù)測(cè)現(xiàn)在為7.74%(比我們之前的7.28%略高)
> cat("Frequency =",yp0[k]," confidence interval",yp1[k],yp2[k])
Frequency = 0.07740574 ?confidence interval 0.08117512 0.07363636
不計(jì)算預(yù)期頻率,而是計(jì)算比率
。
在水平藍(lán)線上方,溢價(jià)將高于未分段的溢價(jià),而低于此水平。在這里,年齡小于44歲的駕駛員將支付更多的費(fèi)用,而年齡大于44歲的駕駛員將支付較少的費(fèi)用。在引言中,我們討論了分段的必要性。如果我們考慮兩家公司,一個(gè)細(xì)分市場(chǎng),而另一個(gè)細(xì)分市場(chǎng)持平,那么年長(zhǎng)的司機(jī)將去第一家公司(因?yàn)楸kU(xiǎn)更便宜),而年輕的司機(jī)將去第二家公司(同樣,它更便宜)。問(wèn)題在于,第二家公司暗中希望老司機(jī)能彌補(bǔ)這一風(fēng)險(xiǎn)。但是由于它們已經(jīng)不存在了,所以保險(xiǎn)價(jià)格會(huì)太便宜了,公司也會(huì)放寬資金(如果沒(méi)有破產(chǎn)的話)。因此,公司必須使用細(xì)分技術(shù)才能生存?,F(xiàn)在,問(wèn)題在于,我們不能確定溢價(jià)的這種指數(shù)衰減是溢價(jià)隨年齡變化的正確方法。一種替代方法是使用非參數(shù)技術(shù)來(lái)可視化年齡對(duì)索賠頻率的真實(shí)影響。
純非參數(shù)模型
第一個(gè)模型可以是考慮每個(gè)年齡的保費(fèi)??梢钥紤]將駕駛員的年齡作為回歸因素,
> plot(a0,yp0,type="l",ylim=c(.03,.12))
> abline(v=40,col="grey")
在這里,我們40歲司機(jī)的預(yù)測(cè)略低于前一個(gè),但置信區(qū)間要大得多(因?yàn)槲覀冴P(guān)注的是投資組合中很小的一類(lèi):年齡恰好在?40?歲的司機(jī))
Frequency = 0.06686658 ?confidence interval 0.08750205 0.0462311
在這里,我們認(rèn)為類(lèi)別太小,溢價(jià)也太不穩(wěn)定了:溢價(jià)將從40歲到41歲下降20%,然后從41歲到42歲上升50%。
> diff(log(yp0[23:25]))
? ? ? ?24 ? ? ? ? 25
-0.2330241 ?0.5223478
公司沒(méi)有機(jī)會(huì)采用這種策略來(lái)確保被保險(xiǎn)人。保費(fèi)的這種不連續(xù)性是這里的重要問(wèn)題。
使用年齡段
另一種選擇是考慮年齡段,從非常年輕的駕駛員到高級(jí)駕駛員。
> summary(regglmc1)
Coefficients:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Estimate Std. Error z value Pr(>|z|) ? ?
(Intercept) ? ? ? ? ? ? ? ? ? ? ? ? -1.6036 ? ? 0.1741 ?-9.212 ?< 2e-16 ***
cut(ageconducteur, level1)(20,25] ? -0.4200 ? ? 0.1948 ?-2.157 ? 0.0310 * ?
cut(ageconducteur, level1)(25,30] ? -0.9378 ? ? 0.1903 ?-4.927 8.33e-07 ***
cut(ageconducteur, level1)(30,35] ? -1.0030 ? ? 0.1869 ?-5.367 8.02e-08 ***
cut(ageconducteur, level1)(35,40] ? -1.0779 ? ? 0.1866 ?-5.776 7.65e-09 ***
cut(ageconducteur, level1)(40,45] ? -1.0264 ? ? 0.1858 ?-5.526 3.28e-08 ***
cut(ageconducteur, level1)(45,50] ? -0.9978 ? ? 0.1856 ?-5.377 7.58e-08 ***
cut(ageconducteur, level1)(50,55] ? -1.0137 ? ? 0.1855 ?-5.464 4.65e-08 ***
cut(ageconducteur, level1)(55,60] ? -1.2036 ? ? 0.1939 ?-6.207 5.40e-10 ***
cut(ageconducteur, level1)(60,65] ? -1.1411 ? ? 0.2008 ?-5.684 1.31e-08 ***
cut(ageconducteur, level1)(65,70] ? -1.2114 ? ? 0.2085 ?-5.811 6.22e-09 ***
cut(ageconducteur, level1)(70,75] ? -1.3285 ? ? 0.2210 ?-6.012 1.83e-09 ***
cut(ageconducteur, level1)(75,80] ? -0.9814 ? ? 0.2271 ?-4.321 1.55e-05 ***
cut(ageconducteur, level1)(80,85] ? -1.4782 ? ? 0.3371 ?-4.385 1.16e-05 ***
cut(ageconducteur, level1)(85,90] ? -1.2120 ? ? 0.5294 ?-2.289 ? 0.0221 * ?
cut(ageconducteur, level1)(90,95] ? -0.9728 ? ? 1.0150 ?-0.958 ? 0.3379 ? ?
cut(ageconducteur, level1)(95,100] -11.4694 ? 144.2817 ?-0.079 ? 0.9366 ? ?
---
Signif. codes: ?0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lines(a,yp1,lty=2,type="s")
> lines(a,yp2,lty=2,type="s")
在這里,我們獲得以下預(yù)測(cè),
對(duì)于我們40歲的駕駛員來(lái)說(shuō),現(xiàn)在的頻率為6.84%。
Frequency = 0.0684573 ?confidence interval 0.07766717 0.05924742
我們應(yīng)該考慮其他類(lèi)別,以查看預(yù)測(cè)是否對(duì)值敏感,
對(duì)于我們40歲的司機(jī)來(lái)說(shuō),得出以下值:
Frequency = 0.07050614 ?confidence interval 0.07980422 0.06120807
所以在這里,我們沒(méi)有消除不連續(xù)性問(wèn)題。這里的一個(gè)想法是考慮移動(dòng)區(qū)域:如果目標(biāo)是預(yù)測(cè)40歲駕駛員的頻率,則應(yīng)該以40為中心。而對(duì)于35歲的駕駛員,間隔應(yīng)該以35為中心。
移動(dòng)平均
因此,考慮一些局部回歸是很自然的,只應(yīng)考慮年齡接近?40?歲的駕駛員。這幾乎與帶寬有關(guān)。例如,介于35和45之間的驅(qū)動(dòng)程序可以被認(rèn)為接近40。在實(shí)踐中,我們可以考慮子集函數(shù),也可以在回歸中使用權(quán)重
> value=40
> h=5
要查看發(fā)生了什么,讓我們考慮一個(gè)動(dòng)畫(huà),感興趣的年齡在不斷變化,
在這里,對(duì)于我們40歲的人來(lái)說(shuō),
Frequency = 0.06913391 ?confidence interval 0.07535564 0.06291218
我們獲得了可以解釋為局部回歸的曲線。但是在這里,我們沒(méi)有考慮到35沒(méi)有像39那樣接近40。這里的34假設(shè)與40距離很遠(yuǎn)。顯然,我們可以改進(jìn)該技術(shù):可以考慮內(nèi)核函數(shù),即,越接近40,權(quán)重就越大。
> value=40
> h=5
在下面繪制
在這里,我們對(duì)40的預(yù)測(cè)是
Frequency = 0.07040464 ?confidence interval 0.07981521 0.06099408
這就是核回歸技術(shù)的思想。但是,如幻燈片中所述,可以考慮其他非參數(shù)技術(shù),例如樣條函數(shù)。
用樣條平滑
在R中,使用樣條函數(shù)很簡(jiǎn)單(某種程度上比內(nèi)核平滑器簡(jiǎn)單得多)
> library(splines)
現(xiàn)在對(duì)我們40歲司機(jī)的預(yù)測(cè)是
Frequency = 0.06928169 ?confidence interval 0.07397124 0.06459215
請(qǐng)注意,此技術(shù)與另一類(lèi)模型有關(guān),即所謂的廣義相加模型,即GAM。
該預(yù)測(cè)與我們上面獲得的預(yù)測(cè)非常接近(主要區(qū)別在于非常老的駕駛員)
Frequency = 0.06912683 ?confidence interval 0.07501663 0.06323702
不同模型的比較
無(wú)論哪種方式,所有這些模型都是有效的。所以也許我們應(yīng)該比較它們,
在上圖中,我們可以可視化這9個(gè)模型的預(yù)測(cè)上限和下限。水平線是不考慮異質(zhì)性的預(yù)測(cè)值。
?
參考文獻(xiàn)
1.用SPSS估計(jì)HLM層次線性模型模型
2.R語(yǔ)言線性判別分析(LDA),二次判別分析(QDA)和正則判別分析(RDA)
3.基于R語(yǔ)言的lmer混合線性回歸模型
4.R語(yǔ)言Gibbs抽樣的貝葉斯簡(jiǎn)單線性回歸仿真分析
5.在r語(yǔ)言中使用GAM(廣義相加模型)進(jìn)行電力負(fù)荷時(shí)間序列分析
6.使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
7.R語(yǔ)言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化
8.R語(yǔ)言用線性回歸模型預(yù)測(cè)空氣質(zhì)量臭氧數(shù)據(jù)
9.R語(yǔ)言分層線性模型案例