R語言泊松回歸對保險定價建模中的應(yīng)用:風(fēng)險敞口作為可能的解釋變量
原文鏈接:http://tecdat.cn/?p=13564
?
在保險定價中,風(fēng)險敞口通常用作模型索賠頻率的補(bǔ)償變量。如果我們必須使用相同的程序,但是一個程序的暴露時間為6個月,而另一個則是一年,那么自然應(yīng)該假設(shè)平均而言,第二個駕駛員的事故要多兩倍。這是使用標(biāo)準(zhǔn)(均勻)泊松過程來建模索賠頻率的動機(jī)。人們在這里還可以看到法律問題,因?yàn)槿绻ú糠郑┩诉€保費(fèi),則可以按比例進(jìn)行。風(fēng)險與暴露成正比。因此,如果??
表示被保險人的理賠數(shù)量
,則具有特征
和風(fēng)險敞口
,通過泊松回歸,我們將寫
或等同
根據(jù)該表達(dá)式,曝光量的對數(shù)是一個解釋變量,不應(yīng)有系數(shù)(此處的系數(shù)取為1)。我們不能使用暴露作為解釋變量嗎?我們會得到一個單位參數(shù)嗎?
當(dāng)然,在進(jìn)行費(fèi)率評估的過程中,這可能不是一個相關(guān)的問題,因?yàn)榫銕熜枰A(yù)測年度索賠頻率(因?yàn)楸kU合同應(yīng)提供一年的保險期)。但是,更好地了解人們?yōu)槭裁磿x開我們的投資組合(例如,在任期前取消保險單,或者某天不續(xù)簽)可能會很有趣。
為了更具體和更好地理解,請考慮以下模型:考慮使用Poisson流程對索賠到達(dá)進(jìn)行建模,以及專職于其保險公司的人員。
> n=983
> D1=as.Date("01/01/1993",'%d/%m/%Y')
> D2=as.Date("31/12/2013",'%d/%m/%Y')
> for(i in 1:n){
+ ? expo=D2-arrival[i]
+ ? w=0
+ ? while(max(w)<expo) w=c(w,max(w)+1+trunc(rexp(1,1/1000)))
+ ? exposure[i]=departure[i]-arrival[i]
+ ? N[i]=max(0,length(w)-2)}
> df=data.frame(N=N,E=exposure/365)
在這里,兩次索賠之間的預(yù)期時間為1000天。泊松過程的(年度)強(qiáng)度在這里
> 365/1000
[1] 0.365
因此,如果我們對曝光的對數(shù)進(jìn)行Poisson回歸,我們應(yīng)該獲取一個相近參數(shù)
> log(365/1000)
[1] -1.007858
在這里,具有偏移量的常數(shù)的回歸為
?
> summary(reg)
Call:
Deviance Residuals:
Min ? ? ? 1Q ? Median ? ? ? 3Q ? ? ?Max
-3.4145 ?-0.4673 ? 0.2367 ? 0.8770 ? 3.6828
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.04233 ? ?0.02532 ?-41.17 ? <2e-16 ***
---
Signif. codes: ?0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 1116.9 ?on 982 ?degrees of freedom
Residual deviance: 1116.9 ?on 982 ?degrees of freedom
AIC: 3282.9
Number of Fisher Scoring iterations: 5
這與我們剛才所說的一致。如果我們以曝光量的對數(shù)作為可能的解釋變量進(jìn)行回歸,則我們期望其系數(shù)接近1。
Call:
Deviance Residuals:
Min ? ? ? 1Q ? Median ? ? ? 3Q ? ? ?Max
-3.0810 ?-0.8373 ?-0.1493 ? 0.5676 ? 3.9001
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.03350 ? ?0.08546 ?-12.09 ? <2e-16 ***
log(E) ? ? ? 1.00920 ? ?0.03292 ? 30.66 ? <2e-16 ***
---
Signif. codes: ?0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 2553.6 ?on 982 ?degrees of freedom
Residual deviance: 1064.2 ?on 981 ?degrees of freedom
AIC: 3762.7
Number of Fisher Scoring iterations: 5
如果我們保留偏移量并添加變量,我們可以看到它變得無用(對單位參數(shù)的測試)
Call:
Deviance Residuals:
Min ? ? ? 1Q ? Median ? ? ? 3Q ? ? ?Max
-3.0810 ?-0.8373 ?-0.1493 ? 0.5676 ? 3.9001
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.033503 ? 0.085460 -12.093 ? <2e-16 ***
log(E) ? ? ? 0.009201 ? 0.032920 ? 0.279 ? ? 0.78
---
Signif. codes: ?0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 1064.3 ?on 982 ?degrees of freedom
Residual deviance: 1064.2 ?on 981 ?degrees of freedom
AIC: 3762.7
Number of Fisher Scoring iterations: 5
在這里,我們確實(shí)具有純泊松過程,因此曝光至關(guān)重要,因?yàn)椴此煞植嫉膮?shù)與曝光成正比。但是我們不能從曝光中學(xué)到其他東西。
考慮一些真實(shí)數(shù)據(jù)。
nocontrat exposition zone puissance agevehicule
1 ? ? ? ?27 ? ? ? 0.87 ? ?C ? ? ? ? 7 ? ? ? ? ? 0
2 ? ? ? 115 ? ? ? 0.72 ? ?D ? ? ? ? 5 ? ? ? ? ? 0
3 ? ? ? 121 ? ? ? 0.05 ? ?C ? ? ? ? 6 ? ? ? ? ? 0
4 ? ? ? 142 ? ? ? 0.90 ? ?C ? ? ? ?10 ? ? ? ? ?10
5 ? ? ? 155 ? ? ? 0.12 ? ?C ? ? ? ? 7 ? ? ? ? ? 0
6 ? ? ? 186 ? ? ? 0.83 ? ?C ? ? ? ? 5 ? ? ? ? ? 0
ageconducteur bonus marque carburant densite region nbre
1 ? ? ? ? ? ?56 ? ?50 ? ? 12 ? ? ? ? D ? ? ?93 ? ? 13 ? ?0
2 ? ? ? ? ? ?45 ? ?50 ? ? 12 ? ? ? ? E ? ? ?54 ? ? 13 ? ?0
3 ? ? ? ? ? ?37 ? ?55 ? ? 12 ? ? ? ? D ? ? ?11 ? ? 13 ? ?0
4 ? ? ? ? ? ?42 ? ?50 ? ? 12 ? ? ? ? D ? ? ?93 ? ? 13 ? ?0
5 ? ? ? ? ? ?59 ? ?50 ? ? 12 ? ? ? ? E ? ? ?73 ? ? 13 ? ?0
6 ? ? ? ? ? ?75 ? ?50 ? ? 12 ? ? ? ? E ? ? ?42 ? ? 13 ? ?0
如果考慮暴露的對數(shù)的泊松回歸,將會得到什么?
> summary(reg)
Call:
Deviance Residuals:
Min ? ? ? 1Q ? Median ? ? ? 3Q ? ? ?Max
-0.3988 ?-0.3388 ?-0.2786 ?-0.1981 ?12.9036
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) ? ? -2.83045 ? ?0.02822 -100.31 ? <2e-16 ***
log(exposition) ?0.53950 ? ?0.02905 ? 18.57 ? <2e-16 ***
---
Signif. codes: ?0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 12931 ?on 49999 ?degrees of freedom
Residual deviance: 12475 ?on 49998 ?degrees of freedom
AIC: 16150
Number of Fisher Scoring iterations: 6
如果將曝光量添加到偏移量中,會發(fā)生什么情況?(我們使用非參數(shù)轉(zhuǎn)換,可視化發(fā)生的情況)
plot(reg,se=TRUE)

有明顯而顯著的效果。時間越長,他們獲得索賠的可能性就越小。實(shí)際上,無需進(jìn)行回歸即可觀察到它。
> plot(h1$mids,h1$density,type='s',lwd=2,col="red")
> lines(h0$mids,h0$density,type='s',col='blue',lwd=2)

?
藍(lán)色為沒有索賠人的風(fēng)險密度,紅色為有一個或多個索賠人的風(fēng)險密度。
因此,在這里,我們不能假設(shè)參數(shù)的單位值。這意味著什么 ?我們可以重現(xiàn)這種行為嗎?
為了更好地理解被保險人,請考慮兩種可能的行為。第一個是:如果公司在沒有索賠的幾年后沒有提供大幅折扣,則被保險人可能會離開公司。例如,如果被保險人在5年內(nèi)沒有索償,那么5年后,他將離開公司(例如,獲得更高的價格)。該代碼
> df=data.frame(N=N,E=exposure/365)
如果我考慮的是1500天而不是5年。
> summary(reg)
Call:
Deviance Residuals:
Min ? ? ? 1Q ? Median ? ? ? 3Q ? ? ?Max
-1.5684 ?-0.9668 ?-0.2321 ? 0.4244 ? 3.6265
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.50844 ? ?0.10286 ?-24.39 ? <2e-16 ***
log(E) ? ? ? 1.65738 ? ?0.04494 ? 36.88 ? <2e-16 ***
---
Signif. codes: ?0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 2567.31 ?on 982 ?degrees of freedom
Residual deviance: ?885.71 ?on 981 ?degrees of freedom
此處,系數(shù)(明顯)大于1。
> summary(reg)
Call:
Deviance Residuals:
Min ? ? ? 1Q ? Median ? ? ? 3Q ? ? ?Max
-1.5684 ?-0.9668 ?-0.2321 ? 0.4244 ? 3.6265
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.50844 ? ?0.10286 ?-24.39 ? <2e-16 ***
log(E) ? ? ? 0.65738 ? ?0.04494 ? 14.63 ? <2e-16 ***
---
Signif. codes: ?0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 1114.24 ?on 982 ?degrees of freedom
Residual deviance: ?885.71 ?on 981 ?degrees of freedom
AIC: 2897.9
這里顯然存在偏見:長時間待在辦公室的人更可能發(fā)生事故。這與我們的想法一致,因?yàn)榭蛻舻娘L(fēng)險較低。
第二種行為是:有時,被保險人對索賠的處理方式不滿意,他們可能會在第一次索賠后離開??紤]一種情況,在一項(xiàng)索賠之后,被保險人很可能(例如,概率為50%)離開公司。與其假設(shè)被保險人不喜歡理賠管理,不如考慮汽車被嚴(yán)重?fù)p壞以至于他不能再開車了。因此,支付保險費(fèi)將毫無用處。這里的代碼
> for(i in 1:n){
+ ? expo=D2-arrival[i]
+ ? w=0
+ ? exposure[i]=departure[i]-arrival[i]}
> df=data.frame(N=N,E=exposure/365)
在這里,在每次索賠之后,被保險人扔硬幣查看他是否取消合同。
Deviance Residuals:
Min ? ? ? ?1Q ? ?Median ? ? ? ?3Q ? ? ? Max
-2.28402 ?-0.47763 ?-0.08215 ? 0.33819 ? 2.37628
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) ?0.09920 ? ?0.04251 ? 2.334 ? 0.0196 *
log(E) ? ? ? 0.30640 ? ?0.02511 ?12.203 ? <2e-16 ***
---
Signif. codes: ?0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 666.92 ?on 982 ?degrees of freedom
Residual deviance: 498.29 ?on 981 ?degrees of freedom
AIC: 2666.3
這次,參數(shù)(再次顯著)小于1。
Deviance Residuals:
Min ? ? ? ?1Q ? ?Median ? ? ? ?3Q ? ? ? Max
-2.28402 ?-0.47763 ?-0.08215 ? 0.33819 ? 2.37628
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) ?0.09920 ? ?0.04251 ? 2.334 ? 0.0196 *
log(E) ? ? ?-0.69360 ? ?0.02511 -27.625 ? <2e-16 ***
---
Signif. codes: ?0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 1116.87 ?on 982 ?degrees of freedom
Residual deviance: ?498.29 ?on 981 ?degrees of freedom
AIC: 2666.3
現(xiàn)在的情況已經(jīng)大不相同了,因?yàn)槟切┐玫娜藨?yīng)該不會遇到很多離開的機(jī)會。顯然,他們沒有太多要求。如果某人的風(fēng)險敞口很大,那么上面輸出中的負(fù)號表示該人平均應(yīng)該沒有太多債權(quán)。
如我們所見,這些模型產(chǎn)生了相當(dāng)大的差異輸出。注意,可能有更多的解釋。例如,根據(jù)提取數(shù)據(jù)的方式,
在過去的二十年中,所有遵守的政策,
到現(xiàn)在為止所有在特定日期生效的政策
在某個特定日期生效的所有政策,直到之后的一年
現(xiàn)在生效的所有政策
到目前為止,我們一直在使用第一種方法,但是其他方法會產(chǎn)生不同的解釋。