R語言多分類logistic邏輯回歸模型在混合分布模擬單個(gè)風(fēng)險(xiǎn)損失值評(píng)估的應(yīng)用
原文鏈接:http://tecdat.cn/?p=14017
?
?
通常,我們?cè)诨貧w模型中一直說的一句話是“?請(qǐng)查看一下數(shù)據(jù)?”。
在上一篇文章中,我們沒有查看數(shù)據(jù)。如果我們查看單個(gè)損失的分布,那么在數(shù)據(jù)集中,我們會(huì)看到以下內(nèi)容:
> n=nrow(couts)
> plot(sort(couts$cout),(1:n)/(n+1),xlim=c(0,10000),type="s",lwd=2,col="green")
?
看來我們的數(shù)據(jù)庫中有固定成本索賠。在標(biāo)準(zhǔn)情況下,我們?nèi)绾翁幚??我們可以在這里使用混合分布,
與
小額索賠的分布
,例如指數(shù)分布
狄拉克分布
,即
分布
,例如Gamma分布或?qū)?shù)正態(tài)分布
> ?I1=which(couts$cout<1120)
> ?I2=which((couts$cout>=1120)&(couts$cout<1220))
> ?I3=which(couts$cout>=1220)
> ?(p1=length(I1)/nrow(couts))
[1] 0.3284823
> ?(p2=length(I2)/nrow(couts))
[1] 0.4152807
> ?(p3=length(I3)/nrow(couts))
[1] 0.256237
> ?X=couts$cout
> ?(kappa=mean(X[I2]))
[1] 1171.998
?
在上一篇文章中,我們討論了所有參數(shù)可能與某些協(xié)變量相關(guān)的想法,即
產(chǎn)生以下模型,
對(duì)于概率,我們應(yīng)該使用多項(xiàng)式模型?;貞浺幌逻壿嫽貧w模型,如果
,則
即
?
要導(dǎo)出多元擴(kuò)展
?
和
同樣,可以使用最大似然,因?yàn)?/p>
在這里,變量
? (分為三個(gè)級(jí)別)分為三個(gè)指標(biāo)(就像標(biāo)準(zhǔn)回歸模型中的任何分類解釋變量一樣)。從而,
對(duì)于邏輯回歸,然后使用牛頓拉夫森(Newton Raphson)算法在數(shù)值上計(jì)算最大似然。在R中,首先我們必須定義級(jí)別,例如
> couts$tranches=cut(couts$cout,breaks=seuils,
+ labels=c("small","fixed","large"))
然后,我們可以定義一個(gè)多分類logistic模型回歸
使用一些選定的協(xié)變量
> formula=(tranches~ageconducteur+agevehicule+zone+carburant,data=couts)
# weights: ?30 (18 variable)
initial ?value 2113.730043
iter ?10 value 2063.326526
iter ?20 value 2059.206691
final ?value 2059.134802
converged
輸出在這里
Coefficients:
(Intercept) ageconducteur agevehicule ? ? ?zoneB ? ? ?zoneC
fixed ?-0.2779176 ? 0.012071029 ?0.01768260 0.05567183 -0.2126045
large ?-0.7029836 ? 0.008581459 -0.01426202 0.07608382 ?0.1007513
zoneD ? ? ?zoneE ? ? ?zoneF ? carburantE
fixed -0.1548064 -0.2000597 -0.8441011 -0.009224715
large ?0.3434686 ?0.1803350 -0.1969320 ?0.039414682
Std. Errors:
(Intercept) ageconducteur agevehicule ? ? zoneB ? ? zoneC ? ? zoneD
fixed ? 0.2371936 ? 0.003738456 ?0.01013892 0.2259144 0.1776762 0.1838344
large ? 0.2753840 ? 0.004203217 ?0.01189342 0.2746457 0.2122819 0.2151504
zoneE ? ? zoneF carburantE
fixed 0.1830139 0.3377169 ?0.1106009
large 0.2160268 0.3624900 ?0.1243560
為了可視化協(xié)變量的影響,還可以使用樣條函數(shù)
> library(splines)
> reg=(tranches~bs(agevehicule))
# weights: ?15 (8 variable)
initial ?value 2113.730043
iter ?10 value 2070.496939
iter ?20 value 2069.787720
iter ?30 value 2069.659958
final ?value 2069.479535
converged
例如,如果協(xié)變量是汽車的壽命,那么我們有以下概率
> predict(reg,newdata=data.frame(agevehicule=5),type="probs")
small ? ? fixed ? ? large
0.3388947 0.3869228 0.2741825
對(duì)于0到20歲的所有年齡段,
?
例如,對(duì)于新車,固定成本所占的比例很?。ㄔ谶@里為紫色),并且隨著車齡的增長而不斷增加。如果協(xié)變量是駕駛員居住地區(qū)的人口密度,那么我們獲得以下概率
# weights: ?15 (8 variable)
initial ?value 2113.730043
iter ?10 value 2068.469825
final ?value 2068.466349
converged
> predict
small ? ? fixed ? ? large
0.3484422 0.3473315 0.3042263
?
基于這些概率,可以在給定一些協(xié)變量(例如密度)的情況下得出索賠的預(yù)期成本。但首先,定義整個(gè)數(shù)據(jù)集的子集
> sbaseA=couts[couts$tranches=="small",]
> sbaseB=couts[couts$tranches=="fixed",]
> sbaseC=couts[couts$tranches=="large",]
閾值由
> (k=mean(sousbaseB$cout))
[1] 1171.998
?
然后,讓我們運(yùn)行四個(gè)模型,
> reg
> regA
> regB
> regC
現(xiàn)在,我們可以基于這些模型計(jì)算預(yù)測(cè),
> pred=cbind(predA,predB,predC)
為了可視化每個(gè)組成部分對(duì)溢價(jià)的影響,我們可以計(jì)算概率,預(yù)期成本(給定每個(gè)子集的成本),
> cbind(proba,pred)[seq(10,90,by=10),]
small ? ? fixed ? ? large ? ?predA ? ?predB ? ?predC
10 0.3344014 0.4241790 0.2414196 423.3746 1171.998 7135.904
20 0.3181240 0.4471869 0.2346892 428.2537 1171.998 6451.890
30 0.3076710 0.4626572 0.2296718 438.5509 1171.998 5499.030
40 0.3032872 0.4683247 0.2283881 451.4457 1171.998 4615.051
50 0.3052378 0.4620219 0.2327404 463.8545 1171.998 3961.994
60 0.3136136 0.4417057 0.2446807 472.3596 1171.998 3586.833
70 0.3279413 0.4056971 0.2663616 473.3719 1171.998 3513.601
80 0.3464842 0.3534126 0.3001032 463.5483 1171.998 3840.078
90 0.3652932 0.2868006 0.3479061 440.4925 1171.998 4912.379
現(xiàn)在,可以將這些數(shù)字繪制在圖形中,
?
(水平虛線在我們的數(shù)據(jù)集中是索賠的平均費(fèi)用)。
?
?
?
?
?
專欄
?
精算科學(xué)
?
關(guān)于結(jié)合數(shù)學(xué)、統(tǒng)計(jì)方法以及程序語言對(duì)經(jīng)濟(jì)活動(dòng)來做風(fēng)險(xiǎn)分析、評(píng)估的見解。
?
探索專欄??
?
參考文獻(xiàn)
?
1.用SPSS估計(jì)HLM層次線性模型模型
?
2.R語言線性判別分析(LDA),二次判別分析(QDA)和正則判別分析(RDA)
?
3.基于R語言的lmer混合線性回歸模型
?
4.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析
?
5.在r語言中使用GAM(廣義相加模型)進(jìn)行電力負(fù)荷時(shí)間序列分析
?
6.使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
?
7.R語言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化
?
8.R語言用線性回歸模型預(yù)測(cè)空氣質(zhì)量臭氧數(shù)據(jù)
?
9.R語言分層線性模型案例
?