R語言邏輯回歸和泊松回歸模型對發(fā)生交通事故概率建模
原文鏈接?http://tecdat.cn/?p=14139
我們已經(jīng)看到了如何考慮風險敞口,計算包含風險敞口的多個數(shù)量(經(jīng)驗均值和經(jīng)驗方差)的非參數(shù)估計量。讓我們看看如果要對二項式變量建模。
這里的模型如下:
未觀察到
該期間的索賠數(shù)量?
索償?shù)臄?shù)量??
?

考慮一種情況,其中關注變量不是索償?shù)臄?shù)量,而僅僅是索償發(fā)生的標志。然后,我們希望將事件模型
對比
,解釋為不發(fā)生和發(fā)生。鑒于我們只能觀察
vs? ?
。利用泊松過程模型,我們可以獲得

這意味著在一年的前六個月中沒有索賠的概率是一年中沒有索賠的平方根。假設可以
通過一些鏈接函數(shù)(使用GLM術語)表示為一些協(xié)變量來解釋沒有索賠的概率,

現(xiàn)在,因為我們確實觀察到??
而不是??
我們有

我們將使用的數(shù)據(jù)集
> T1= contrat$nocontrat[I==FALSE]
> nombre2 = data.frame(nocontrat=T1,nbre=0)
> sinistres = merge(contrat,nombre)
> sinistres$nonsin = (sinistres$nbre==0)
我們可以考慮的第一個模型基于標準的邏輯回歸方法

很好,但是很難用標準函數(shù)處理。盡管如此,始終有可能通過數(shù)值計算給定的最大似然估計量。
> optim(fn=logL,par=c(-0.0001,-.001),
+ method="BFGS")
$par
[1] 2.14420560 0.01040707
$value
[1] 7604.073
$counts
function gradient
? ? ?42 ? ? ? 10
$convergence
[1] 0
$message
NULL
現(xiàn)在,讓我們看看基于標準回歸模型的替代方案。例如對數(shù)線性模型(Logistic回歸算法)。因為暴露數(shù)是年概率的冪,所以如果
是指數(shù)函數(shù)(或??
對數(shù)鏈接函數(shù))? ,因為

現(xiàn)在,我們對其進行編碼,
Error: no valid set of coefficients has been found: please supply starting values
嘗試了所有可能的方法,但是無法解決該錯誤消息,
> reg=glm(nonsin~ageconducteur+offset(exposition),
+ data=sinistresI,family=binomial(link="log"),
+ control = glm.control(epsilon=1e-5,trace=TRUE,maxit=50),
+ start=startglm,
+ etastart=etaglm,mustart=muglm)
Deviance = NaN Iterations - 1
Error: no valid set of coefficients has been found: please supply starting values
所以我決定放棄。實際上,問題出在
接近1?的事實。因為

其中
接近0,所以我們可以用泰勒展開,
在這里,暴露數(shù)不再顯示為概率的冪,而是相乘。如果我們考慮對數(shù)鏈接函數(shù),那么我們可以合并暴露數(shù)的對數(shù)。
現(xiàn)在可以完美運行了。
現(xiàn)在,要查看最終模型,我們回到Poisson回歸模型,因為我們確實有概率模型
。
現(xiàn)在我們可以比較這三個模型。我們還應該包括沒有任何解釋變量的預測。對于第二個模型(實際上,它運行時沒有任何解釋變量),我們運行
> ?regreff=glm((1-nonsin)~1+offset(log(exposition)),
+ data=sinistres,family=binomial(link="log"))
預測
> exp(coefficients(regreff))
(Intercept)
0.06776376
可與邏輯回歸比較,
> 1-exp(param)/(1+exp(param))
[1] 0.06747777
但是與泊松模型有很大的不同,
(Intercept)
0.07279295
我們產(chǎn)生一個圖表比較那些模型,
> lines(age,1-yml1,type="l",col="purple")
> abline(h=exp(coefficients(regreff)),lty=2)
在這里觀察到這三個模型是完全不同的。實際上,使用兩個模型,可以進行更復雜的回歸分析(例如使用樣條曲線),以可視化年齡對發(fā)生或不發(fā)生交通事故概率的影響。如果將泊松回歸(仍為紅色)和對數(shù)二項式模型與泰勒展開進行比較,我們得到

?
參考文獻
1.R語言多元Logistic邏輯回歸 應用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.在R語言中實現(xiàn)Logistic邏輯回歸
8.python用線性回歸預測股票價格
9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標