R語言邏輯回歸Logisitc逐步回歸訓(xùn)練與驗證樣本估計分析心臟病數(shù)據(jù)參數(shù)可視化
原文鏈接:http://tecdat.cn/?p=26932?
原文出處:拓端數(shù)據(jù)部落公眾號
?
在進(jìn)行交叉驗證之前,很自然地說“我會預(yù)燒 50%(比如說)我的數(shù)據(jù)來訓(xùn)練一個模型,然后用剩下的來擬合模型”。例如,我們可以使用訓(xùn)練數(shù)據(jù)進(jìn)行變量選擇(例如,在邏輯回歸中使用一些逐步過程),然后,一旦選擇了變量,就將模型擬合到剩余的觀察集上。一個自然的問題通常是“這真的重要嗎?”。
為了可視化這個問題,考慮我的(簡單)數(shù)據(jù)集
使用心臟病數(shù)據(jù),預(yù)測急診病人的心肌梗死,包含變量:
心臟指數(shù)
心搏量指數(shù)
舒張壓
肺動脈壓
心室壓力
肺阻力
是否存活
讓我們生成 100 個訓(xùn)練樣本(我們保留大約 50% 的觀察值)。在它們中的每一個上,我們使用逐步過程,并保留剩余變量的估計值(以及它們的標(biāo)準(zhǔn)差)
M=matrix(NA,100,ncol(MODE))
for(i in 1:100){
reg=step(glm(PRO=="CS"~.,dataYE[idx,]))
然后,對于 7 個協(xié)變量(和常數(shù)),我們可以查看擬合在訓(xùn)練樣本上的模型中的系數(shù)值,以及擬合在驗證樣本上的模型上的值
idx=which(!is.na(M[,j]))
plot(M[idx,j],M2[idx,j])
abline
segments
例如,對于截距,我們有以下

其中水平段是模型上擬合在訓(xùn)練樣本上的參數(shù)的置信區(qū)間,垂直段是驗證樣本上的置信區(qū)間。藍(lán)色部分表示某種一致性,而紅色部分表示實際上,一個模型的系數(shù)為負(fù),另一個模型為正。
我們還可以可視化兩個估計量的聯(lián)合分布,
for(j in 1:8){
fa = kde(x=Z, H=H)
image(fat$eots[[1]],
在這里,幾乎在對角線上,

這意味著兩個樣本的截距(或多或少)相同。然后我們可以查看其他參數(shù)。

?

在該變量上,它似乎在訓(xùn)練數(shù)據(jù)集上很顯著(不知何故,這與它在逐步過程之后保留在模型中的事實一致)但在驗證樣本上不顯著(或幾乎不顯著)。
其他的則更加一致(有一些可能的異常值)






在下一個問題上,我們在訓(xùn)練樣本上又有顯著性,但在驗證樣本上沒有。




可能更有趣:


兩者非常一致。
?

最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預(yù)測心臟病
8.python用線性回歸預(yù)測股票價格
9.R語言用邏輯回歸、決策樹和隨機森林對信貸數(shù)據(jù)集進(jìn)行分類預(yù)測