R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析
原文鏈接:http://tecdat.cn/?p=10067
教育或醫(yī)學(xué)的標(biāo)準(zhǔn)情況是我們有一項(xiàng)連續(xù)的措施,但隨后我們對(duì)那些具有臨床/實(shí)踐意義的措施有了切入點(diǎn)。一個(gè)例子是BMI。您可能有一個(gè)成績(jī)測(cè)試,合格分?jǐn)?shù)為70。研究人員有時(shí)可能會(huì)對(duì)30歲以上的BMI建模感興趣,或者對(duì)通過(guò)/失敗作的結(jié)果感興趣。實(shí)質(zhì)性問(wèn)題通常落在對(duì)某人超過(guò)/低于此臨床上顯著閾值的概率進(jìn)行建模的范疇之內(nèi)。因此,我們將連續(xù)測(cè)量結(jié)果分為兩部分,并使用邏輯回歸等方法分析。
回到介紹性統(tǒng)計(jì)信息,您會(huì)聽(tīng)到類似的信息:大多數(shù)人寧愿使用規(guī)則線性回歸而不是邏輯回歸。但是,在上述情況下,出于實(shí)質(zhì)性原因,我們經(jīng)常有理由將結(jié)果一分為二。
因此,這是建議:
估計(jì)連續(xù)結(jié)果的線性模型
可以對(duì)它們?nèi)缫垣@取賠率。
我們不在乎線性回歸的截距,因?yàn)樗鼤?huì)受到閾值的影響。
那么這種方法在實(shí)踐中如何起作用?在使用邏輯回歸分析之前嘗試在不同閾值上將連續(xù)變量二等分的任何人都知道,估計(jì)的系數(shù)確實(shí)會(huì)發(fā)生變化,并且它們會(huì)發(fā)生很大的變化!這是否與結(jié)果不應(yīng)依賴閾值的說(shuō)法相符?
我們可以使用模擬進(jìn)行檢查。首先,我將逐步介紹數(shù)據(jù)生成過(guò)程:
set.seed(12345) # Set seed for reproducible results
# Our single x variable is binary with 50% 0s and 50% 1s
# so like random assignment to treatment and control
# Our sample size is 300
dat <- data.frame(x = rbinom(300, 1, .5))
# Outcome ys = intercept of -0.5, the coefficient of x is 1 and there is logistic error
dat$yc <- -.5 + dat$x + rlogis(nrow(dat))
yc
:
?
然后,我們可以yc
在各個(gè)點(diǎn)上將結(jié)果分為兩部分,以查看x
當(dāng)使用邏輯回歸時(shí)是否會(huì)影響估計(jì)系數(shù):
x
0.9619012
x
1.002632
x
0.8382662
數(shù)字有些不同。如果我們yc
直接將線性回歸應(yīng)用?
# First, we create an equation to extract the coefficients and
# transform them using the transform to logit formula above.
x
1.157362
所有這些數(shù)字彼此之間并沒(méi)有太大差異。如果我們對(duì)它們求冪以獲得比值比,它們的差異會(huì)更大?,F(xiàn)在,我們可以重復(fù)此過(guò)程幾次,以比較結(jié)果中的模式。我重復(fù)2500次:
vlt.x ? ? ?lt.x ? ? ?mt.x ? ? ?ht.x ? ? vht.x ? ? ols.x
1.0252116 1.0020822 1.0049156 1.0101613 1.0267511 0.9983772
這些數(shù)字是不同方法的平均回歸系數(shù)。
v代表非常,l / m / h代表低/中/高,t代表閾值,ols是回歸結(jié)果。因此,例如,vlt.x是來(lái)自極低閾值模型的平均x系數(shù)。
所有方法的這些估計(jì)系數(shù)平均約為1,這就是我們編寫(xiě)的程序!每個(gè)方法的可變性如何?
boxplot(res)

我們看到,盡管平均值大致相同,但是當(dāng)閾值極高時(shí),估計(jì)的系數(shù)就更加可變。最小的可變系數(shù)是變換后的線性回歸系數(shù),因此當(dāng)我們使用線性回歸方法時(shí),結(jié)果有些穩(wěn)定。閾值越極端,我們獲得的可變系數(shù)就越多。我們經(jīng)常將數(shù)據(jù)二分法用于極端情況下的邏輯回歸。
不同方法之間的估計(jì)系數(shù)如何?

我們看到,盡管所有方法聲稱x
的系數(shù)y
平均為1,但閾值非常低時(shí)的估計(jì)系數(shù)與閾值非常高時(shí)的估計(jì)系數(shù)非常弱相關(guān)(.13)。這些差異僅反映閾值,并且可能在實(shí)際數(shù)據(jù)分析中產(chǎn)生誤導(dǎo)。人們可能會(huì)相信,在不同的閾值處的估計(jì)值差異很大,而在不同的閾值下卻代表不同的人口參數(shù)(真實(shí)系數(shù))。與每種方法最相關(guān)的方法是線性回歸方法。線性回歸方法與中閾值結(jié)果最相關(guān)。它也是最穩(wěn)定的。
從本質(zhì)上講,當(dāng)將數(shù)據(jù)按極端閾值二等分時(shí),我們是否應(yīng)該相信這些發(fā)現(xiàn)?還是應(yīng)該只使用變換后的線性回歸系數(shù)?
在結(jié)果的不同分位數(shù)處,預(yù)測(cè)變量和結(jié)果之間的關(guān)系也可能不同--分位數(shù)回歸情況探討。
?