散文網(wǎng) » 生活 »日常 » R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析

R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析

2021-03-06 12:46 作者:拓端tecdat 0人讀過(guò) | 我要投稿

原文鏈接：http://tecdat.cn/?p=10067

教育或醫(yī)學(xué)的標(biāo)準(zhǔn)情況是我們有一項(xiàng)連續(xù)的措施，但隨后我們對(duì)那些具有臨床/實(shí)踐意義的措施有了切入點(diǎn)。一個(gè)例子是BMI。您可能有一個(gè)成績(jī)測(cè)試，合格分?jǐn)?shù)為70。研究人員有時(shí)可能會(huì)對(duì)30歲以上的BMI建模感興趣，或者對(duì)通過(guò)/失敗作的結(jié)果感興趣。實(shí)質(zhì)性問(wèn)題通常落在對(duì)某人超過(guò)/低于此臨床上顯著閾值的概率進(jìn)行建模的范疇之內(nèi)。因此，我們將連續(xù)測(cè)量結(jié)果分為兩部分，并使用邏輯回歸等方法分析。

回到介紹性統(tǒng)計(jì)信息，您會(huì)聽(tīng)到類似的信息:大多數(shù)人寧愿使用規(guī)則線性回歸而不是邏輯回歸。但是，在上述情況下，出于實(shí)質(zhì)性原因，我們經(jīng)常有理由將結(jié)果一分為二。

因此，這是建議：

估計(jì)連續(xù)結(jié)果的線性模型
可以對(duì)它們?nèi)缫垣@取賠率。
我們不在乎線性回歸的截距，因?yàn)樗鼤?huì)受到閾值的影響。

那么這種方法在實(shí)踐中如何起作用？在使用邏輯回歸分析之前嘗試在不同閾值上將連續(xù)變量二等分的任何人都知道，估計(jì)的系數(shù)確實(shí)會(huì)發(fā)生變化，并且它們會(huì)發(fā)生很大的變化！這是否與結(jié)果不應(yīng)依賴閾值的說(shuō)法相符？

我們可以使用模擬進(jìn)行檢查。首先，我將逐步介紹數(shù)據(jù)生成過(guò)程：

set.seed(12345) # Set seed for reproducible results
# Our single x variable is binary with 50% 0s and 50% 1s
# so like random assignment to treatment and control
# Our sample size is 300
dat <- data.frame(x = rbinom(300, 1, .5))
# Outcome ys = intercept of -0.5, the coefficient of x is 1 and there is logistic error
dat$yc <- -.5 + dat$x + rlogis(nrow(dat))

yc：

?

然后，我們可以yc在各個(gè)點(diǎn)上將結(jié)果分為兩部分，以查看x當(dāng)使用邏輯回歸時(shí)是否會(huì)影響估計(jì)系數(shù)：

x
0.9619012
x
1.002632
x
0.8382662

數(shù)字有些不同。如果我們yc直接將線性回歸應(yīng)用？

# First, we create an equation to extract the coefficients and
# transform them using the transform to logit formula above.
x
1.157362

所有這些數(shù)字彼此之間并沒(méi)有太大差異。如果我們對(duì)它們求冪以獲得比值比，它們的差異會(huì)更大?，F(xiàn)在，我們可以重復(fù)此過(guò)程幾次，以比較結(jié)果中的模式。我重復(fù)2500次：

vlt.x ? ? ?lt.x ? ? ?mt.x ? ? ?ht.x ? ? vht.x ? ? ols.x
1.0252116 1.0020822 1.0049156 1.0101613 1.0267511 0.9983772

這些數(shù)字是不同方法的平均回歸系數(shù)。

v代表非常，l / m / h代表低/中/高，t代表閾值，ols是回歸結(jié)果。因此，例如，vlt.x是來(lái)自極低閾值模型的平均x系數(shù)。

所有方法的這些估計(jì)系數(shù)平均約為1，這就是我們編寫(xiě)的程序！每個(gè)方法的可變性如何？

boxplot(res)

我們看到，盡管平均值大致相同，但是當(dāng)閾值極高時(shí)，估計(jì)的系數(shù)就更加可變。最小的可變系數(shù)是變換后的線性回歸系數(shù)，因此當(dāng)我們使用線性回歸方法時(shí)，結(jié)果有些穩(wěn)定。閾值越極端，我們獲得的可變系數(shù)就越多。我們經(jīng)常將數(shù)據(jù)二分法用于極端情況下的邏輯回歸。

不同方法之間的估計(jì)系數(shù)如何？

我們看到，盡管所有方法聲稱x的系數(shù)y平均為1，但閾值非常低時(shí)的估計(jì)系數(shù)與閾值非常高時(shí)的估計(jì)系數(shù)非常弱相關(guān)（.13）。這些差異僅反映閾值，并且可能在實(shí)際數(shù)據(jù)分析中產(chǎn)生誤導(dǎo)。人們可能會(huì)相信，在不同的閾值處的估計(jì)值差異很大，而在不同的閾值下卻代表不同的人口參數(shù)（真實(shí)系數(shù)）。與每種方法最相關(guān)的方法是線性回歸方法。線性回歸方法與中閾值結(jié)果最相關(guān)。它也是最穩(wěn)定的。

從本質(zhì)上講，當(dāng)將數(shù)據(jù)按極端閾值二等分時(shí)，我們是否應(yīng)該相信這些發(fā)現(xiàn)？還是應(yīng)該只使用變換后的線性回歸系數(shù)？

在結(jié)果的不同分位數(shù)處，預(yù)測(cè)變量和結(jié)果之間的關(guān)系也可能不同--分位數(shù)回歸情況探討。

?

標(biāo)簽：

R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析

R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析

本文作者的其他文章

R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析的評(píng)論 (共條)