最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析

2021-03-06 12:46 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=10067

教育或醫(yī)學(xué)的標(biāo)準(zhǔn)情況是我們有一項(xiàng)連續(xù)的措施,但隨后我們對(duì)那些具有臨床/實(shí)踐意義的措施有了切入點(diǎn)。一個(gè)例子是BMI。您可能有一個(gè)成績(jī)測(cè)試,合格分?jǐn)?shù)為70。研究人員有時(shí)可能會(huì)對(duì)30歲以上的BMI建模感興趣,或者對(duì)通過(guò)/失敗作的結(jié)果感興趣。實(shí)質(zhì)性問(wèn)題通常落在對(duì)某人超過(guò)/低于此臨床上顯著閾值的概率進(jìn)行建模的范疇之內(nèi)。因此,我們將連續(xù)測(cè)量結(jié)果分為兩部分,并使用邏輯回歸等方法分析。

回到介紹性統(tǒng)計(jì)信息,您會(huì)聽(tīng)到類似的信息:大多數(shù)人寧愿使用規(guī)則線性回歸而不是邏輯回歸。但是,在上述情況下,出于實(shí)質(zhì)性原因,我們經(jīng)常有理由將結(jié)果一分為二。

因此,這是建議:

  • 估計(jì)連續(xù)結(jié)果的線性模型

  • 可以對(duì)它們?nèi)缫垣@取賠率。

  • 我們不在乎線性回歸的截距,因?yàn)樗鼤?huì)受到閾值的影響。

那么這種方法在實(shí)踐中如何起作用?在使用邏輯回歸分析之前嘗試在不同閾值上將連續(xù)變量二等分的任何人都知道,估計(jì)的系數(shù)確實(shí)會(huì)發(fā)生變化,并且它們會(huì)發(fā)生很大的變化!這是否與結(jié)果不應(yīng)依賴閾值的說(shuō)法相符?

我們可以使用模擬進(jìn)行檢查。首先,我將逐步介紹數(shù)據(jù)生成過(guò)程:

  1. set.seed(12345) # Set seed for reproducible results


  2. # Our single x variable is binary with 50% 0s and 50% 1s

  3. # so like random assignment to treatment and control

  4. # Our sample size is 300

  5. dat <- data.frame(x = rbinom(300, 1, .5))

  6. # Outcome ys = intercept of -0.5, the coefficient of x is 1 and there is logistic error

  7. dat$yc <- -.5 + dat$x + rlogis(nrow(dat))

yc

?

然后,我們可以yc在各個(gè)點(diǎn)上將結(jié)果分為兩部分,以查看x當(dāng)使用邏輯回歸時(shí)是否會(huì)影響估計(jì)系數(shù):

  1. x

  2. 0.9619012


  3. x

  4. 1.002632


  5. x

  6. 0.8382662

數(shù)字有些不同。如果我們yc直接將線性回歸應(yīng)用?

  1. # First, we create an equation to extract the coefficients and

  2. # transform them using the transform to logit formula above.


  3. x

  4. 1.157362

所有這些數(shù)字彼此之間并沒(méi)有太大差異。如果我們對(duì)它們求冪以獲得比值比,它們的差異會(huì)更大?,F(xiàn)在,我們可以重復(fù)此過(guò)程幾次,以比較結(jié)果中的模式。我重復(fù)2500次:


  1. vlt.x ? ? ?lt.x ? ? ?mt.x ? ? ?ht.x ? ? vht.x ? ? ols.x

  2. 1.0252116 1.0020822 1.0049156 1.0101613 1.0267511 0.9983772

這些數(shù)字是不同方法的平均回歸系數(shù)。

v代表非常,l / m / h代表低/中/高,t代表閾值,ols是回歸結(jié)果。因此,例如,vlt.x是來(lái)自極低閾值模型的平均x系數(shù)。

所有方法的這些估計(jì)系數(shù)平均約為1,這就是我們編寫(xiě)的程序!每個(gè)方法的可變性如何?

boxplot(res)

Boxres

我們看到,盡管平均值大致相同,但是當(dāng)閾值極高時(shí),估計(jì)的系數(shù)就更加可變。最小的可變系數(shù)是變換后的線性回歸系數(shù),因此當(dāng)我們使用線性回歸方法時(shí),結(jié)果有些穩(wěn)定。閾值越極端,我們獲得的可變系數(shù)就越多。我們經(jīng)常將數(shù)據(jù)二分法用于極端情況下的邏輯回歸。

不同方法之間的估計(jì)系數(shù)如何?

對(duì)

我們看到,盡管所有方法聲稱x的系數(shù)y平均為1,但閾值非常低時(shí)的估計(jì)系數(shù)與閾值非常高時(shí)的估計(jì)系數(shù)非常弱相關(guān)(.13)。這些差異僅反映閾值,并且可能在實(shí)際數(shù)據(jù)分析中產(chǎn)生誤導(dǎo)。人們可能會(huì)相信,在不同的閾值處的估計(jì)值差異很大,而在不同的閾值下卻代表不同的人口參數(shù)(真實(shí)系數(shù))。與每種方法最相關(guān)的方法是線性回歸方法。線性回歸方法與中閾值結(jié)果最相關(guān)。它也是最穩(wěn)定的。

從本質(zhì)上講,當(dāng)將數(shù)據(jù)按極端閾值二等分時(shí),我們是否應(yīng)該相信這些發(fā)現(xiàn)?還是應(yīng)該只使用變換后的線性回歸系數(shù)?

在結(jié)果的不同分位數(shù)處,預(yù)測(cè)變量和結(jié)果之間的關(guān)系也可能不同--分位數(shù)回歸情況探討。

?


R語(yǔ)言對(duì)二分連續(xù)變量進(jìn)行邏輯回歸數(shù)據(jù)分析的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
定安县| 惠水县| 剑阁县| 红原县| 兰州市| 玛曲县| 隆尧县| 北宁市| 江都市| 台州市| 柘荣县| 南川市| 北京市| 宕昌县| 宁国市| 和龙市| 临海市| 宜良县| 辽阳市| 凤山县| 泗洪县| 许昌县| 克东县| 平定县| 防城港市| 淄博市| 乌拉特前旗| 武乡县| 磐石市| 高台县| 鲜城| 咸宁市| 西盟| 台东县| 舞钢市| 大名县| 宣城市| 南和县| 博湖县| 晴隆县| 洛扎县|