統(tǒng)計(jì)咨詢:為什么我不建議隨便用逐步回歸法構(gòu)建回歸模型?
2023年以來浙中醫(yī)大學(xué)鄭老師開設(shè)了一系列醫(yī)學(xué)科研統(tǒng)計(jì)課程,零基礎(chǔ)入門醫(yī)學(xué)統(tǒng)計(jì)包括R語言、meta分析、臨床預(yù)測(cè)模型、真實(shí)世界臨床研究、問卷與量表分析、醫(yī)學(xué)統(tǒng)計(jì)與SPSS、臨床試驗(yàn)數(shù)據(jù)分析、重復(fù)測(cè)量資料分析、結(jié)構(gòu)方程模型、孟德爾隨機(jī)化等10門課,如果您有需求,不妨點(diǎn)擊下方跳轉(zhuǎn)查看:?
2023年鄭老師多門科研統(tǒng)計(jì)課程:多次直播,含孟德爾隨機(jī)化方法

先說我的建議
(1)如果你構(gòu)建預(yù)測(cè)模型,逐步回歸法可以用。
(2)如果你只是是探討影響因素,盡量不要用逐步回歸法。你覺得自變量太多,那么在單因素分析時(shí)候就限制(P值較小者納入多因素回歸),而不是逐步回歸法控制。
下文說理由:
現(xiàn)在很多人知道,回歸分析要么用來探討影響因素,要么可以用來構(gòu)建預(yù)測(cè)模型。但是構(gòu)建預(yù)測(cè)模型的文章畢竟少數(shù),絕大多數(shù)只是為了探討影響因素。
目前無論是哪個(gè)目的,國內(nèi)很多人開展統(tǒng)計(jì)分析,構(gòu)建回歸模型篩選自變量,都喜歡用逐步回歸法(向前、向后、雙向)。我不知道是哪里的統(tǒng)計(jì)學(xué)教育出問題了,還是就是因?yàn)榻y(tǒng)計(jì)學(xué)老師自己都沒有搞清楚?
事實(shí)上,逐步回歸法是是給構(gòu)建預(yù)測(cè)模型用的,不是探討影響因素用的。它的目的是用最少的因子,成功構(gòu)建出不差于全變量模型(通過用R^2、-2倍對(duì)數(shù)似然值或者AIC等指標(biāo)評(píng)價(jià)擬合效果),也就是通過軟件的方法,篩選出有用的自變量,其擬合效果不差于全部自變量放入模型,而且較少的自變量個(gè)數(shù)有利于模型的構(gòu)建(回歸模型樣本量對(duì)自變量個(gè)數(shù)有限制)。
但只是探討探討影響因素而非構(gòu)建預(yù)測(cè)模型時(shí),逐步回歸法有什么優(yōu)勢(shì)?
(1)有人說,逐步回歸法可以減少冗余的自變量
其實(shí),這不是好的解決辦法。冗余的自變量有兩套解決方案。
第一,我們構(gòu)建回歸時(shí)候,在考慮哪些可能的影響因素時(shí),就應(yīng)該慎重考慮,不是所有阿狗阿貓都作為候選自變量開展回歸分析,與結(jié)局變量“拉郎配”。
只有與結(jié)局變量可能存在著因果關(guān)系的變量,才推薦開展回歸分析。這一點(diǎn),是需要從專業(yè)上去考慮的。
第二,在統(tǒng)計(jì)分析的時(shí)候,若自變量個(gè)數(shù)很多,在單因素分析時(shí)就卡關(guān),不隨便納入自變量進(jìn)入最終的多因素回歸模型。一般單因素分析P值較小者納入回歸模型。
(2)逐步回歸法可以把沒有統(tǒng)計(jì)學(xué)意義的自變量淘汰出去,它們不應(yīng)該留在模型中
這種理解是不對(duì)的!多因素回歸可以允許P值大于0.05的自變量留在模型并報(bào)告出來嗎?當(dāng)然可以。而且也推薦呈現(xiàn)在最后報(bào)告中,以展現(xiàn)哪些有統(tǒng)計(jì)學(xué)意義,哪些沒有統(tǒng)計(jì)學(xué)意義。
(3)逐步回歸法效果更好不見得。逐步回歸法優(yōu)點(diǎn)在于把對(duì)因變量影響較小的都淘汰掉,自變量個(gè)數(shù)減少了,所以留在模型的自變量效應(yīng)會(huì)增強(qiáng)!看起來變美好了。
這個(gè)前提是你自變量實(shí)在太多了。但是,這種情況是不多見的。如果回歸分析放入太多的自變量,那么逐步回歸法也挽救不了你。
(4)有人說,逐步回歸法可以處理多重共線性
很多時(shí)候,由于自變量存在著高度相關(guān)。這個(gè)時(shí)候,連教科書都推薦試試逐步回歸法呀!
這種做法其實(shí)很要命!這是一種完全無視數(shù)據(jù)特點(diǎn),強(qiáng)行胡亂進(jìn)行自變量篩選的一種方法。
為什么有多重共線性?多重共線性往往由于變量之間存在著關(guān)聯(lián)性,這種關(guān)聯(lián)性有幾種情況:
第一,這個(gè)變量是混雜變量,由于混雜變量與自變量相關(guān),所以造成部分共線性
第二,這個(gè)變量是中介變量,中介變量也會(huì)造成自變量相關(guān)第三,變量是同個(gè)東西。比如年齡這一定量變量和根據(jù)年齡進(jìn)行分組產(chǎn)生年齡的等級(jí)變量,那么原先的年齡定量數(shù)據(jù)和等級(jí)變量的年齡就是高度相關(guān),如果它們一同納入模型,就會(huì)造成共線性第四,一個(gè)事物的兩個(gè)屬性,比如身高與坐高,相關(guān)高度相關(guān),如果,如果他們一同納入模型,就會(huì)造成共線性
實(shí)際上,除了第一點(diǎn)之外,我們?cè)谔幚矶嘀毓簿€性時(shí),典型的方法是排除造成多重共線性的變量。比如身高坐高在回歸分析應(yīng)該2選1,定量年齡和分類年齡應(yīng)該2選1,中介變量不能納入模型。
逐步回歸法解決不了真正復(fù)雜的多重共線性,但會(huì)給你一種假象:我用了逐步回歸法,所以我的結(jié)果很可靠!實(shí)際上,當(dāng)你忽視自變量之間的關(guān)系屬性而直接應(yīng)用逐步回歸法, 統(tǒng)計(jì)分析結(jié)果結(jié)果不太會(huì)好看。
詳情請(qǐng)點(diǎn)擊下方:
https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650404504&idx=4&sn=a4d9d907c81301bda9e9b899645edb56&chksm=83518b30b4260226b629f50e3506d9e44916c41620ceb6baa1e511b7898d65c31c9080216974&token=2130416981&lang=zh_CN#rd


2023年統(tǒng)計(jì)服務(wù)?
2023年,我們將開展從科研設(shè)計(jì)、數(shù)據(jù)分析、統(tǒng)計(jì)學(xué)報(bào)告等醫(yī)學(xué)科研研究方法咨詢與服務(wù)多項(xiàng)服務(wù),若您有課題經(jīng)費(fèi)可以支持,歡迎您提前和我們聯(lián)系,2022底前采用預(yù)付方式與我們開展合作。?
2023年統(tǒng)計(jì)服務(wù)開啟!歡迎提前洽談數(shù)據(jù)分析、科研合作服務(wù)?