多重共線性檢驗(yàn)及處理方法(附案例教程)
回歸分析需要考慮多重共線性問(wèn)題。多重共線性是指自變量之間存在高度相關(guān)性,導(dǎo)致回歸模型的系數(shù)估計(jì)不穩(wěn)定和假設(shè)檢驗(yàn)不可靠。在實(shí)際應(yīng)用中,許多自變量之間都可能存在一定程度的相關(guān)性,如果沒(méi)有進(jìn)行控制,就會(huì)導(dǎo)致多重共線性問(wèn)題的發(fā)生。今天來(lái)討論一下,如何解決多元線性回歸分析中,多重共線性的問(wèn)題。
一、多重共線性含義
在多元線性回歸模型中,自變量X之間線性相關(guān)的現(xiàn)象被稱為多重共線性。
數(shù)學(xué)描述:對(duì)于模型
其基本假設(shè)之一是自變量X之間是相互獨(dú)立的,如果某兩個(gè)或者多個(gè)自變量之間出現(xiàn)相關(guān)性,則稱為多重共線性。即如果存在不全為0的C,使得
則稱自變量X之間存在多重共線性。
二、多重共線性檢驗(yàn)方法
多重共線性的檢驗(yàn)可以使用相關(guān)分析查看兩兩自變量之間的相關(guān)系數(shù),或者計(jì)算VIF值進(jìn)行診斷。下文將圍繞一個(gè)案例進(jìn)行演示講解。
案例:從中國(guó)知網(wǎng)截取一篇案例,相關(guān)說(shuō)明及數(shù)據(jù)如下:
范圣崗,奚書(shū)靜. 多元線性回歸模型中處理多重共線性方法對(duì)比——以人口遷移沖擊教育資源模型為例[J].
將數(shù)據(jù)整理好上傳至SPSSSAU系統(tǒng),進(jìn)行后續(xù)分析。
1、相關(guān)系數(shù)檢驗(yàn)法
如果兩個(gè)自變量之間相關(guān)系數(shù)較大且接近1,則可認(rèn)為回歸模型中存在多重共線性問(wèn)題。相關(guān)系數(shù)檢驗(yàn)法可作為初步判斷共線性的一種方法。
以SPSSAU為例,進(jìn)行自變量之間的相關(guān)分析,操作如下圖:
SPSSAU輸出相關(guān)分析結(jié)果如下:
從相關(guān)分析結(jié)果來(lái)看,各自變量之間相關(guān)系數(shù)都較大且接近于1(均在0.7以上且顯著),說(shuō)明各自變量之間相關(guān)性很強(qiáng),可以初步認(rèn)為自變量之間存在多重共線性問(wèn)題。
2、VIF檢驗(yàn)法
VIF值是方差膨脹因子,可以衡量多重共線性的嚴(yán)重程度。一般認(rèn)為VIF值大于10,則存在多重共線性問(wèn)題(嚴(yán)格大于5)。
第i個(gè)回歸系數(shù)的方差膨脹因子可表示為:
其中Ri方表示將第i個(gè)變量作為因變量與其余自變量擬合回歸方程所得到的決定系數(shù),VIF值越大說(shuō)明該變量與其余自變量具有較強(qiáng)的相關(guān)關(guān)系。
另外,有些文獻(xiàn)也以容忍度作為判斷共線性的指標(biāo),容忍度為VIF值的倒數(shù),容忍度大于0.1則說(shuō)明沒(méi)有共線性(嚴(yán)格是大于0.2)。研究時(shí)二者選其一即可,一般描述VIF值。
VIF值和容忍度可以通過(guò)SPSSAU線性回歸分析得到,如下圖:
從分析結(jié)果可以看出,除變量2教師高級(jí)職稱占比外,其余變量的VIF值均大于0,可以認(rèn)為存在嚴(yán)重的多重共線性問(wèn)題。
三、多重共線性處理方法
當(dāng)模型中出現(xiàn)多重共線性問(wèn)題時(shí),常用的解決辦法有以下4種:
(1)手動(dòng)剔除變量
(2)逐步回歸
(3)嶺回歸
(4)增大樣本量
接下來(lái),基于本案例分別進(jìn)行演示說(shuō)明。
1、手動(dòng)剔除變量
手動(dòng)剔除變量,最簡(jiǎn)單的方法就是對(duì)存在共線性的自變量進(jìn)行一定的篩選。
首先將VIF值最大的兩個(gè)自變量“人均圖書(shū)”和“人均教學(xué)設(shè)備”進(jìn)行剔除,再次分析,得到結(jié)果如下:
從上表可以看出,在手動(dòng)剔除了VIF值最大的兩個(gè)變量后,剩下四個(gè)變量的VIF值均呈現(xiàn)下降趨勢(shì)。但此時(shí)“人均教學(xué)面積”的VIF值仍大于10,進(jìn)一步進(jìn)行剔除后,得到結(jié)果如下:
此時(shí)可以看到,剩余3個(gè)變量的VIF值均小于10,此時(shí)多元回歸模型公式為:一本上線率=-0.039 + 1.009*師生比 + 0.012*教師高級(jí)職稱占比 + 0.033*人均教育投入,各系數(shù)均與正常邏輯相符。且模型R方值為0.969,表明方程有較好的顯著性及對(duì)模型很好的解釋性。
2、逐步回歸
逐步回歸法是在模型中逐個(gè)引入自變量,自動(dòng)篩選出有影響的變量。逐步回歸根據(jù)模型統(tǒng)計(jì)意義的檢驗(yàn)以及調(diào)整后R方的變化情況來(lái)判斷新引入的變量是否引起共線性。如果新引入的變量使得模型統(tǒng)計(jì)意義檢驗(yàn)?zāi)芡ㄟ^(guò),且又能提高模型的調(diào)整后R方,則應(yīng)該引入,否則不引入。
SPSSAU共提供3種自變量進(jìn)入回歸模型的方法,分別是forward向前法、backward向后法、逐步stepwise法。
① 向前法
向前法是指回歸模型中的變量從無(wú)到有,從少到多逐個(gè)引入的變量構(gòu)建回歸模型的一種方法。
②向后法
向后法是指回歸模型的變量從有到無(wú),由多到少的逐個(gè)剔除變量構(gòu)建回歸模型的一種方法。
③逐步法
逐步法是向前法和向后法兩種方法的結(jié)合,一邊選擇,一邊剔除,二者交叉進(jìn)行。逐步法逐個(gè)引入新變量,每引入一個(gè)新變量同時(shí)又考慮是否剔除已選變量,這種方法即保留了有顯著影響的變量,又剔除了不顯著的變量,使用最為廣泛。故通常使用逐步法進(jìn)行分析。
SPSSAU使用逐步法進(jìn)行逐步回歸得到分析結(jié)果如下:
從上表可以看出,使用逐步回歸進(jìn)行分析,最終只保留了“師生比”和“人均教育投入”兩個(gè)變量在模型中,VIF值均小于5。
【特別說(shuō)明】:值得注意的一點(diǎn)是,手動(dòng)剔除變量和使用逐步回歸法進(jìn)行分析時(shí),雖然能夠降低模型的共線性問(wèn)題,但是可能會(huì)剔除本來(lái)希望保留在模型中的變量;可能會(huì)導(dǎo)致模型的原本意義發(fā)生變化,使用的時(shí)候需要注意。
3、嶺回歸
嶺回歸是利用嶺估計(jì)來(lái)代替普通最小二乘估計(jì),以損失部分信息為代價(jià)來(lái)尋找效果稍差但回歸系數(shù)更符合實(shí)際情況的模型方程。當(dāng)自變量之間存在多重共線性,嶺回歸是相對(duì)比較穩(wěn)定的方法,且?guī)X回歸估計(jì)的回歸系數(shù)的標(biāo)準(zhǔn)差也較小。
嶺回歸其研究步驟共分為兩步:①結(jié)合嶺跡圖尋找最佳K值;②輸入K值進(jìn)行回歸建模。
step1:結(jié)合嶺跡圖尋找最佳K值
嶺回歸時(shí)k值的判斷非常重要,通??刹榭磶X跡圖和VIF指標(biāo)進(jìn)行判斷。嶺跡圖出現(xiàn)平穩(wěn)那一刻的k值即為最佳值,嶺跡圖的判斷帶有較強(qiáng)主觀性。與此同時(shí)可使用VIF指標(biāo)進(jìn)行判斷,SPSSAU默認(rèn)輸出該指標(biāo)值,如果出現(xiàn)各個(gè)X的VIF均小于10時(shí)對(duì)應(yīng)的最小K值,此時(shí)則為最優(yōu)K值。
SPSSAU結(jié)合VIF<=10和K值越小越好這兩個(gè)標(biāo)準(zhǔn)進(jìn)行評(píng)判,建議可取K值為0.02。
step2:輸入K=0,02,再次進(jìn)行分析,得到嶺回歸分析結(jié)果如下:
從嶺回歸分析結(jié)果可以看出,VIF值均小于10,解決了多重共線性問(wèn)題。
4、增大樣本量
在建立回歸模型時(shí),如果變量的樣本數(shù)據(jù)太少,很容易產(chǎn)生多重共線性問(wèn)題。所以可以通過(guò)增大樣本量的方法,克服多重共線性。但是在實(shí)際研究中是不現(xiàn)實(shí)的,因?yàn)槲覀儧](méi)有辦法確定增加什么多少樣本才能克服多重共線性,也有可能在增加了樣本量的同時(shí),產(chǎn)生了一些新的問(wèn)題,導(dǎo)致模型的擬合變差,沒(méi)有達(dá)到我們所期望的效果。
除以上方法外,還可以使用主成分回歸、lasso回歸、改變參數(shù)的約束形式、變換模型的形式、綜合使用時(shí)序數(shù)據(jù)和截面數(shù)據(jù)等多種方法處理數(shù)據(jù)的多重共線性問(wèn)題。
參考文獻(xiàn):
[1]劉芳,董奮義. 計(jì)量經(jīng)濟(jì)學(xué)中多重共線性的診斷及處理方法研究[J]. 中原工學(xué)院學(xué)報(bào),2020,31(01):44-48+55.
[2]范圣崗,奚書(shū)靜. 多元線性回歸模型中處理多重共線性方法對(duì)比——以人口遷移沖擊教育資源模型為例[J]. 科技風(fēng),2020,No.427(23):157+159.