多重共線性判斷
一、多重共線性說明
多重共線性一般是指:如果有兩個或者多個自變量高度相關(相關系數(shù)大于0.8),難以區(qū)分一個自變量對因變量的影響和作用,將自變量相關性產(chǎn)生的后果定義為多重共線性,一般提出多重共線性問題,研究者往往會想到回歸分析。回歸分析方法,回歸模型等,在統(tǒng)計學中都占有重要地位,多數(shù)情況下,使用回歸分析進行構建模型是,由于模型中解釋變量之間存在高度相關關系(如相關系數(shù)大于0.8),所以導致數(shù)據(jù)模型估計失真,此時需要消除多重共線性問題,實現(xiàn)模型的精準估計。接下來從多重共線性的診斷,多重共線性解決辦法以及舉例進行說明多重共線性幾個方面進行說明。
二、多重共線性診斷
1.經(jīng)驗法
經(jīng)驗法就是通過宏觀經(jīng)驗進行簡單的判斷,模型的R方比較高,但是變量不顯著(回歸中的t檢驗),或者模型結果不合理,這可能存在多重共線性,即如果R方較高,一般情況下方程整體會顯著(即通過F檢驗),但t檢驗表明,沒有或很少有斜率系數(shù)是顯著不為0的。
2.相關系數(shù)檢驗法
對于模型中任意兩個不同的解釋變量進行相關分析,得到相關系數(shù),如果相關系數(shù)的絕對值較大(一般大于0.8),則認為這兩個變量相關性較高,但是需要知道,相關分析只能檢驗兩個解釋變量之間的相關性,對于更多(比如三個)解釋變量的相關性檢驗并不適用。
3.VIF(方差膨脹因子法)
方差膨脹因子法又叫VIF,在線性回歸中,第i個解釋變量的VIF值表示為:
VIF_i=dfrac{1}{1-R_i^2}quad i=1,2,cdots,k
其中,R_i方是把第i個解釋變量作為被解釋變量,將其對其它k-1個解釋變量做線性回歸所得的可決定系數(shù)。從等式可以得到VIF_i≥1,并且VIF值越大R_i方值越大,即相關度更強。所以VIF可以衡量多重共線性的嚴重程度。如果VIF≥10,則表明自變量之間存在多重共線性?;蛘遃IF可以不用計算,SPSSAU直接提供。如下:
4.特征根判斷法
特征根分析表明,當矩陣X’X中有特征根近似為0時,表明矩陣X的列向量存在多重共線性,記X’X的最大特征根為lambda_{m},稱:
k_i=sqrt{dfrac{lambda_m}{lambda_i}},i=0,1,2,cdots,p
為特征根lambda_{i}的條件數(shù)。矩陣X’X的特征根的離散程度用條件數(shù)來度量,可以判斷多重共線性的存在以及嚴重程度,如果0<k<10時,設計矩陣X多重共線性不存在,10≤k<100時,多重共線性情況比較嚴重,當k≥100,共線性非常嚴重。
那么如果存在多重共線性應該如何解決呢?
三、解決辦法
如果存在多重共線性問題,一般可以從三個方面進行說明,剔除變量、增大樣本量以及更換模型。
1.剔除變量
剔除變量是處理共線性最直接的辦法。一般可以找出引起多重共線性的解釋變量,然后把它從模型中剔除,但是常常不容易判斷具體哪一個變量引起的多重共線性,所以一般解決辦法有逐步回歸法等。逐步回歸是在模型中逐個引入解釋變量,如果新引入的變量使得模型統(tǒng)計意義檢驗或者判斷與事實相符,并且R方又能提高,則應該引入,反之無需引入。但是,排除引起共線性的變量后,保留在模型中變量的系數(shù)估計值將會改變,并且實際意義也會發(fā)生變化。
2.增大樣本量
一般如果在計量經(jīng)濟模型中,入股變量的樣本數(shù)據(jù)極少,很容易引起多重共線性問題,可以通過手機更多的觀測值來增加樣本量,可以避免或者減少共線性的影響,但是會引起計算量的增加。
3.更換模型
除此之外,還可以更換研究模型,利用嶺回歸、主成分回歸、Lasso回歸等。
嶺回歸是以引入偏誤來減少參數(shù)估計量方差的方法,雖然通過嶺回歸能使數(shù)據(jù)變的更合理,但是如果是原模型的實際意義不合理,即使通過嶺回歸修正后也不一定使模型通過實際意義的檢驗,所以說在實際應用中也不是所有的共線性都可以用嶺回歸來解決。操作如下:
主成分回歸中主成分分析又稱主分量分析,他是利用降維的思想,在盡量減少損失的信息的前提下,把多個指標通過正交旋轉轉化為幾個綜合的指標的分析方法,其基本原理是:利用主成分分析將解釋變量轉換成若干個主成分,這些主成分從不同側面反映了解釋變量的綜合影響,然后在講解釋變量對這些主成分進行回歸,在根絕主成分分與解釋變量之間的關系,求得原回歸模型的估計方程。比如有6個X,其利用降維原理將6個X降維成比如2個主成分,然后后續(xù)再進行分析比如線性回歸(此種做法稱作主成分回歸)。操作如下:
Lasso回歸
Lasso回歸分析(Lasso Regression)是一種用于解決線性回歸分析中自變量共線性的研究算法。針對Lasso回歸:其研究步驟共為2步,分別是結合軌跡圖尋找最佳K值;輸入K值進行回歸建模。具體如下:
第一步:Lasso回歸分析前需要結合軌跡圖確認K值;K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值。K值越小則偏差越小,K值為0時則為普通線性OLS回歸;SPSSAU提供K值智能建議,也可通過主觀識別判斷選擇K值;
第二步:對于K值,其越小越好,通常建議小于1,確定好K值后,得出Lasso回歸模型估計。操作如下:
雖然嶺回歸和Lasso回歸看起來操作差不多但是二者的原理確大不相同,嶺回歸是使用L2正則化,Lasso回歸是使用L1正則化。接下來舉個例子進行說明。
四、舉例說明
利用線性回歸研究居民消費價格指數(shù)y和農(nóng)村居民消費價格x1,、城市居民消費價格指數(shù)x2以及商品零售價格指數(shù)x3之間的影響關系。其中數(shù)據(jù)來源于中國統(tǒng)計局網(wǎng)站(文末有案例數(shù)據(jù)可以下載)。
1.判斷多重共線性
首先判斷模型是否存在共線性問題,判斷多重共線性的方法有很多這里利用VIF值進行判斷。結果如下:
從結果可以看出,VIF值均大于10,所以存在多重共線性,需要進行處理,盡管處理多重共線性的方法有多種,這里選擇比較常用的嶺回歸進行處理。
2.解決多重共線性
利用嶺回歸處理多重共線性問題,一般有兩步分別如下:
嶺回歸分析前需要結合嶺跡圖確認K值;K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值。K值越小則偏差越小,K值為0時則為普通線性OLS回歸;SPSSAU提供K值智能建議,也可通過主觀識別判斷選擇K值;
對于K值,其越小越好,通常建議小于1;確定好K值后,即可主動輸入K值,得出嶺回歸模型估計。
首先結合嶺跡圖確認K值:
結果如下:
從上圖看出,以居民消費價格指數(shù)y為因變量,農(nóng)村居民消費價格x1,、城市居民消費價格指數(shù)x2以及商品零售價格指數(shù)x3為自變量做嶺回歸,圖中可以看看出,當K值為0.01時,此時自變量的標準回歸系數(shù)趨于穩(wěn)定,所以SPSSAU系統(tǒng)建議將K值取為0.01。
確定好K值后,即可主動輸入K值,得出嶺回歸模型估計。結果如下:
從F檢驗結果中可以看到p值小于0.05,整體模型有效,至少有一個x對y產(chǎn)生影響,模型有意義。接著進行查看嶺回歸結果,如下:
從嶺回歸的結果中可以看出,模型公式為:y=2.000 + 0.328*x1 + 0.559*x2 + 0.094*x3。并且x1、x2和x3對因變量均有影響(p值均小于0.05)并且標準化系數(shù)均大于0所以農(nóng)村居民消費價格x1,、城市居民消費價格指數(shù)x2以及商品零售價格指數(shù)x3均對居民消費價格指數(shù)y有正向影響的作用。并且0.541>0.357>0.103,所以說明x2對因變量的影響最大。模型的R方為0.999,接近于1,說明模型擬合的非常好。
五、總結
本文最開始介紹了多重共線性,然后進行說明多重共線性如何進行診斷多重共線性,其中包括經(jīng)驗法,相關系數(shù)檢驗法,VIF值以及特征根判斷法,并且如果存在多重共線性應該如何解決,可以剔除變量或者增大樣本量或者更換模型,舉例說明如何解決多重共線性,利用嶺回歸的方法進行解決,最后得到有效結論。