互助問答第140期:關于多重共線性的問題

尊敬的老師:
您好!
面板數(shù)據(jù),模型中原有自變量x1和x2,引入交互項x1x2后(模型為y = a1x1+ a2x2+ a3x1x2,其中a1、a2、a3為自變量的系數(shù)):
(1)面板數(shù)據(jù),在進行隨機效應的計量后,首先進行多重共線性檢驗,若x2和x1x2的vif值大于10而x1的vif值小于10,則只對x2和交互項x1x2進行第(2)步去中心化的處理?x1不去中心化,保留原值即可?
(2)x2和x1x2的vif值大于10時,解決辦法是令x2*=x2 –( x2的均值),然后將模型改為y = a1x1+ a2x2* + a3x1x2*,是這樣構造模型以解決多重共線性的問題,對么?
(3)如果(2)的思路是正確的,當遇到自變量是lnx1、lnx2和lnx1lnx2時,若需要對自變量進行上述(2)的操作,是令x2*=lnx2 –(lnx2的均值),然后將模型改為y = a1lnx1 + a2x2* + a3(lnx1)x2*嗎?即重點是令x*=lnx –(lnx的均值),而不是令x*=ln(x-(x的均值)),我的理解是正確的吧?
(4)我看到有的說去中心化是令新變量x*=(x – x的均值)/x的標準差,有的則只是令新變量x*=x – x的均值,請問哪種去中心化是正確的?以及對應的去中心化后生成新變量的stata命令是什么?
還有一個問題是:
(5)比如我的模型是y = a1x1+ a2x2+ a3x3 + a4x1x2+a5x1x3,其中a為自變量的系數(shù)。我發(fā)現(xiàn)如果只構造模型y = a1x1+ a2x2+ a3x3時,a1不顯著,a2、a3顯著,那么加入交互項時,能將模型寫成這樣的形式么:y = a2x2+ a3x3 + a4x1x2+a5x1x3,即構成交互項的元素必須都作為解釋變量出現(xiàn)在模型中么?還是像我舉得這個例子一樣,可以去掉x1這個低次項?
感謝老師的解答,謝謝您!
五個問題本質上涉及三個問題:1、多重共線性;2、變量的標準化;3、對于系數(shù)不顯著的變量的處理。下面依次說明。
首先,多重共線性只是一個現(xiàn)象,而不是問題。多重共線性并不能說明模型存在任何錯誤,所以不必然進行處理。如果依據(jù)理論,你應當控制一些變量且相應度量是準確的,即便存在多重共線性,也應當控制這些變量——畢竟遺漏重要變量的后果比多重共線性嚴重得多。其次,所謂去中心化或標準化更多是為了系數(shù)解釋的需要。例如,自變量減去自己均值后,其系數(shù)就可解釋為該自變量圍繞均值變動時對因變量的影響;自變量減去均值后除以標準差(也即標準化),其系數(shù)含義就變?yōu)樽宰兞繃@均值變動一個標準差時,對因變量的影響。如果想把變量之間關系刻畫為標準差的變化,則可以在 reg 命令后加入 beta 選項。最后,一個模型應當包括哪些變量、不應當包括哪些變量,取決于理論,而不能依據(jù)事后其系數(shù)是否顯著。
往期回顧:
互助問答第139期:對數(shù)型變量作為交互項的適用性
互助問答第138期:系統(tǒng)GMM命令代碼中如何識別年份國家及異方差檢驗問題
互助問答第137期:差分后再回歸(FD)的截距問題
互助問答第136期:關于工具變量的問題
如果您在計量學習和實證研究中遇到問題,請及時發(fā)到郵箱szlw58@126.com,專業(yè)委員會有30多名編輯都會看,您的問題會得到及時關注!請您將問題描述清楚,任何有助于把問題描述清楚的細節(jié)都能使我們更方便地回答您的問題,提問細則參見:實證研究互助平臺最新通知(點擊文末閱讀原文查看詳情)
如果您想成為問題解答者,在幫助他人過程中鞏固自己的知識,請發(fā)郵件至szlw58@126.com(優(yōu)先)或給本公眾號留言或加微信793481976給群主留言,我們誠摯歡迎熱心的學者和學生。具體招募信息請參見:實證研究互助平臺志愿者團隊招募公告
鮮活的事例更有助于提高您的研究水平,呆板的教科書讓人生厭。如果您喜歡,請?zhí)岢瞿膯栴},也請轉發(fā)推廣!
(歡迎轉發(fā),歡迎分享;轉載請注明出處,引用和合作請留言。本文作者擁有所有版權,原創(chuàng)文章最早發(fā)表于“學術苑”。任何侵權行為將面臨追責?。?/p>
學術指導:張曉峒老師
本期解答人:中關村大街
統(tǒng)籌:易仰楠
編輯:孫婷婷
技術:林毅
