模型不達(dá)標(biāo)調(diào)整
一
、模型不達(dá)標(biāo)調(diào)整
模型構(gòu)建就是——科學(xué)的研究問題的數(shù)學(xué)表達(dá);比如線性回歸模型中的模型公式。
在進(jìn)行建模時(shí),很多同學(xué)會(huì)遇到模型不達(dá)標(biāo)的問題,這種情況很常見,通常需要進(jìn)行模型不達(dá)標(biāo)的調(diào)整。
模型不好如何處理
模型擬合不好,我們能想到的原因主要有以下幾個(gè)方面
其一:樣本的多少
通常情況下,樣本越多,樣本的數(shù)據(jù)質(zhì)量越高,那么會(huì)對模型擬合有正向的幫助;
其二:測量指標(biāo)的好壞與多少
如果選取的指標(biāo)不能很好地代表所研究的問題,那么指標(biāo)的選取就存在問題,會(huì)影響到后續(xù)模型的擬合;同時(shí),指標(biāo)如果過少(考慮不全面,如缺少控制變量)、過多(指標(biāo)冗雜、重復(fù)指標(biāo)較多)都會(huì)影響到模型的好壞。
其三:模型存在潛在問題
例如:忽略了異方差和共線性的問題,導(dǎo)致模型不好。
其四:模型需要更換
如果無論如何調(diào)整都無法很好的擬合模型,則需要考慮更換模型。
綜上所述:當(dāng)模型不好時(shí),可以從樣本變化、指標(biāo)變化、模型修正、模型更換四個(gè)方面進(jìn)行調(diào)整。
① 樣本變化
- 增加樣本
數(shù)據(jù)分析中,一般來講,樣本量越多越好,樣本量過少會(huì)引起數(shù)據(jù)分析結(jié)果的代表性降低;因此增加樣本量,可以作為調(diào)整模型的一種方式。
增加樣本可以從兩方面考慮:
其一加入新樣本,擴(kuò)大整體樣本量;
其二將缺失值進(jìn)行填補(bǔ)
SPSSAU系統(tǒng)數(shù)據(jù)處理->異常值功能,可將缺失數(shù)據(jù)(null)進(jìn)行填補(bǔ)。SPSSAU當(dāng)前支持平均值、中位數(shù)、眾數(shù)和隨機(jī)數(shù)填補(bǔ)等。一般情況下,平均值、中位數(shù)或眾數(shù)使用較多。
- 刪減樣本
如果樣本數(shù)據(jù)質(zhì)量不高,缺失值和異常值較多,同樣會(huì)影響到模型的擬合。那么,刪減樣本也可以作為模型調(diào)整的一種方式。
刪減樣本包括無效值處理和異常值處理兩方面。對于異常值,常見的處理方法比如縮尾or截尾處理;同樣,可以在SPSSAU系統(tǒng)->數(shù)據(jù)處理板塊進(jìn)行操作。
② 指標(biāo)變化
- 替換法
指標(biāo)的選取會(huì)影響模型擬合效果,如果使用不合適的指標(biāo)描述所研究問題,那么錯(cuò)誤的指標(biāo)得到的模型自然是錯(cuò)誤的。雖然一些指標(biāo)代表的意義乍一看相近,可以替換使用,但是“差之毫厘失之千里” ,所以,將指標(biāo)進(jìn)行替換可以作為一種模型調(diào)整方式。
例如:一般使用人均GDP而不使用GDP衡量一個(gè)地區(qū)的發(fā)展水平
- 增加指標(biāo)
如果指標(biāo)的選取并不全面,無法涵蓋絕大部分信息,那么模型自然也是不好的,所以增加指標(biāo)為指標(biāo)變化調(diào)整的另一種方式。例如:研究地區(qū)經(jīng)濟(jì)的發(fā)展時(shí),忽略了控制變量人口,那么就需要相應(yīng)地增加控制變量(干擾變量);或者其他容易忽略的個(gè)體屬性(如年齡、性別等)、遺漏變量等。
- 刪除指標(biāo)
將重復(fù)指標(biāo)或者質(zhì)量差的指標(biāo)進(jìn)行刪除,也是模型調(diào)整的一種方式。例如:研究學(xué)生學(xué)習(xí)水平時(shí),“
學(xué)歷 ” 和 “ 受教育年限
” 之間一定存在很強(qiáng)的共線性,二者取其一即可。
③ 模型修正
模型不達(dá)標(biāo)還可能是因?yàn)楹雎粤艘恍┬枰谝獾膯栴},比較常見的有是否存在異方差或共線性問題。
- 異方差問題
處理異方差問題有三種辦法,分別是數(shù)據(jù)處理(取對數(shù)等)、穩(wěn)健標(biāo)準(zhǔn)誤回歸、FGLS回歸。
- 共線性問題
如果出現(xiàn)多重共線性問題,一般可有3種解決辦法:一是使用逐步回歸分析(讓模型自動(dòng)剔除掉共線性過高項(xiàng));二是使用嶺回歸分析(使用數(shù)學(xué)方法解決共線性問題);三是進(jìn)行相關(guān)分析,手工移出相關(guān)性非常高的分析項(xiàng)(通過主觀分析解決),然后再做線性回歸分析。
④ 模型更換
如果無論如何調(diào)整都無法很好的擬合模型,則需要考慮更換模型。
例如:使用結(jié)構(gòu)方程模型研究影響關(guān)系時(shí),模型不達(dá)標(biāo),可以考慮將結(jié)構(gòu)方程模型改為路徑分析;或者改為研究線性回歸模型。
或者,在研究線性回歸模型時(shí),可以改為研究二元logit回歸(例如將收入換成“高收入和低收入”兩類)。
二、減少模型不達(dá)標(biāo)問題經(jīng)驗(yàn)說明
為了盡量避免模型不達(dá)標(biāo)的情況,應(yīng)該從前期樣本準(zhǔn)備、指標(biāo)選擇就做好準(zhǔn)備。接下來,小編將說明前期數(shù)據(jù)以及模型的一些基本準(zhǔn)備;并使用問卷式模型以及計(jì)量式模型進(jìn)行舉例,分享一些模型構(gòu)建的注意事項(xiàng)。
1、數(shù)據(jù)準(zhǔn)備
- 數(shù)據(jù)樣本量盡量多
保證樣本量盡量多的目的有兩個(gè)分別是:穩(wěn)健性檢驗(yàn)、防止樣本有缺失
- 數(shù)據(jù)完善性
缺失樣本不能過多,會(huì)影響分析結(jié)果
- 指標(biāo)有預(yù)留
指標(biāo)最好在開始的時(shí)候,就多預(yù)留出幾個(gè),其目的有三,分別是:用作控制變量、穩(wěn)健性檢驗(yàn)、替換作用。
說明——穩(wěn)健性檢驗(yàn)
穩(wěn)健性檢驗(yàn)通俗的講,就是改變某個(gè)特定的參數(shù),進(jìn)行重復(fù)的實(shí)驗(yàn),來觀察實(shí)證結(jié)果是否隨著參數(shù)設(shè)定的改變而發(fā)生變化,如果改變參數(shù)設(shè)定以后,結(jié)果發(fā)現(xiàn)符號和顯著性發(fā)生了改變,說明不是穩(wěn)健性的,需要尋找問題的所在。一般根據(jù)自己文章的具體情況選擇穩(wěn)健性檢驗(yàn) ① 從數(shù)據(jù)出發(fā),根據(jù)不同的標(biāo)準(zhǔn)調(diào)整分類,檢驗(yàn)結(jié)果是否依然顯著 ② 從變量出發(fā),從其他的變量替換,如:研發(fā)金額投入可以使用研發(fā)項(xiàng)目數(shù)量衡量 ③ 從計(jì)量方法出發(fā),可以用OLS等進(jìn)行回歸,看結(jié)果是否依然顯著
2、模型準(zhǔn)備
- 在找數(shù)據(jù)時(shí),應(yīng)該大概知道模型是什么樣子
帶著目的找數(shù)據(jù),可以節(jié)省時(shí)間,提高數(shù)據(jù)準(zhǔn)確性以及與研究問題的匹配度。
- 模型盡量有備選
如果一個(gè)模型不合適,可以及時(shí)更換模型,不至于重頭再來,節(jié)省時(shí)間與精力。
3、問卷式模型
例如:研究商超購物滿意度模型
數(shù)據(jù)準(zhǔn)備:上圖中六個(gè)變量分別對應(yīng)的數(shù)據(jù)
可以從樣本量、樣本特征、變量測量3個(gè)角度做文章
問卷設(shè)計(jì)注意事項(xiàng):
- 一個(gè)指標(biāo)盡量多對應(yīng)問卷題目,建議4~7個(gè)
便于后續(xù)的篩選、刪除;在后面的調(diào)整模型時(shí)也可能用到。
- 其他相關(guān)數(shù)據(jù)——人口統(tǒng)計(jì)學(xué)變量
干擾變量(控制變量)的設(shè)計(jì)可用于模型調(diào)整、豐富分析內(nèi)容。
基于結(jié)構(gòu)方程模型的黑龍江冰雪旅游游客滿意度研究-成春蕾
- 必填題目設(shè)置——用于模型調(diào)整和穩(wěn)健性檢驗(yàn)使用
基于結(jié)構(gòu)方程模型的黑龍江冰雪旅游游客滿意度研究-成春蕾
- 篩選題設(shè)置——用于篩選適合樣本
例如:消費(fèi)次數(shù)1次/年,2~5次/年,5~10次/年,10次以上/年;如果填寫問卷的參與調(diào)查的人在該商超的消費(fèi)次數(shù)過低,自然應(yīng)該被排除在外,不屬于我們研究的合適樣本。同時(shí),篩選題的設(shè)置可用于后續(xù)模型的調(diào)整和模型穩(wěn)健性檢驗(yàn)使用。
基于結(jié)構(gòu)方程模型的黑龍江冰雪旅游游客滿意度研究-成春蕾
- 樣本量
收集的問卷有效樣本量應(yīng)該在問卷題目個(gè)數(shù)的5倍以上,若樣本數(shù)據(jù)偏離正態(tài)分布,則樣本量最好為問卷題目數(shù)的10倍以上,以便模型數(shù)據(jù)更具有說服力。
問卷研究常用方法:
在SPSSAU系統(tǒng)中,提供多種主流問卷研究方法,常見的主要有信度分析、效度分析、多選題分析、調(diào)節(jié)作用、中介作用、路徑分析、結(jié)構(gòu)方程模型等方法。
同學(xué)們可結(jié)合自己所研究問題,進(jìn)行方法的選擇。如果不知道自己應(yīng)該進(jìn)行哪種分析,還可以在SPSSAU官網(wǎng)右上角客服中心聯(lián)系人工客服,會(huì)有專業(yè)老師解答問題。
4、計(jì)量式模型
例如:高管團(tuán)隊(duì)特征對企業(yè)創(chuàng)新投入的影響
- 數(shù)據(jù)準(zhǔn)備:各個(gè)變量分別對應(yīng)的數(shù)據(jù)
樣本量、指標(biāo)變化、模型更換
確定自變量、控制變量、因變量
自變量(解釋變量):女性高管人數(shù)、高管團(tuán)隊(duì)任期、高管團(tuán)隊(duì)受教育水平(受教育年限)等
控制變量:企業(yè)資產(chǎn)、企業(yè)盈利指標(biāo)ROA、政府補(bǔ)貼等
因變量(被解釋變量):研發(fā)投入金額
注意事項(xiàng):
- 數(shù)據(jù)盡量多
例如:使用多個(gè)年份、多個(gè)行業(yè)(國有企業(yè)、外資企業(yè)等)的數(shù)據(jù)
可以達(dá)到樣本篩選、模型調(diào)整、穩(wěn)健性檢驗(yàn)、豐富研究、異常數(shù)據(jù)清理的目的。
高管團(tuán)隊(duì)特征對企業(yè)創(chuàng)新的影響研究——王彩虹
- 指標(biāo)更換
例如:高管團(tuán)隊(duì)任期替換為高管團(tuán)隊(duì)更換頻率
受教育水平替換為受教育年限
研發(fā)投入金額替換為研發(fā)項(xiàng)目數(shù)量等等
指標(biāo)更換對應(yīng)數(shù)據(jù)準(zhǔn)備中的指標(biāo)有預(yù)留,為的是后續(xù)進(jìn)行模型不達(dá)標(biāo)調(diào)整、穩(wěn)健性檢驗(yàn)等等。
高管團(tuán)隊(duì)特征對企業(yè)創(chuàng)新的影響研究——王彩虹
- 模型更換
例如:OLS回歸->robust回歸
OLS回歸->面板模型
OLS回歸->是否加入控制變量 / 控制變量的變化等等
模型更換是進(jìn)行模型不達(dá)標(biāo)調(diào)整的最后底線
計(jì)量研究常用方法:
在計(jì)量經(jīng)濟(jì)研究中,可選擇的方法更多,需要結(jié)合所研究內(nèi)容以及自身專業(yè)進(jìn)行判斷,可以在SPSSAU官網(wǎng)查看每種方法的幫助手冊進(jìn)行方法的學(xué)習(xí),常見的研究方法如下: