散文網(wǎng) » 科技 »學(xué)習(xí) » 「SPSSAU｜數(shù)據(jù)分析」：斷點(diǎn)回歸分析步驟匯總

「SPSSAU｜數(shù)據(jù)分析」：斷點(diǎn)回歸分析步驟匯總

2022-05-27 13:43 作者:SPSSAU官方賬號(hào) 0人讀過 | 我要投稿

斷點(diǎn)回歸是一種‘準(zhǔn)自然實(shí)驗(yàn)’式研究，其思想在于存在一個(gè)連續(xù)變量（驅(qū)動(dòng)變量X，或分組變量，或處理變量），該變量某臨界點(diǎn)cutoff處可拆分成左側(cè)和右側(cè)，進(jìn)而研究該變量對(duì)于另一變量（結(jié)果變量Y，或因變量）的影響。比如高考時(shí)本科線為500分，那么有的學(xué)生好低于500分，有的弱高于500，但正是由于500這個(gè)cutoff斷點(diǎn)值，導(dǎo)致學(xué)生是否能上本科，進(jìn)而最終影響到學(xué)生以后的收入情況，此處高考成績(jī)即為驅(qū)動(dòng)變量X，收入則為結(jié)果變量Y。

上述的500分是一個(gè)非常明確的斷點(diǎn)cutoff值，如果低于500分一定不能上本科，高于500分一定可以上本科，那么此類RDD模型則稱為‘精確斷點(diǎn)’（sharp regression discontinuity design, 簡(jiǎn)稱SRD）。如果說有的學(xué)生有著‘特長(zhǎng)加分項(xiàng)’，分?jǐn)?shù)小于500分但正由于其有著‘特長(zhǎng)加分項(xiàng)’因而上了本科，也或者有的學(xué)生高于500分但是其更愿意讀了優(yōu)秀的專科，此類情況時(shí)的斷點(diǎn)回歸研究，稱作為‘模糊斷點(diǎn)回歸’（fuzzy regression discontinuity, 簡(jiǎn)稱FRD），多數(shù)情況下研究均使用精確斷點(diǎn)SRD；除此之外，RDD斷點(diǎn)回歸模型時(shí)有時(shí)還會(huì)加入到控制變量。上述涉及幾個(gè)關(guān)鍵術(shù)語，匯總?cè)缦卤恚?/p>

背景

一般來講美國(guó)民主黨更傾向于更多的聯(lián)邦支出，案例研究是否民主黨獲選對(duì)于聯(lián)邦支出的影響。通常情況下如果得票率大于50%即會(huì)獲選，反之小于50%則會(huì)落選。因而得票率則為驅(qū)動(dòng)變量X，此處0.5則可作為斷點(diǎn)cutoff值（研究中為了方便使用，因而將得票率 – 0.5）作為驅(qū)動(dòng)變量，即最終cutoff值為0，大于0則應(yīng)該獲選，小于0則應(yīng)該落選）。結(jié)果變量Y為聯(lián)邦支出。而且還包括另外2個(gè)控制變量。除此之外，還包括另外一個(gè)變量‘是否獲選’作為判斷是否模糊斷點(diǎn)。本案例數(shù)據(jù)使用Stata軟件的votex.sta數(shù)據(jù)，各數(shù)據(jù)的定義如下：

理論

RDD斷點(diǎn)回歸的分析知識(shí)點(diǎn)相對(duì)較多，從分析步驟包括，具體可精確斷點(diǎn)或模糊斷點(diǎn)的選擇，模型選擇，模型基本假定分析，模型分析，模型穩(wěn)健性檢驗(yàn)等。具體分為以下5步。

第一步、精確斷點(diǎn)和模糊斷點(diǎn)判斷

判斷精確斷點(diǎn)或模糊斷點(diǎn)的思路在于處理變量X被cutoff分為左右兩側(cè)后，是否真正決定‘實(shí)驗(yàn)走向’，比如本案例中cutoff值分成兩組后即認(rèn)為‘民主黨是否當(dāng)選’（命名為new_x），而fuzzy模糊項(xiàng)即真實(shí)是否當(dāng)選項(xiàng)，如果與new_x與fuzzy項(xiàng)沒有特別明顯的不一致，甚至完全一樣，此時(shí)則應(yīng)該使用精確斷點(diǎn)。反之如果new_x與fuzzy項(xiàng)有著明顯的差異，此時(shí)使用模糊斷點(diǎn)較為適合。

第二步、模型選擇，通常指模型階數(shù)的判斷

研究X對(duì)于Y的影響時(shí)，二者的關(guān)系是線性關(guān)系（一階），還是曲線二階關(guān)系，也或者三階關(guān)系。可首先通過圖示直觀查看，并且得出結(jié)論。待定模型階數(shù)后，后續(xù)分析基于該階數(shù)進(jìn)行分析使用。至于‘帶寬值’或者‘核函數(shù)’，通常默認(rèn)即可，SPSSAU會(huì)自動(dòng)找出最優(yōu)帶寬值，默認(rèn)使用triangular三角核函數(shù)。

第三步、模型基本假定分析

RDD模型通常包括著一定的假設(shè)，通常包括‘?dāng)帱c(diǎn)適用性檢驗(yàn)’和‘局部平滑性檢驗(yàn)’。如下所述：

第四步、模型分析

在上述確認(rèn)好精確或模糊斷點(diǎn)，并且確定好模型階數(shù)，并且模型適合時(shí)，則開始分析X對(duì)于Y的影響關(guān)系情況。

第五步、模型穩(wěn)健性檢驗(yàn)

模型分析后，還需要對(duì)模型穩(wěn)健性進(jìn)行檢驗(yàn)。模型穩(wěn)健性檢驗(yàn)有多種方式，包括更換核函數(shù)法、更換斷點(diǎn)值法，是否加入控制變量法，更換帶寬值法，更換階數(shù)，改變樣本選擇法，如下表格所述。

操作

第一步、精確斷點(diǎn)和模糊斷點(diǎn)判斷

將X按cutoff值0分為兩組，并且與fuzzy項(xiàng)進(jìn)行交叉卡方分析。操作截圖分別如下：

使用SPSSAU數(shù)據(jù)處理->數(shù)據(jù)編碼功能，并且選擇‘范圍編碼’，將x按cutoff值0分為兩組（可通過描述分析得到x的最小值為-0.276，最大值0.470）。系統(tǒng)會(huì)自動(dòng)生成一個(gè)新標(biāo)題‘New_x’，將該項(xiàng)與fuzzy項(xiàng)進(jìn)行交叉卡方，得到如下結(jié)果：

New_x代表x分為兩組后的新變量，0代表cutoff值左側(cè)（落選），1代表cutoff值右側(cè)（當(dāng)選）。而fuzzy項(xiàng)里面的0和1代表真實(shí)情況下‘是否當(dāng)選’（0為落選，1為當(dāng)選）。從上表格可以看到：二者數(shù)據(jù)完全一致，按cutoff值得到的131個(gè)‘落選’樣本真實(shí)情況下也是‘落選’，按cutoff值得到的218個(gè)‘當(dāng)選’樣本真實(shí)情況下也是‘當(dāng)選’。即意味著應(yīng)該使用精確斷點(diǎn)。

提示：

實(shí)際研究中，如果數(shù)據(jù)的gap較小，此時(shí)也可直接使用精確斷點(diǎn)回歸。

確認(rèn)好為精確斷點(diǎn)模型之后，接著進(jìn)行第二步。

第二步、模型階數(shù)判斷

模型階數(shù)判斷時(shí)使用直觀圖示法。即首先進(jìn)行模型分析，通過圖示查看模型應(yīng)該是一階、二階或三階更加適合。首先操作如下圖：

首先放入結(jié)果變量y，驅(qū)動(dòng)變量x，2個(gè)控制變量。以及設(shè)置好斷點(diǎn)值為0（默認(rèn)不設(shè)置即為0），選中‘繪圖’復(fù)選框。至于另外4個(gè)參數(shù)（帶寬值、核函數(shù)、階數(shù)和穩(wěn)健性檢驗(yàn)）默認(rèn)即可。此步驟主要查看繪圖，用于確認(rèn)‘階數(shù)’。得到圖形如下：

從上圖可以看到，最左側(cè)‘線性擬合’即一階時(shí)或者中間‘二次型擬合’即二階時(shí)，模型擬合相對(duì)較好?？赡堋涡蛿M合’相對(duì)更適合。因而確定模型為二階。并且后續(xù)以二階為準(zhǔn)進(jìn)行分析。另外從上面三個(gè)圖可以看到，斷點(diǎn)值左右兩側(cè)附近的樣本量基本均勻，即說明斷點(diǎn)值選擇適合沒有受到人為操縱。

第三步、模型基本假定分析

模型基本假定分析時(shí)，通常包括‘?dāng)帱c(diǎn)適用性檢驗(yàn)’和‘局部平滑性檢驗(yàn)’。關(guān)于‘?dāng)帱c(diǎn)適用性檢驗(yàn)’如果說cutoff值兩側(cè)附近的斷點(diǎn)樣本量基本均勻則說明斷點(diǎn)選擇適合，不受人為操縱。從第二步中得到的圖形也可以看出，斷點(diǎn)值附近兩側(cè)的點(diǎn)基本差不多，說明當(dāng)前案例設(shè)置的斷點(diǎn)值準(zhǔn)確，并沒有受到人為操縱干擾。

除此之外，還需要查看‘局部平滑性檢驗(yàn)’，即分別將控制變量作為驅(qū)動(dòng)變量X進(jìn)行斷點(diǎn)回歸，通過圖示法查看斷點(diǎn)值是否在控制變量身上也起效果，即‘同樣的斷點(diǎn)值不應(yīng)該在控制變量身上也起作用’，此檢驗(yàn)通常并不完全需要。并且有時(shí)候控制變量并不能被當(dāng)前斷點(diǎn)cutoff值區(qū)分為兩側(cè)因而不能進(jìn)行分析，本案例即是此類情況，本案例不進(jìn)行‘局部平滑性檢驗(yàn)’。

第四步、模型分析

第一步確認(rèn)好模型為精確斷點(diǎn)，并且第二步確定為二階模型最優(yōu)，而且滿足基本模型假定。因而進(jìn)行操作，準(zhǔn)備得到最終結(jié)果。操作如下圖所示：

分別設(shè)置結(jié)果變量y，驅(qū)動(dòng)變量x，2個(gè)控制變量。以及設(shè)置好斷點(diǎn)值為0（默認(rèn)不設(shè)置即為0），設(shè)置為‘二階’，選中‘穩(wěn)健性檢驗(yàn)’復(fù)選框。至于另外2個(gè)參數(shù)（帶寬值、核函數(shù)）默認(rèn)即可，并且將‘繪圖’復(fù)選框取消（因?yàn)橐呀?jīng)不再需要通過圖示查看階數(shù)）。此步驟為了得到最終結(jié)果。見‘SPSSAU輸出結(jié)果’部分說明。

第五步、模型穩(wěn)健性檢驗(yàn)

在得到模型最終結(jié)果時(shí)，選中‘穩(wěn)健性檢驗(yàn)’復(fù)選框，系統(tǒng)默認(rèn)提供不同帶寬值（0.25倍、0.5倍、0.75倍、1倍、1.25倍、1.5倍、1.75倍和2倍共8個(gè)不同帶寬值）時(shí)的結(jié)果，便于進(jìn)行穩(wěn)健性檢驗(yàn)查看，實(shí)際研究中，可能并不需要8個(gè)不同帶寬值情況下的結(jié)果對(duì)比，通常只需要1倍帶寬值附近（比如0.75倍、1倍和1.25倍）共3項(xiàng)帶寬值時(shí)結(jié)果對(duì)比，如果結(jié)論基本穩(wěn)定即說明模型具有穩(wěn)健性。

模型穩(wěn)健性檢驗(yàn)并沒有固定的做法，只要可以證明模型具有穩(wěn)健性（不同情況下模型結(jié)論基本一致則說明具有穩(wěn)健性），具體穩(wěn)健性方式上有很多種，一般使用1種或2種即可并沒有固定標(biāo)準(zhǔn)。

至于其它的方式，比如‘更換核函數(shù)’法，‘更換斷點(diǎn)’法，‘是否加入控制變量’法，‘更換階數(shù)’法和‘樣本選擇法’。研究者可自行更換模型進(jìn)行結(jié)果對(duì)比研究。尤其是‘更換核函數(shù)’法，‘是否加入控制變量’法和‘更換階數(shù)’這3種方式，其操作簡(jiǎn)單方便，只需要在SPSSAU系統(tǒng)中下拉選擇下參數(shù)更換即可進(jìn)行，建議研究者嘗試使用查看對(duì)比即可。比如‘更換核函數(shù)法’，操作截圖如下所示：

SPSSAU默認(rèn)是使用‘triangular三角核函數(shù)’，可選為‘Epanechnikov核函數(shù)’和‘Uniform核函數(shù)’，來回切換另外兩個(gè)核函數(shù)，將結(jié)果進(jìn)行匯總對(duì)比即可，如果結(jié)論基本一致則說明模型具有穩(wěn)健性。

SPSSAU輸出結(jié)果

針對(duì)本案例結(jié)果，即‘精確斷點(diǎn)’且‘二階模型’時(shí)結(jié)果，SPSSAU共輸出表格和圖形，具體說明如下：

文字分析

本案例得到最終結(jié)果，包括RDD基本情況、RDD參數(shù)情況、RDD樣本數(shù)據(jù)情況、RDD斷點(diǎn)回歸結(jié)果匯總，穩(wěn)健性檢驗(yàn)結(jié)果和穩(wěn)健性檢驗(yàn)coefplot圖，分別說明如下：

從上表格可以看到結(jié)果變量、處理變量、控制變量或fuzzy項(xiàng)對(duì)應(yīng)的項(xiàng)名稱，本案例中有兩個(gè)控制變量，另本案例最終為精確斷點(diǎn)，因而沒有設(shè)置fuzzy模糊項(xiàng)。

從上表可以看到，斷點(diǎn)值為0，并且沒有設(shè)置過帶寬值，模型自動(dòng)計(jì)算出‘最優(yōu)帶寬值’為0.096，并且默認(rèn)使用三角triangular核函數(shù)，模型設(shè)定為2階。以及選中‘穩(wěn)健性檢驗(yàn)’，SPSSAU自動(dòng)會(huì)提供不同帶寬值時(shí)模型匯總結(jié)果。

上表格可以看到，斷點(diǎn)值為0，斷點(diǎn)值左側(cè)樣本量為131個(gè)，右側(cè)為218個(gè)，總共分析樣本量為349個(gè)。

上表格可模型結(jié)果核心表格，從上表格可以看到，p值均大于0.05，但是小于0.1，也即意味意味著如果以0.1作為顯著性水平，那么回歸系數(shù)呈現(xiàn)出顯著性，如果以0.05作為標(biāo)準(zhǔn)，則說明沒有顯著性。無論是Conventional法，也或者校正bias法（Bias-Corrected），也或者穩(wěn)健法檢驗(yàn)robust時(shí)。

提示：

斷點(diǎn)回歸時(shí)對(duì)于回歸系數(shù)的檢驗(yàn)共提供3種方式，分別是Conventional法、Bias- Corrected和Robust法，三種方式并沒有優(yōu)劣之分。通常使用其中一種即可，比如Conventional法。下述基于不同帶寬穩(wěn)健性檢驗(yàn)時(shí)默認(rèn)匯總Conventional法。

由于本案例時(shí)選擇‘穩(wěn)健性’檢驗(yàn)，因而SPSSAU提供上表格展示不同帶寬值（0.25倍、0.5倍、0.75倍、1倍、1.25倍、1.5倍、1.75倍和2倍共8個(gè)不同帶寬值）時(shí)回歸系數(shù)顯著性檢驗(yàn)結(jié)果，默認(rèn)匯總Conventional法的顯著性檢驗(yàn)結(jié)果。從上表格可以看到，8種情況下時(shí)，只有其中4種帶寬下呈現(xiàn)出0.1水平顯著性，另外遠(yuǎn)離1倍較遠(yuǎn)的帶寬時(shí)并沒有呈現(xiàn)出顯著性。

整體上看，如果模型以0.1作為顯著性水平，那么模型具有一定的穩(wěn)健性（如果是0.05作為標(biāo)準(zhǔn)，則穩(wěn)健性非常強(qiáng)，因?yàn)槿縫值均大于0.05）。建議還可進(jìn)一步通過其它方式，比如‘更換核函數(shù)’法，‘是否加入控制變量’法和‘更換階數(shù)’等進(jìn)一步查看。本案例中如果使用‘更換核函數(shù)’，‘是否加入控制變量’或者‘更換階數(shù)’，也會(huì)有出現(xiàn)0.1水平顯著的結(jié)論（但并不完全是）,但全部均會(huì)出現(xiàn)0.05水平不顯著的結(jié)論，即意味著如果模型以0.1作為顯著性標(biāo)準(zhǔn)，此時(shí)模型穩(wěn)健性較弱，而模型以0.05水平作為標(biāo)準(zhǔn)，此時(shí)模型穩(wěn)健性非常強(qiáng)，無論如何顯著性值均大于0.05，最終模型以0.05作為顯著性水平，即意味著模型并不顯著，即‘民主黨當(dāng)選對(duì)于聯(lián)邦支出并沒有實(shí)際性影響’，并且此結(jié)論非常穩(wěn)健。

上圖為基于不同帶寬時(shí)，模型回歸系數(shù)95%置信區(qū)間進(jìn)行展示的coefplot圖，從圖中可以看到，8種不同帶寬時(shí)，95%置信區(qū)間均包括數(shù)字0，即明顯的可以看到，模型在0.05水平上不顯著，此結(jié)論穩(wěn)定。

剖析

涉及以下幾個(gè)關(guān)鍵點(diǎn)，分別如下：

RDD斷點(diǎn)回歸時(shí)，分析步驟較多，建議逐步進(jìn)行，且在判斷時(shí)盡量多的對(duì)比綜合分析，而不能只查看某一個(gè)模型基礎(chǔ)上得到最終結(jié)論；
多數(shù)情況下使用精確斷點(diǎn)，如果確實(shí)有非常強(qiáng)的理由證明應(yīng)該使用模糊斷點(diǎn)，也可使用模糊斷點(diǎn)；
模型階數(shù)判斷上結(jié)合圖示進(jìn)行，但帶有一定的主觀性，建議對(duì)比選擇；
模型假定分析時(shí)，圖示直觀上滿足即可，不太可能模型完美的滿足；
模型分析時(shí)有3種顯著性檢驗(yàn)方式，選擇其中一種即可；
模型穩(wěn)健性檢驗(yàn)有很多種方式，通常選中一個(gè)或者兩個(gè)即可。

標(biāo)簽：