「SPSSAU|數(shù)據(jù)分析」:回歸分析案例
案例背景
研究高管信息以及企業(yè)規(guī)模資產(chǎn)對(duì)于研發(fā)投入的影響,其中高管信息包括,高管研究平均年齡、高管平均任期(天)、高管平均學(xué)歷以及高管團(tuán)隊(duì)人數(shù),具體的名詞解釋請(qǐng)參考下方表格,此案例主要利用SPSSAU回歸分析高管信息以及企業(yè)規(guī)模資產(chǎn)對(duì)于研發(fā)投入的影響。并對(duì)結(jié)果進(jìn)行解釋?zhuān)紫葘⑺鸭臄?shù)據(jù)進(jìn)行處理。
數(shù)據(jù)處理
1.減少異方差
將數(shù)據(jù)進(jìn)行對(duì)數(shù)處理,目的是將單位進(jìn)行壓縮,以減少在某些情況下,數(shù)據(jù)的整個(gè)值域中的在不同區(qū)間的差異帶來(lái)的影響不同(特別注意:對(duì)數(shù)處理的數(shù)據(jù)應(yīng)該大于0,如果小于等于0需要在excel中處理)。
2.異常值檢查
在數(shù)據(jù)分析之前,首先需要進(jìn)行數(shù)據(jù)查看,案例是問(wèn)卷數(shù)據(jù)所以對(duì)于數(shù)據(jù)進(jìn)行查看是否有異常值,常見(jiàn)的方法包括利用SPSSAU描述分析看數(shù)據(jù)是否正常,散點(diǎn)圖以及箱線(xiàn)圖。
異常值的判斷標(biāo)準(zhǔn)如下:
檢驗(yàn)數(shù)據(jù)是否有異常值的方法:
異常值處理方法:
此案例對(duì)于異常值檢查使用散點(diǎn)圖:
由散點(diǎn)圖可以看出橫坐標(biāo)代表企業(yè)規(guī)模資產(chǎn),縱坐標(biāo)代表研發(fā)投入,可以看出異常值是14.610,所以將數(shù)據(jù)進(jìn)行篩選處理,處理如下:
處理后進(jìn)行再次檢查,可使用SPSSAU可視化的箱線(xiàn)圖。
基本關(guān)系查看
數(shù)據(jù)處理后,我們切入正題,回歸分析前需要進(jìn)行基本關(guān)系查看,其中包括因變量與自變量的線(xiàn)性關(guān)系、相關(guān)關(guān)系以及因變量的正態(tài)性,接下來(lái)一一說(shuō)明。
1.線(xiàn)性關(guān)系
做數(shù)據(jù)的散點(diǎn)圖(由于數(shù)據(jù)過(guò)多,所以分析時(shí)利用SPSSAU提供的Bins處理,Bins=25),觀察因變量與自變量之間是否具有線(xiàn)性特點(diǎn)。
從上圖中可以看出,研發(fā)投入和高管平均年齡、高管平均任期、高管平均學(xué)歷、高管團(tuán)隊(duì)人數(shù)以及企業(yè)規(guī)模資產(chǎn)存在線(xiàn)性關(guān)系,其中Y軸為因變量研發(fā)投入。X軸為自變量。
2.相關(guān)關(guān)系
相關(guān)分析是研究有沒(méi)有關(guān)系,回歸分析是研究影響關(guān)系。明顯地,相關(guān)分析是基礎(chǔ),然后再進(jìn)行回歸分析。首先需要知道有沒(méi)有相關(guān)關(guān)系;有了相關(guān)關(guān)系,才可能有回歸影響關(guān)系;如果沒(méi)有相關(guān)關(guān)系,是不應(yīng)該有回歸影響關(guān)系的。
從上圖可以看出,研發(fā)投入(元)與高管平均年齡, 高管平均任期(天), 高管平均學(xué)歷, 高管團(tuán)隊(duì)人數(shù), 企業(yè)規(guī)模資產(chǎn)(元)共5項(xiàng)之間的相關(guān)關(guān)系系數(shù)值呈現(xiàn)出顯著性,具體來(lái)看,研發(fā)投入(元)和高管平均年齡之間的相關(guān)系數(shù)值為-0.189,并且呈現(xiàn)出0.01水平的顯著性,因而說(shuō)明研發(fā)投入(元)和高管平均年齡之間有著顯著的負(fù)相關(guān)關(guān)系。研發(fā)投入(元)和高管平均任期(天)之間的相關(guān)系數(shù)值為0.099,并且呈現(xiàn)出0.05水平的顯著性,因而說(shuō)明研發(fā)投入(元)和高管平均任期(天)之間有著顯著的正相關(guān)關(guān)系。研發(fā)投入(元)和高管平均學(xué)歷之間的相關(guān)系數(shù)值為0.266,并且呈現(xiàn)出0.01水平的顯著性,因而說(shuō)明研發(fā)投入(元)和高管平均學(xué)歷之間有著顯著的正相關(guān)關(guān)系。研發(fā)投入(元)和高管團(tuán)隊(duì)人數(shù)之間的相關(guān)系數(shù)值為0.236,并且呈現(xiàn)出0.01水平的顯著性,因而說(shuō)明研發(fā)投入(元)和高管團(tuán)隊(duì)人數(shù)之間有著顯著的正相關(guān)關(guān)系。研發(fā)投入(元)和企業(yè)規(guī)模資產(chǎn)(元)之間的相關(guān)系數(shù)值為0.619,并且呈現(xiàn)出0.01水平的顯著性,因而說(shuō)明研發(fā)投入(元)和企業(yè)規(guī)模資產(chǎn)(元)之間有著顯著的正相關(guān)關(guān)系。
3.正態(tài)性
橫軸各坐標(biāo)為各分組的起止范圍;左邊Y軸代表的是正態(tài)曲線(xiàn)的概率密度;右側(cè)Y軸代表頻率。從圖中可以看出因變量研發(fā)投入呈正態(tài)分布。對(duì)于正態(tài)檢驗(yàn)SPSSAU還提供了其它方法,比如P-P/Q-Q圖、正態(tài)檢驗(yàn)等。
回歸結(jié)果
通過(guò)基本關(guān)系查看可以發(fā)現(xiàn)因變量和自變量之間具有線(xiàn)性關(guān)系,以及對(duì)于相關(guān)關(guān)系也有說(shuō)明,處理后的因變量符合正態(tài)性,對(duì)年份進(jìn)行啞變量處理,特別說(shuō)明啞變量處理后在分析時(shí)要少放一項(xiàng)作為參照項(xiàng),模型效果從F檢驗(yàn)、擬合優(yōu)度、多重共線(xiàn)性以及異方差檢驗(yàn)四個(gè)方面進(jìn)行說(shuō)明。
1.模型效果
(1)F檢驗(yàn)
從上表可以看出,離差平方和為293.242,殘差平方和為156.720,而回歸平方和為136.522?;貧w方程的顯著性檢驗(yàn)中,統(tǒng)計(jì)量F=49.903,對(duì)應(yīng)的p值遠(yuǎn)遠(yuǎn)小于0.05,被解釋變量的線(xiàn)性關(guān)系是顯著的,可以建立模型。建立模型后,需要查看模型擬合優(yōu)度是否可以,其中就可以查看R方與調(diào)整R方值。
(2)擬合優(yōu)度
從上表可知,將高管平均年齡、高管平均任期、高管平均學(xué)歷、高管團(tuán)隊(duì)人數(shù)以及企業(yè)規(guī)模資產(chǎn)作為自變量,而將研發(fā)投入作為因變量進(jìn)行線(xiàn)性回歸分析,從上表可以看出,模型R方值為0.466,調(diào)整R方為0.456,其中R方是決定系數(shù),模型擬合指標(biāo)。反應(yīng)Y的波動(dòng)有多少比例能被X的波動(dòng)描述。調(diào)整R方也是模型擬合指標(biāo)。當(dāng)x個(gè)數(shù)較多是調(diào)整R比R更為準(zhǔn)確。意味著社會(huì)資源, 教育水平, 科技發(fā)展可以解釋創(chuàng)業(yè)可能性的46.6%變化原因??梢?jiàn),模型擬合優(yōu)度良好,說(shuō)明被解釋變量可以被模型解釋的部分較少。接下來(lái)查看變量是否具有多重共線(xiàn)性。
補(bǔ)充說(shuō)明:
R平方值表示模型擬合能力的大小,比如0.3表示自變量X對(duì)于因變量Y有30%的解釋能力。這個(gè)值介于0~1之間,越大越好。但實(shí)際研究中并沒(méi)有固定的標(biāo)準(zhǔn),有的專(zhuān)業(yè)0.1甚至0.05這樣都可以,但有的專(zhuān)業(yè)卻常常出現(xiàn)0.8以上。一般情況下只需要報(bào)告此值即可,不用過(guò)多關(guān)注其大小,原因在于多數(shù)時(shí)候我們更在乎X對(duì)于Y是否有影響關(guān)系即可。
(3)多重共線(xiàn)性
VIF值用于檢測(cè)共線(xiàn)性問(wèn)題,一般VIF值小于10即說(shuō)明沒(méi)有共線(xiàn)性(嚴(yán)格的標(biāo)準(zhǔn)是5),有時(shí)候會(huì)以容差值作為標(biāo)準(zhǔn),容差值=1/VIF,所以容差值大于0.1則說(shuō)明沒(méi)有共線(xiàn)性(嚴(yán)格是大于0.2),VIF和容差值有邏輯對(duì)應(yīng)關(guān)系,因此二選一即可,一般描述VIF值。在【線(xiàn)性回歸】分析時(shí),SPSSAU會(huì)智能判斷共線(xiàn)性問(wèn)題并且提供解決建議。 結(jié)果中可以看出,變量的VIF值均小于5,所以此案例不存在多重共線(xiàn)性的問(wèn)題。
但是如果存在多重共線(xiàn)問(wèn)題,建議三種解決方法一是使用逐步回歸分析(讓模型自動(dòng)剔除掉共線(xiàn)性過(guò)高項(xiàng));二是使用嶺回歸分析(使用數(shù)學(xué)方法解決共線(xiàn)性問(wèn)題),三是進(jìn)行相關(guān)分析,手工移出相關(guān)性非常高的分析項(xiàng)(通過(guò)主觀分析解決),然后再做線(xiàn)性回歸分析。
(4)異方差檢驗(yàn)
在計(jì)量研究中,異方差問(wèn)題非常重要,嚴(yán)重的異方差問(wèn)題會(huì)影響模型估計(jì)和模型檢驗(yàn)等,因而在OLS回歸時(shí)需要對(duì)其進(jìn)行檢驗(yàn),如果出現(xiàn)異方差問(wèn)題則需要進(jìn)行處理等。將殘差與自變量進(jìn)行相關(guān)分析,觀察殘差與自變量是否有相關(guān)關(guān)系。
從上表可知,針對(duì)異方差情況,使用懷特(White)檢驗(yàn)和BP檢驗(yàn)兩種方法進(jìn)行檢驗(yàn)。檢驗(yàn)原假設(shè)為模型沒(méi)有異方差,上表顯示兩種檢驗(yàn)均拒絕原假設(shè)(p<0.05),說(shuō)明模型存在異方差,建議可使用Robust穩(wěn)健標(biāo)準(zhǔn)誤回歸方法進(jìn)行研究,以解決異方差問(wèn)題。返回分析頁(yè)面進(jìn)行勾選Robust穩(wěn)健標(biāo)準(zhǔn)誤即可。
2.模型結(jié)果
回歸的中間過(guò)程包括F檢驗(yàn)、擬合優(yōu)度、多重共線(xiàn)性以及異方差檢驗(yàn),這些都是在分析前需要進(jìn)行觀測(cè)與分析的,接下來(lái)將從分析結(jié)果以及穩(wěn)健性檢驗(yàn)進(jìn)行對(duì)模型結(jié)果的闡述。
(1)分析結(jié)果
上表可知,將高管平均年齡, 高管平均任期(天), 高管平均學(xué)歷, 高管團(tuán)隊(duì)人數(shù), 企業(yè)規(guī)模資產(chǎn)(元)作為自變量進(jìn)行OLS回歸分析,并且使用Robust穩(wěn)健標(biāo)準(zhǔn)誤回歸方法進(jìn)行研究,從上表可以看出,模型R方值為0.463,意味著高管平均年齡, 高管平均任期(天), 高管平均學(xué)歷, 高管團(tuán)隊(duì)人數(shù), 企業(yè)規(guī)模資產(chǎn)(元)可以解釋研發(fā)投入(元)的46.31%變化原因。對(duì)模型進(jìn)行F檢驗(yàn)時(shí)發(fā)現(xiàn)模型通過(guò)F檢驗(yàn)(F=67.196,p=0.000<0.05),也即說(shuō)明高管平均年齡, 高管平均任期(天), 高管平均學(xué)歷, 高管團(tuán)隊(duì)人數(shù), 企業(yè)規(guī)模資產(chǎn)(元)至少一項(xiàng)會(huì)對(duì)研發(fā)投入(元)產(chǎn)生影響關(guān)系,以及模型公式為:研發(fā)投入(元)=1.644-1.315*高管平均年齡 + 0.004*高管平均任期(天) + 1.185*高管平均學(xué)歷 + 0.339*高管團(tuán)隊(duì)人數(shù) + 0.878*企業(yè)規(guī)模資產(chǎn)(元)。總結(jié)分析可知:高管平均學(xué)歷, 高管團(tuán)隊(duì)人數(shù), 企業(yè)規(guī)模資產(chǎn)(元)會(huì)對(duì)研發(fā)投入(元)產(chǎn)生顯著的正向影響關(guān)系。以及高管平均年齡會(huì)對(duì)研發(fā)投入(元)產(chǎn)生顯著的負(fù)向影響關(guān)系。但是高管平均任期(天)并不會(huì)對(duì)研發(fā)投入(元)產(chǎn)生影響關(guān)系。
(2)穩(wěn)健性檢驗(yàn)
穩(wěn)健性檢驗(yàn)是指模型的穩(wěn)定性,使用多種形式時(shí)模型均穩(wěn)定,應(yīng)該顯著的項(xiàng)還是顯著,不顯著的依舊不顯著。一般情況下建議在線(xiàn)性回歸時(shí)考慮加入控制變量,和不加入控制變量?jī)煞N情況下對(duì)比模型的穩(wěn)定性,當(dāng)然也可以使用多種研究方法比如線(xiàn)性回歸,逐步回歸,分層回歸等,多種方法測(cè)試同一個(gè)變量的顯著性情況是否有著變化,如果無(wú)論如何均穩(wěn)定或者極個(gè)別在變化,均說(shuō)明模型具有穩(wěn)健性。方法說(shuō)明如下:
本次分析選擇第一個(gè)分析方法,對(duì)于放置控制變量與不放置控制變量進(jìn)行分析對(duì)比(本案例中控制變量為年份):
高管平均學(xué)歷, 高管團(tuán)隊(duì)人數(shù), 企業(yè)規(guī)模資產(chǎn)(元)會(huì)對(duì)研發(fā)投入(元)產(chǎn)生顯著的正向影響關(guān)系。以及高管平均年齡會(huì)對(duì)研發(fā)投入(元)產(chǎn)生顯著的負(fù)向影響關(guān)系。但是高管平均任期(天)并不會(huì)對(duì)研發(fā)投入(元)產(chǎn)生影響關(guān)系。總結(jié)可知,前后對(duì)比發(fā)現(xiàn)自變量顯著性未發(fā)生改變模型具有穩(wěn)健性。
總結(jié)
利用SPSSAU回歸分析高管信息以及企業(yè)規(guī)模資產(chǎn)對(duì)于研發(fā)投入的影響。首先對(duì)數(shù)據(jù)進(jìn)行處理包括數(shù)據(jù)取對(duì)數(shù)以及異常值檢查。緊接著對(duì)于分析的基本關(guān)系進(jìn)行查看,包括線(xiàn)性關(guān)系,相關(guān)關(guān)系以及正態(tài)性,對(duì)處理后的數(shù)據(jù)進(jìn)行分析,從兩個(gè)方面進(jìn)行闡述,包括模型效果以及模型結(jié)果,模型效果從F檢驗(yàn)、擬合優(yōu)度、多重共線(xiàn)性以及異方差檢驗(yàn)四個(gè)方面進(jìn)行說(shuō)明。發(fā)現(xiàn)模型具有異方差性,使用Robust穩(wěn)健標(biāo)準(zhǔn)誤回歸方法進(jìn)行研究。得到的結(jié)論是:高管平均學(xué)歷, 高管團(tuán)隊(duì)人數(shù), 企業(yè)規(guī)模資產(chǎn)(元)會(huì)對(duì)研發(fā)投入(元)產(chǎn)生顯著的正向影響關(guān)系。以及高管平均年齡會(huì)對(duì)研發(fā)投入(元)產(chǎn)生顯著的負(fù)向影響關(guān)系。對(duì)分析后的模型進(jìn)行穩(wěn)健性檢驗(yàn)發(fā)現(xiàn)模型具有穩(wěn)健性,分析結(jié)束。