SPSS線性回歸分析全流程總結(jié)
一、案例與數(shù)據(jù)
一家大型商業(yè)銀行在多地區(qū)設(shè)有分行,其業(yè)務(wù)主要是進(jìn)行基礎(chǔ)設(shè)施建設(shè),國(guó)家重點(diǎn)項(xiàng)目建設(shè),固定資產(chǎn)投資等項(xiàng)目的貸款。近年來,該銀行的貸款額平穩(wěn)增長(zhǎng),但不良貸款額也有較大比例的提高,這給銀行業(yè)務(wù)的發(fā)展帶來較大壓力。為弄清楚不良貸款形成的原因,管理者希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做一些統(tǒng)計(jì)分析,想要知道“本年累積應(yīng)收貸款”、 “貸款項(xiàng)目個(gè)數(shù)”以及“本年固定資產(chǎn)投資額”對(duì)“不良貸款”是否有影響,如果有影響,它們之間誰的影響更大?部分?jǐn)?shù)據(jù)如下(數(shù)據(jù)虛構(gòu)無實(shí)際意義):
二、分析問題
管理者想要研究“本年累積應(yīng)收貸款”、 “貸款項(xiàng)目個(gè)數(shù)”以及“本年固定資產(chǎn)投資額”對(duì)“不良貸款”是否有影響,如果有影響,分析影響程度,其中以“不良貸款”作為因變量, “本年累積應(yīng)收貸款”、 “貸款項(xiàng)目個(gè)數(shù)”以及“本年固定資產(chǎn)投資額”作為自變量研究影響關(guān)系,可以考慮線性回歸、方差分析等,由于自變量和因變量均為定量變量,所以選擇線性回歸進(jìn)行分析。
三、初探基本關(guān)系
在進(jìn)行線性回歸之前,首先需要對(duì)數(shù)據(jù)進(jìn)行查看基本關(guān)系,然后進(jìn)行檢驗(yàn)數(shù)據(jù)是否滿足參與線性回歸分析的基本條件?;娟P(guān)系包括數(shù)據(jù)的相關(guān)關(guān)系以及共線性的查看。
1.相關(guān)關(guān)系
在回歸分析前一般需要做相關(guān)分析,因?yàn)橛辛讼嚓P(guān)關(guān)系,才可能有回歸影響關(guān)系;如果沒有相關(guān)關(guān)系,是不應(yīng)該有回歸影響關(guān)系的。所以進(jìn)行初步查看,結(jié)果如下:
將“本年累計(jì)應(yīng)收貸款”、“貸款項(xiàng)目個(gè)數(shù)”、“本年固定資產(chǎn)投資額”以及“不良貸款”之間進(jìn)行兩兩相關(guān)分析。除了“本年固定資產(chǎn)投資額”和“不良貸款”之間p值大于0.05,其余兩兩之間分析p值均小于0.05,所以不良貸款與本年固定資產(chǎn)投資額沒有相關(guān)關(guān)系,也即說明進(jìn)行回歸分析時(shí)不放入本年固定資產(chǎn)投資額。接下來查看數(shù)據(jù)是否存在共線性。
2.共線性
共線性是指線性回歸模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系(例如相關(guān)系數(shù)大于0.8)而使模型估計(jì)失真或難以估計(jì)準(zhǔn)確。共線性的存在可能會(huì)降低估計(jì)的精準(zhǔn)度,并且穩(wěn)定性也會(huì)降低。無法判斷單獨(dú)變量的影響?;貧w方程的標(biāo)準(zhǔn)誤差增大。變量顯著性可能會(huì)失去意義等等。所以在分析前需要對(duì)共線性問題進(jìn)行檢查。
一般VIF值大于10(嚴(yán)格來說大于5),存在共線性問題,從分析結(jié)果中可以看到VIF值小于10,所以不存在共線性,如果存在共線性問題則不能使用線性回歸,可以使用嶺回歸、Lasso回歸等進(jìn)行分析。
四、前提條件檢驗(yàn)
大多數(shù)方法進(jìn)行分析時(shí),都有假設(shè)或者分析的前提條件,線性回歸也不例外。線性回歸分析的前提條件概括為四個(gè):線性、獨(dú)立、正態(tài)和方差齊性,接下來一一檢驗(yàn)。
1.線性
一般檢驗(yàn)數(shù)據(jù)之間的線性關(guān)系,是為了考察因變量隨自變量值變化的情況,可以做相關(guān)分析從側(cè)面進(jìn)行說明或者利用散點(diǎn)圖進(jìn)行說明,散點(diǎn)圖更加直觀,所以本次選擇散點(diǎn)圖進(jìn)行描述(SPSSAU可視化→散點(diǎn)圖)。結(jié)果如下:
以“不良貸款(億元)”作為Y軸,“本年累計(jì)應(yīng)收貸款(億元)”作為X軸建立散點(diǎn)圖,發(fā)現(xiàn)“不良貸款(億元)”與“本年累計(jì)應(yīng)收貸款(億元)”為線性關(guān)系。以同樣的方法對(duì)“貸款項(xiàng)目個(gè)數(shù)”和“不良貸款”建立散點(diǎn)圖,也存在線性關(guān)系。
如果不呈現(xiàn)線性關(guān)系可以嘗試通過變量變換進(jìn)行修正,常用的變量變換的方法有對(duì)數(shù)變換、倒數(shù)變換等等。
2.獨(dú)立
獨(dú)立是指殘差是獨(dú)立的。特別是,時(shí)間序列數(shù)據(jù)中的連續(xù)殘差之間沒有相關(guān)性??梢圆榭碊W值,一般在DW值在2附近(比如1.7-2.3之間),則說明沒有自相關(guān)性,模型構(gòu)建良好,反之若DW值明顯偏離2,則說明具有自相關(guān)性,模型構(gòu)建較差(一般如果不是時(shí)間序列數(shù)據(jù)也可以不用過度關(guān)注)。嘗試構(gòu)建回歸分析模型發(fā)現(xiàn)DW值為2.286。
從結(jié)果中可以看出DW值為2.286在2的附近,表示模型構(gòu)建良好。接下來進(jìn)行驗(yàn)證“正態(tài)”。
3.正態(tài)
正態(tài)表示殘差服從正態(tài)分布。其方差σ2 = var (ei)反映了回歸模型的精度,一般 σ 越小,用所得到回歸模型預(yù)測(cè)y的精確度越高。建立回歸分析模型得到殘差與預(yù)測(cè)值,利用殘差繪制直方圖查看殘差是否滿足正態(tài)分布,結(jié)果如下:
如果直方圖呈現(xiàn)‘中間高,兩邊低,左右基本對(duì)稱的 “鐘形圖”則基本服從正態(tài)分析,但是數(shù)據(jù)量過少等也可能影響結(jié)果導(dǎo)致很難呈現(xiàn)出標(biāo)準(zhǔn)的正態(tài)分布,如果是這種情況如果看見‘鐘形’也可以可以接受的。上圖可以看出,數(shù)據(jù)呈現(xiàn)的分布并不對(duì)稱,但是也出現(xiàn)近似‘鐘形’曲線,所以也可以接受。殘差滿足正態(tài)分布,接下來驗(yàn)證方差齊性。
4.方差齊性
?方差齊性是指殘差的大小不隨所有變量取值水平的改變而改變,即方差齊性。那么如何進(jìn)行呢?首先對(duì)殘差和預(yù)測(cè)值進(jìn)行標(biāo)準(zhǔn)化,與標(biāo)準(zhǔn)化殘差為Y軸,標(biāo)準(zhǔn)化預(yù)測(cè)值為X軸繪制散點(diǎn)圖,如果所有點(diǎn)均勻分布在直線Y=0的兩側(cè),則可以認(rèn)為是方差齊性,結(jié)果如下:
從散點(diǎn)圖可以發(fā)現(xiàn)數(shù)據(jù)大致均勻分布在Y=0的兩側(cè),所以可認(rèn)為是方差齊性,綜上,數(shù)據(jù)滿足回歸分析的前提假設(shè)??梢赃M(jìn)行線性回歸。
五、回歸分析
由上述分析與檢驗(yàn)最后以“不良貸款(億元)”為因變量,“本年累積應(yīng)收貸款(億元)”和“貸款項(xiàng)目個(gè)數(shù)(個(gè))”為自變量構(gòu)建線性回歸模型。分析將從模型效果以及模型結(jié)果兩部分進(jìn)行說明。
1.模型效果說明
模型效果說明包括F檢驗(yàn)以及模型擬合優(yōu)度。
F檢驗(yàn)
F檢驗(yàn)主要是觀測(cè)被解釋變量的線性關(guān)系是否顯著,上表可以看出,進(jìn)行回歸方程的顯著性檢驗(yàn)時(shí),統(tǒng)計(jì)量F=17.521,對(duì)應(yīng)的p值小于0.05,所以說明被解釋變量的線性關(guān)系是顯著的,可以建立模型。那么模型的擬合優(yōu)度又是怎么樣的?接下來進(jìn)行說明。
擬合優(yōu)度
模型擬合優(yōu)度一般查看R方值(決定系數(shù),模型擬合指標(biāo)),如果R方為0.3代表自變量可以解釋因變量30%的變化原因,一般越接近1說明擬合越好,但是很多研究中不會(huì)過多關(guān)注其大小,原因在于多數(shù)時(shí)候我們更在乎X對(duì)于Y是否有影響關(guān)系。從上表可以看出,模型R方值為0.614,調(diào)整R方為0.579。調(diào)整R方也是模型擬合指標(biāo)。當(dāng)x個(gè)數(shù)較多是調(diào)整R2比R2更為準(zhǔn)確。
意味著“本年累積應(yīng)收貸款(億元)”和“貸款項(xiàng)目個(gè)數(shù)(個(gè))”可以解釋“不良貸款”61.4%變化原因??梢姡P蛿M合優(yōu)度良好,說明被解釋變量可以被模型大部分解釋。接下來對(duì)模型結(jié)果進(jìn)行解釋。
2.模型結(jié)果解釋
管理者想要知道“本年累積應(yīng)收貸款”、 “貸款項(xiàng)目個(gè)數(shù)”以及“本年固定資產(chǎn)投資額”對(duì)“不良貸款”是否有影響,如果有影響,它們之間誰的影響更大?因?yàn)榍懊娴南嚓P(guān)分析中得到了“本年固定資產(chǎn)投資額”與“不良貸款”之間沒有相關(guān)關(guān)系,一般情況下沒有相關(guān)關(guān)系是沒有影響關(guān)系的,所以分析“本年累積應(yīng)收貸款”、 “貸款項(xiàng)目個(gè)數(shù)”對(duì)“不良貸款”的影響關(guān)系,模型結(jié)果分為“是否有影響”以及“影響程度”進(jìn)行闡述。首先查看自變量對(duì)因變量是否有影響。
是否有影響
從上表可以看出,本年累計(jì)應(yīng)收貸款分析項(xiàng)的t值為3.190,p值小于0.05說明此項(xiàng)具有顯著性,即本年累計(jì)應(yīng)收貸款對(duì)不良貸款有影響,貸款項(xiàng)目個(gè)數(shù)分析項(xiàng)的t值為2.126,p值小于0.05也說明此項(xiàng)具有顯著性,即貸款項(xiàng)目個(gè)數(shù)對(duì)不良貸款有影響,二者對(duì)不良貸款有影響,具體誰影響大接下來進(jìn)行說明。
影響程度
一般有影響關(guān)系才會(huì)去比較影響程度大小,影響程度大小需要查看標(biāo)準(zhǔn)化系數(shù),標(biāo)準(zhǔn)化系數(shù)的絕對(duì)值越大表明自變量對(duì)因變量的反應(yīng)越大,即影響程度越大,從上表中可以看出0.524>0.349,說明本年累積應(yīng)收貸款相比較貸款項(xiàng)目個(gè)數(shù)對(duì)不良貸款影響更大。
除此之外,如果利用回歸分析進(jìn)行預(yù)測(cè)等,可以使用非標(biāo)準(zhǔn)化系數(shù)進(jìn)行構(gòu)建模型公式,具體不在贅述,可以進(jìn)入SPSSAU官網(wǎng)進(jìn)行查看。
六、總結(jié)
利用線性回歸對(duì)管理者的問題進(jìn)行分析,首先對(duì)數(shù)據(jù)的進(jìn)本關(guān)系進(jìn)行查看以及探索數(shù)據(jù)是否滿足線性回歸分析的條件,對(duì)數(shù)據(jù)處理后進(jìn)行線性回歸分析,發(fā)現(xiàn)“本年累積應(yīng)收貸款”、 “貸款項(xiàng)目個(gè)數(shù)”對(duì)“不良貸款”有影響,并且查看標(biāo)準(zhǔn)化系數(shù)發(fā)現(xiàn)“本年累積應(yīng)收貸款”影響程度更大,這對(duì)于管理者后續(xù)分析提供了有效信息。分析完畢。