最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

手把手教你用SPSSAU做多重線性逐步回歸

2022-08-31 09:56 作者:SPSSAU官方賬號(hào)  | 我要投稿

目錄

1.案例背景與分析策略 2

1.1 案例背景介紹 2

1.2 明確目的與分析策略 2

2.初步數(shù)據(jù)分析 3

2.1 線性關(guān)系探查 3

2.2 共線性問題排查 4

3.逐步回歸分析 5

3.1 軟件操作 5

3.2 回歸結(jié)果解讀 6

4.回歸殘差診斷 6

4.1 繪制殘差PP圖 7

4.2 繪制殘差散點(diǎn)圖 7

4.3 殘差條件結(jié)果解讀 7

5.預(yù)測(cè) 9

6.總結(jié) 9

1.案例背景與分析策略

1.1 案例背景介紹

某研究收集到美國(guó)50個(gè)州關(guān)于犯罪率的一組數(shù)據(jù),包括人口、面積、收入、文盲率、高中畢業(yè)率、霜凍天數(shù)、犯罪率共7個(gè)指標(biāo),現(xiàn)在我們想考察一下州犯罪率和哪些指標(biāo)有關(guān)。

數(shù)據(jù)上傳SPSSAU后,在 “我的數(shù)據(jù)”中查看瀏覽原始數(shù)據(jù),前5行數(shù)據(jù)如下:


圖1 “我的數(shù)據(jù)”查看瀏覽數(shù)據(jù)集

1.2 明確目的與分析策略

從數(shù)據(jù)分析的目的上,我們想了解犯罪率是否受到人口、面積、收入、文盲率、高中畢業(yè)率、霜凍天數(shù)6個(gè)方面的影響。

影響因素分析,可以考慮回歸分析、方差分析等統(tǒng)計(jì)方法,考慮到目標(biāo)變量即因變量犯罪率為連續(xù)型數(shù)據(jù),其他6個(gè)指標(biāo)也為連續(xù)型變量,因此考慮嘗試擬合多重線性回歸模型,用以研究犯罪率的影響因素。

其中,犯罪率作為因變量,其他人口、面積等6個(gè)變量作為自變量。為高效分析、精簡(jiǎn)模型,本例將采用逐步回歸的方式由模型自動(dòng)篩選對(duì)因變量有影響的自變量。

2.初步數(shù)據(jù)分析

2.1 線性關(guān)系探查

拿到數(shù)據(jù)后,不宜馬上開始線性回歸擬合,應(yīng)當(dāng)首先探查各自變量X與因變量Y是否存在線性關(guān)系這一基礎(chǔ)條件。如果拒絕該條件,則考慮對(duì)數(shù)據(jù)做轉(zhuǎn)換或改用其他統(tǒng)計(jì)方法。

在SPSSAU中,可以借助“散點(diǎn)圖”、“Pearson相關(guān)系數(shù)矩陣”初判X與Y的線性關(guān)系是否存在。

在“通用方法”欄目中選擇【相關(guān)】,將人口~犯罪率共7個(gè)變量拖拽至【定量分析項(xiàng)】框中, 默認(rèn)選擇“Pearson相關(guān)系數(shù)”,最后點(diǎn)擊“開始分析”。


圖2 自變量、因變量間的相關(guān)性

各變量?jī)蓛砷g的線性相關(guān)系數(shù)見圖2。人口、文盲率、高中畢業(yè)率、霜凍天氣與犯罪率存在線性相關(guān)(均P值<0.05),是我們重點(diǎn)的研究對(duì)象。面積、收入兩個(gè)指標(biāo)與犯罪率的相關(guān)系數(shù)無統(tǒng)計(jì)學(xué)意義,但考慮到專業(yè)經(jīng)驗(yàn)與既往研究結(jié)論認(rèn)為二者對(duì)犯罪率有線性關(guān)系,本次案例仍擬將二者作為次要因素參與線性擬合。

X與Y是否有線性關(guān)系,建議繪制多變量散點(diǎn)圖矩陣,通過散點(diǎn)圖觀察線性趨勢(shì),比相關(guān)系數(shù)更直觀高效。

2.2 共線性問題排查

由圖2可知,6個(gè)自變量間相關(guān)系數(shù)絕對(duì)值介于(0.023,0.672)之間,初步認(rèn)為各自變量間無強(qiáng)相關(guān)性。

在SPSSAU中,有兩處功能可以實(shí)現(xiàn)線性回歸?!巴ㄓ梅椒ā睓谀肯碌摹揪€性回歸】適用于自變量較少的情況,此時(shí)擬考察的自變量將全部進(jìn)入模型。而“進(jìn)階方法”欄目下的【逐步回歸】適用于自變量較多的情況,此時(shí)眾多自變量可以采取逐步回歸的策略進(jìn)入模型。

現(xiàn)在我們可以借助【線性回歸】,考察所有6個(gè)自變量的多重共線性問題。

打開【線性回歸】界面,犯罪率移入【定量Y】框,其他6個(gè)自變量移入【定量X】框,不勾選“保存殘差和預(yù)測(cè)值”選項(xiàng),點(diǎn)擊“開始分析”。


圖3 線性回歸系數(shù)、VIF、方差分析結(jié)果表格

圖3中可見各自變量的VIF方差膨脹因子,一般認(rèn)為VIF低于5(也有說法是低于10)可忽略共線性問題。本例中,VIF最高值為3.911低于5,再結(jié)合沒有強(qiáng)相關(guān)性,初步判斷認(rèn)為,6個(gè)自變量間的共線性問題可忽略不計(jì)。

3.逐步回歸分析

3.1 軟件操作

自變量個(gè)數(shù)較少時(shí),可采取強(qiáng)制納入的方式,自變量個(gè)數(shù)較多時(shí),可考慮采取逐步回歸。有的研究會(huì)根據(jù)樣本量大小,選擇先做一元線性回歸,逐個(gè)考察單個(gè)自變量的影響,然后再選擇有顯著影響的自變量做多重線性回歸。

結(jié)合相關(guān)性結(jié)果與樣本量,本例擬直接采用逐步回歸,接下來做多重線性逐步回歸。

在“進(jìn)階方法”欄目下,選擇【逐步回歸】,將犯罪率拖拽至【定量Y】框內(nèi),人口、面積等6個(gè)自變量拖拽至【定量/定類X】框內(nèi)。默認(rèn)勾選【保存殘差和預(yù)測(cè)值】,默認(rèn)選擇【逐步法】進(jìn)行回歸。最后點(diǎn)擊“開始分析”即可。


圖4 SPSSAU逐步回歸操作界面

SPSSAU對(duì)用戶極為友好,逐步回歸的操作只需要拖拽變量即可完成,極大降低新手的操作難度。

3.2 回歸結(jié)果解讀

SPSSAU輸出的回歸結(jié)果表格,是一張整合后的三線表表格,內(nèi)含回歸系數(shù)、自變量顯著性t檢驗(yàn)、模型評(píng)價(jià)決定系數(shù)R評(píng)分,以及總體回歸模型顯著性檢驗(yàn)結(jié)果。具體見下圖5。


圖5 逐步回歸分析系數(shù)、VIF、方差分析結(jié)果表格

(1)最終模型中只保留了人口、文盲率,人口、文盲率對(duì)犯罪率的影響有統(tǒng)計(jì)學(xué)意義(t=2.808,p=0.007;t=6.978,p<0.01);面積、收入、高中畢業(yè)率、霜凍天數(shù)不在模型內(nèi),說明這4個(gè)自變量對(duì)犯罪率的影響無統(tǒng)計(jì)學(xué)意義。

由標(biāo)準(zhǔn)化回歸系數(shù)可知,對(duì)犯罪率的影響,相對(duì)而言是文盲率比人口相對(duì)要重要。

(2)回歸模型:Hat Y = 1.652+0.00022*人口+4.081*文盲率;回歸模型總體有統(tǒng)計(jì)學(xué)意義(F=30.75,P<0.01)。

(3)模型調(diào)整后的R平方=0.548,即該回歸模型可解釋因變量犯罪率變化的54.8%,模型解釋能力略先不足。

4.回歸殘差診斷

除了X與Y線性相關(guān)條件外,線性回歸還對(duì)殘差有條件要求。主要表現(xiàn)為要求回歸殘差獨(dú)立,回歸殘差服從正態(tài)分布,殘差無異方差性。

此前我們要求SPSSAU計(jì)算并另存回歸模型的殘差和預(yù)測(cè)值數(shù)據(jù),這兩個(gè)新的數(shù)據(jù),在 “我的數(shù)據(jù)”中查看數(shù)據(jù)即可看到。


圖6 “我的數(shù)據(jù)”查看新計(jì)算的殘差、預(yù)測(cè)值數(shù)據(jù)

Residual為回歸殘差,Prediction為回歸擬合或預(yù)測(cè)值。

4.1 繪制殘差PP圖

在“可視化”欄目中,選擇【PP圖QQ圖】,將Residual數(shù)據(jù)移入【分析項(xiàng)】即可繪制出殘差的PP圖,用于判斷殘差是否服從正態(tài)分布。

4.2 繪制殘差散點(diǎn)圖

在“可視化”欄目中,選擇【散點(diǎn)圖】,將Residual數(shù)據(jù)移入【定量Y】框,Prediction數(shù)據(jù)移入【定量X】框,繪制殘差散點(diǎn)圖,用于判斷殘差是否無異方差性。

4.3 殘差條件結(jié)果解讀

正態(tài)PP圖,見下圖7。

絕大多數(shù)點(diǎn)落在對(duì)角線上,即可認(rèn)為數(shù)據(jù)近似服從正態(tài)分布。本例認(rèn)為滿足該條件。同樣地,也可以命令SPSSAU繪制殘差數(shù)據(jù)帶正態(tài)曲線的直方圖,或正態(tài)QQ圖做判斷,其結(jié)論均一致。


圖7 殘差數(shù)據(jù)的正態(tài)PP圖


圖8 殘差診斷散點(diǎn)圖

殘差散點(diǎn)圖,見上圖8。

散點(diǎn)圖上各點(diǎn)的分布均勻離散,沒有明顯規(guī)律性。由此判斷,殘差無異質(zhì)性。

此圖左上角有一個(gè)點(diǎn)偏離較遠(yuǎn),可根據(jù)實(shí)際情況判斷是否為異常值。如是,則考慮刪去后重新回歸。本例略。

對(duì)于殘差獨(dú)立性,可以依據(jù)圖5中DW值做出判斷,一般認(rèn)為DW值在1.7~2.3之間則殘差獨(dú)立(無自相關(guān)性)。本例DW=2.18,認(rèn)為殘差獨(dú)立性滿足要求。

至此,殘差正態(tài)、殘差獨(dú)立、殘差無異方差性均滿足條件。

5.預(yù)測(cè)

回歸模型建立后,SPSSAU也可以針對(duì)模型幫用戶實(shí)現(xiàn)簡(jiǎn)單的預(yù)測(cè)功能。本例的研究目的并不強(qiáng)調(diào)預(yù)測(cè),這里僅做簡(jiǎn)單示范。


圖9 線性回歸預(yù)測(cè)

如上圖9所示,在【逐步回歸】的結(jié)果頁(yè)面中,找到【模型預(yù)測(cè)】,直接輸入人口值、文盲率值,我們以California州的數(shù)據(jù)為例,來做驗(yàn)證。

依次輸入21198、1.1,預(yù)測(cè)犯罪率為10.893,本例原始中真值為10.3,有微小誤差。

6.總結(jié)

線性回歸中要求自變量為連續(xù)型數(shù)據(jù),如果遇到類別型自變量,可酌情轉(zhuǎn)為啞變量然后進(jìn)行回歸。在SPSSAU的“數(shù)據(jù)處理”欄目下【生存變量】功能中可執(zhí)行啞變量轉(zhuǎn)換。

另外,如果回歸分析出現(xiàn)異常值數(shù)據(jù),可在SPSSAU中的“數(shù)據(jù)處理”欄目下【異常值】功能中進(jìn)行處理或填補(bǔ)。也或者使用穩(wěn)健回歸(Robust回歸進(jìn)行分析,Robust回歸是專門處理異常值情況下的回歸模型)。

就本案例來說,以犯罪率為因變量,專業(yè)上主張的6個(gè)因素,人口、面積、收入、文盲率、高中畢業(yè)率、霜凍天數(shù),經(jīng)多重線性逐步回歸分析后,最后我們發(fā)現(xiàn)人口、文盲率對(duì)犯罪率有顯著影響,其他4個(gè)自變量對(duì)因變量的影響無統(tǒng)計(jì)學(xué)意義。

本例未對(duì)異常值進(jìn)行識(shí)別和處理,實(shí)踐中應(yīng)當(dāng)重視異常數(shù)據(jù)對(duì)回歸模型的影響。

手把手教你用SPSSAU做多重線性逐步回歸的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
晴隆县| 迁西县| 西充县| 通山县| 手游| 湘潭市| 台北县| 白城市| 武宣县| 嘉善县| 彰化县| 定襄县| 虎林市| 仁寿县| 霍林郭勒市| 新竹县| 屏山县| 安新县| 嫩江县| 玉溪市| 肇源县| 清原| 奎屯市| 鄯善县| 班戈县| 卢龙县| 饶平县| 酒泉市| 名山县| 都兰县| 溆浦县| 临高县| 昆明市| 二连浩特市| 社旗县| 筠连县| 专栏| 奉节县| 班玛县| 丰顺县| 云浮市|