最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

一文教會你多元線性回歸分析

2023-07-12 10:32 作者:SPSSAU官方賬號  | 我要投稿

多元線性回歸分析是當前使用最為成熟、應用最廣泛、使用最多的回歸分析方法之一。但是很多同學并不能很好的掌握其分析流程,包括多元線性回歸的前提條件、軟件操作、結(jié)果解讀等。本文通過一個案例,探討一下多元線性回歸分析流程。

一、多元線性回歸方程

多元線性回歸是研究多個自變量X對一個因變量Y的影響情況。多元線性回歸方程的參數(shù)估計方法采用最小二乘法,回歸方程的數(shù)學模型為:

β0為常數(shù)項,又稱為截距;βi(i=1,2,...,p)表示除Xi以外的其他自變量固定的情況下,Xi變化一個單位,相應Y的平均變化值,也表示每個自變量對因變量的影響程度。ε為隨機誤差項,又稱殘差,是因變量Y的變化中不能用自變量X解釋的部分。

二、前提條件

多元線性回歸模型的應用需要滿足如下前提條件:

①因變量Y為定量數(shù)據(jù);
②自變量X個數(shù)大于等于2(定量數(shù)據(jù)和定類數(shù)據(jù)均可);
③自變量X與因變量Y之間存在線性關(guān)系;
④自變量之間不存在多重共線性;

⑤各觀測值之間相互獨立,即殘差之間不存在自相關(guān);

⑥殘差服從均值為0,方差為σ^2的正態(tài)分布(殘差服從正態(tài)分布和方差齊)。

條件①②與研究設計有關(guān),條件③-⑥需要使用軟件進行驗證。

提特別示:當自變量為定類數(shù)據(jù)時,比如專業(yè)(共分為‘理科類’,‘工科類’和‘文科類’)通常需要進行啞變量處理,然后再進行回歸分析等。

  • 原因:自變量為定類數(shù)據(jù)時,不能得到X越如何,Y越如何的結(jié)論。進行虛擬變量設置后,定類數(shù)據(jù)的回歸分析才有意義,比如得到“相對于文科類專業(yè)(數(shù)字0);非文科類專業(yè)(1)工資越高”這樣的結(jié)論。

  • 參照項:專業(yè)為3類,進行啞變量處理后,在回歸模型中,只能放入2個啞變量,因為需要留一個專業(yè)作為參照項。比如將文科類作為參照項,后續(xù)可以得到“相對于文科類專業(yè),理科or工科類怎樣怎樣”的結(jié)論。并且從數(shù)學角度來講,如果專業(yè)對應的3個虛擬變量都放入模型,一定會出現(xiàn)‘多重共線性問題’。

接下來,通過一個案例,介紹如何使用軟件進行多元線性回歸分析,以及分析結(jié)果應該如何解讀。

三、案例實戰(zhàn)

案例背景:當前有一家公司,想要研究員工的初始工資、工作時間、教育程度、工作經(jīng)驗是否會影響員工的當前工資,如果有影響,各個因素對當前工資的影響大小如何,故通過多元線性回歸進行分析。

1前提條件檢驗

條件③:自變量X與因變量Y之間存在線性關(guān)系;

多元線性回歸分析要求自變量X與因變量Y之間存在線性關(guān)系,可以通過繪制散點圖或者查看變量之間的相關(guān)系數(shù)的方式進行。本案例使用散點圖用于直觀展示自變量X與因變量Y之間的關(guān)系情況,利用SPSSAU可視化->散點圖進行分析,操作如下:

SPSSAU輸出散點圖如下:

以初始工資、教育程度、工作經(jīng)驗、工作時間為X軸,工資為Y軸得到的散點圖,從散點圖可以看出,工資與初始工資、教育程度、工作經(jīng)驗之間的關(guān)系有線性趨勢,但是工作時間與工資之間并沒有明顯的關(guān)系;故可以將工作時間這一自變量從模型中剔除。

條件④:自變量之間不存在多重共線性;

共線性是指在線性回歸分析時,出現(xiàn)的自變量之間彼此相關(guān)的現(xiàn)象。使用SPSSAU進行多元線性回歸時,分析結(jié)果會自動輸出VIF值,用來判斷是否存在共線性。一般VIF值大于10(嚴格大于5),則認為存在嚴重的共線性。有些文獻也以容忍度作為判斷共線性的指標,容忍度為VIF值的倒數(shù),容忍度大于0.1則說明沒有共線性(嚴格是大于0.2)。研究時二者選其一即可,一般描述VIF值。
SPSSAU輸出結(jié)果如下:

從上表可以看出,VIF值均小于10,說明不存在共線性問題,滿足條件④。如果數(shù)據(jù)存在共線性,可以手動移除相關(guān)性非常高的變量,或者改用逐步回歸、嶺回歸等方法進行分析。多重共線性檢驗及其處理方法可以參考下面這篇文章:

多重共線性檢驗及處理方法(附案例教程)

條件⑤:各觀測值之間相互獨立,即殘差之間不存在自相關(guān)

如果模型的殘差項違背了相互獨立的基本假設,稱為存在自相關(guān)性。自相關(guān)性可以使用D-W檢驗(杜賓-瓦特森檢驗)進行分析。一般認為,如果D-W值在2附近,說明不存在自相關(guān)性,模型構(gòu)建比較好;如果D-W值明顯偏離2,說明模型具有自相關(guān)性,模型構(gòu)建較差。
SPSSAU在進行線性回歸分析時,輸出D-W值如下:

從上表可知,本案例D-W值為1.6879接近2,所以可以認為殘差不存在自相關(guān),各觀察值之間相互獨立,滿足條件⑤。

條件⑥:殘差服從均值為0,方差為σ^2的正態(tài)分布(殘差服從正態(tài)分布和方差齊)。

在進行分析時,勾選【保存預測和殘差值】選項,SPSSAU會輸出殘差值和預測值。

  • 殘差正態(tài)性檢驗

可通過標準化殘差直方圖來判斷殘差的正態(tài)性,SPSSAU可視化->直方圖,結(jié)果如下:

從直方圖可以判斷,基本滿足“中間高,兩頭低”的鐘形分布形態(tài),可以認為標準化殘差值滿足正態(tài)分布。

  • 殘差方差齊檢驗

殘差的方差齊性,可通過標準化殘差值與標準化預測值的散點圖來判斷方差齊性。以標準化殘差為Y軸,標準化預測值為X軸繪制散點圖,如果所有點均勻分布在直線Y=0的兩側(cè),則可以認為滿足方差齊性,散點圖結(jié)果如下:

從散點圖可以發(fā)現(xiàn)數(shù)據(jù)大致均勻分布在Y=0的兩側(cè),所以可認為殘差滿足方差齊性。綜上所述,數(shù)據(jù)滿足回歸分析的前提假設,可以進行多元線性回歸。

2多元線性回歸分析結(jié)果解讀


1)總體顯著性檢驗

多個自變量與因變量這個整體的顯著性檢驗,是使用F檢驗進行的,可以判斷多元線性回歸方程是否成立。SPSSAU多元線性回歸分析F檢驗輸出結(jié)果如下:


從上表可以看出,統(tǒng)計量F=6075.9224,對應的p值小于0.05,所以多元線性回歸通過總體顯著性檢驗,回歸模型是具有統(tǒng)計學意義的。
接下來查看每個自變量對因變量影響的顯著性,即回歸系數(shù)顯著性檢驗。

2)回歸系數(shù)顯著性檢驗

回歸系數(shù)顯著性檢驗是指每個自變量對因變量影響的顯著性檢驗,使用t檢驗進行。SPSSAU輸出每個自變量對因變量影響的t檢驗結(jié)果如下:

從上表可以看出,初始工資、教育程度與工作經(jīng)驗三個自變量對應t檢驗的p值均小于0.05,呈現(xiàn)出顯著性特征。說明三個自變量X對因變量Y(工資)均有顯著影響。


3R方與調(diào)整后R

R方用于分析模型的擬合優(yōu)度,又稱決定系數(shù)。R方的值介于0~1之間,代表模型的擬合程度,一般認為越大越好。例如R方為0.5,說明自變量可以解釋因變量50%的變化原因。但是實際研究中并不會過多關(guān)注R方的大小,因為進行回歸分析更多的主要關(guān)注自變量對因變量是否具有影響關(guān)系。調(diào)整后R方并沒有實際意義,通常在進行模型調(diào)整(增加或者減少變量個數(shù)時)使用,用于判斷你的模型中該不該加入你想加入的變量。

從上表可以看出,R方=0.973,說明自變量可以解釋因變量97.3%的變化原因,模型擬合較好。當進行模型調(diào)整時,可以關(guān)注調(diào)整后R方的變化。

4)模型公式

從上表可知,將工作經(jīng)驗,初始工資,教育程度作為自變量,而將工資作為因變量進行線性回歸分析,從上表可以看出,模型公式為:工資=18473.846 + 145.782*工作經(jīng)驗 + 0.333*初始工資-274.265*教育程度


特別提示:構(gòu)建回歸模型使用非標準化回歸系數(shù),它是方程中不同自變量對應的原始回歸系數(shù),反映了在其他自變量不變的情況下,該自變量每變化一個單位對因變量作用的大小。通過非標準化回歸系數(shù)構(gòu)建的回歸方程,才可以對因變量進行預測。

5)自變量影響大小比較

從線性回歸結(jié)果可以看出,工作經(jīng)驗、初始工資、教育程度的標準化回歸系數(shù)分別是:0.8929、0.1536、-0.0463;所以工作經(jīng)驗對工資的影響最大,其次是初始工資,影響最小的是教育程度,且初始工資與工作經(jīng)驗對工資的影響是顯著正向的,而教育程度對工資的影響是顯著負向的。


特別提示:自變量對因變量影響大小的比較是通過標準化回歸系數(shù)進行比較的。標準化回歸系數(shù)的絕對值越大,說明該自變量對因變量的影響越大。標準化回歸系數(shù),是對自變量和因變量同時進行標準化處理后所得到的回歸系數(shù),數(shù)據(jù)經(jīng)過標準化處理后消除了量綱、數(shù)量級等差異的影響,使得不同變量之間具有可比性。
本案例多元線性回歸分析至此結(jié)束。

四、總結(jié)

總結(jié)一下多元線性回歸分析的過程:

1、確定研究目的;多元線性回歸分析用于研究哪些自變量會對因變量Y產(chǎn)生影響,得到回歸方程,還可以通過方程進行預測,確定方法選擇正確。

2、多元線性回歸分析共有6個前提條件,滿足后可進行分析,如果不滿足需要對數(shù)據(jù)進行一定的修正,或者改用其他方法進行分析。

3、F檢驗用于判斷模型總體顯著性,顯著說明模型有意義,可以繼續(xù)進行后續(xù)分析。

4、t檢驗用于判斷各個回歸系數(shù)顯著性,檢驗各自變量對因變量影響是否顯著。

5、R用于判斷模型的擬合優(yōu)度,通常越大越好。

6、構(gòu)造多元線性回歸模型使用非標準化回歸系數(shù),由此得到的回歸模型才能用來預測。

7、比較自變量對因變量影響大小使用標準化回歸系數(shù),絕對值越大,影響越大。

一文教會你多元線性回歸分析的評論 (共 條)

分享到微博請遵守國家法律
平原县| 镇坪县| 益阳市| 隆林| 双城市| 灌南县| 华亭县| 天长市| 九龙县| 西丰县| 留坝县| 清水县| 陵水| 天峨县| 鹤峰县| 姚安县| 通渭县| 邹城市| 万州区| 子长县| 三穗县| 长阳| 洪江市| 广平县| 眉山市| 玉田县| 天峻县| 永寿县| 富川| 中江县| 怀远县| 凤冈县| 刚察县| 顺平县| 通江县| 湟中县| 青浦区| 离岛区| 堆龙德庆县| 林周县| 湖口县|