回歸分析有多少種?畢業(yè)論文回歸模型該怎么選?如何操作和分析?
在進行自變量X與因變量Y的影響關(guān)系研究時,大家第一反應(yīng)都大概知道需要進行回歸分析,但是回歸分析的方法有很多種,常用的回歸分析方法有哪些?各種回歸分析方法之間的區(qū)別是什么?應(yīng)該怎樣選擇最合適的回歸分析方法呢?
今天一文將回歸分析方法相關(guān)知識進行說明。
1、回歸分析方法
回歸分析簡單來講就是用于分析自變量X與因變量Y之間的影響關(guān)系的方法。回歸分析主要基于自變量X的值預(yù)測因變量Y的值,通過構(gòu)造回歸模型,幫助理解自變量如何影響因變量,以及各個自變量對因變量的影響程度。
SPSSAU中回歸分析方法可分為以下二十種:
為什么會有如此多的回歸分析方法?
在研究X對于Y的影響時,會區(qū)分出很多種情況,比如因變量Y的數(shù)據(jù)類型,可能是定類數(shù)據(jù)也可能是定量數(shù)據(jù);Y的個數(shù)有多個或者1個。同時每種回歸分析還有很多前提條件,如果不滿足則有對應(yīng)的其它回歸方法進行解決。這也就解釋了為什么會有如此多的回歸分析方法。
那么面對如此多種類回歸分析方法,該如何快速選擇最合適的方法進行回歸分析呢?
2、回歸模型選擇
論文寫作用中回歸模型的選擇,一般需要結(jié)合自變量和因變量的個數(shù)以及數(shù)據(jù)類型進行判斷。
(1)?數(shù)據(jù)類型
數(shù)據(jù)分為兩類:定類數(shù)據(jù)和定量數(shù)據(jù)
簡單進行區(qū)分:看數(shù)字大小是否具有比較意義
定量數(shù)據(jù):數(shù)字大小具有比較意義
例如:GDP、身高、體重、工資、量表題選項(1,2,3,4,5)等等
定類數(shù)據(jù):數(shù)字大小僅代表分類,不具有比較意義
例如:性別(1和0分別代表男和女,不具有比較意義)、學(xué)歷、職位等
(2)回歸分析方法初步判斷
回歸分析方法初步判斷方法如下:
第一步:首先判斷因變量類型
當(dāng)因變量為定量數(shù)據(jù)且只有1個時,一般使用線性回歸進行分析;
當(dāng)因變量為定量數(shù)據(jù)且有多個時,可以使用PLS回歸進行分析;
當(dāng)因變量為定類數(shù)據(jù)時,一般常用logistic回歸進行分析。
第二步:若判定為線性回歸,看自變量個數(shù)
自變量為1個時,選擇一元線性回歸分析;
自變量為多個時,選擇多元線性回歸分析。
第三步:若判定為logistic回歸,看因變量
因變量為2類,比如男&女、蘋果&安卓、陽性&陰性,選擇二元logistic回歸分析;
因變量為多類,比如學(xué)科數(shù)學(xué)、語文、英語、物理,選擇多分類logistic回歸分析;
因變量為多類且有序,比如不滿意、一般、滿意,選擇有序logistic回歸分析。
以上為比較常見的回歸分析方法選擇的一般步驟,其中提到的回歸方法都是在實際研究中使用頻率較高的。
(3)深入分析線性回歸模型
線性回歸模型是當(dāng)前使用最為成熟,研究最多的回歸分析方法之一。線性回歸模型會有很多假定,或者需要滿足的條件,如果不滿足這些假定或者條件可能會導(dǎo)致模型使用出錯,分析結(jié)果存在偏差等問題出現(xiàn),那么此時就有對應(yīng)的其它回歸模型出來解決這些問題,因而跟著線性回歸后面又出來很多其他回歸分析方法,如下圖:
1、自動找出影響關(guān)系
多元線性回歸研究多個自變量X對因變量Y的影響,當(dāng)希望讓模型自動找出對Y有意義的X時,此時可以使用逐步回歸進行分析。逐步回歸分析可以查看下方幫助手冊說明:
逐步回歸幫助手冊
2、線性回歸分組/分層
在進行中介作用或者調(diào)節(jié)作用分析時,可能會用到分層回歸或者分組回歸。分層回歸可以得出:分層a到分層b(b=a+1)時R方變化和F值變化,便于觀察加入新的X時回歸模型的變化信息等。分組回歸的實質(zhì)目的在于查看不同組別時,X對于Y的影響差異。
分層回歸幫助手冊
分組回歸幫助手冊
3、共線性問題時
在進行線性回歸時,如果出現(xiàn)共線性問題時,可以使用嶺回歸、逐步回歸進行分析。lasso回歸和PLS回歸也可以在一定程度上解決共線性問題,但是用較少,通常嶺回歸使用比較廣泛。
嶺回歸幫助手冊
逐步回歸幫助手冊
laasso回歸幫助手冊
? PLS回歸幫助手冊
4、異常值問題時
當(dāng)數(shù)據(jù)中存在異常值時,通常需要將異常值剔除后再進行回歸分析,但是當(dāng)不能將異常值剔除,需要將異常值考慮在模型中時,此時可以使用穩(wěn)健回歸(Robust回歸)進行分析。穩(wěn)健回歸會對不同點的殘差給予不同權(quán)重,異常點的殘差值會比較大,因為其對應(yīng)的權(quán)重會很小,最終擬合出的結(jié)果也更加穩(wěn)健可靠。
穩(wěn)健回歸幫助手冊
5、非線性關(guān)系時
線性回歸模型使用的前提條件是X與Y之間存在線性關(guān)系(可在分析前通過散點圖查看),但是有時二者并不是線性關(guān)系,此時可以選擇使用曲線回歸、非線性回歸、廣義線性回歸三類回歸分析進行研究。
曲線回歸:
曲線回歸在關(guān)系形式上是非線性關(guān)系,但可通過各類轉(zhuǎn)換變成線性關(guān)系,最終建立回歸模型。比如建立二次曲線擬合,最終模型表達式為:y = β0+β1*x+β2*x2??;SPSSAU當(dāng)前提供7類曲線擬合模型,詳情請查看下方幫助手冊說明。
曲線回歸幫助手冊
非線性回歸
如果數(shù)學(xué)模型為非線性模型,需要使用非線性回歸進行分析。比如人口學(xué)增長模型Logistic(S模型),其模式公式為:y = b1 / (1 + exp(b2 + b3 * x)),此數(shù)學(xué)表達式并非線性表達式,因此不能使用SPSSAU的線性回歸進行擬合。
SPSSAU當(dāng)前提供約50類非線性函數(shù)表達式,涵蓋絕大多數(shù)非線性函數(shù)表達式。
非線性回歸幫助手冊
廣義線性模型
廣義線性模型是對一般線性模型的擴展。將因變量分布由正態(tài)分布推廣到指數(shù)一族分布,應(yīng)用范圍更廣了。常見的廣義線性模型有Possion回歸、負(fù)二項回歸、logistic回歸、Probit回歸等。
Possion回歸幫助手冊
負(fù)二項回歸幫助手冊
二元logistic回歸
? 多分類logistic回歸
有序logistic回歸
? 二元Probit回歸
3、回歸分析操作和分析
以多元線性回歸分析為例,使用SPSSAU進行操作和分析演示。
(1)操作
選擇分析方法->拖拽數(shù)據(jù)至右側(cè)分析框->點擊開始分析
(2)分析
SPSSAU輸出結(jié)果線性回歸分析結(jié)果如下:
多元線性回歸模型分析一般可分為以下幾步:
① 對模型基本情況進行分析
模型總體顯著性—F檢驗:用于判定是否X中至少有一個對Y產(chǎn)生影響,如果呈現(xiàn)出顯著性,則說明所有X中至少一個會對Y產(chǎn)生影響關(guān)系。
從上表來看,F(xiàn)檢驗對應(yīng)p值=0.000<0.01,說明呈現(xiàn)出顯著性,即模型構(gòu)建是有意義的,至少有1個X會對Y產(chǎn)生影響關(guān)系。
模型擬合情況—R方:R方的值介于0~1之間,代表模型的擬合程度,一般認(rèn)為越大越好。R方為0.3,則說明所有X可以解釋Y30%的變化原因。
從上表來看,R方為0.973,說明所有X可以解釋Y97.3%的變換原因,模型擬合較好。
模型共線性問題—VIF值:共線性是指在線性回歸分析時,出現(xiàn)的自變量之間彼此相關(guān)的現(xiàn)象。一般VIF值大于10(嚴(yán)格大于5),則認(rèn)為存在嚴(yán)重的共線性。
從上表來看,VIF值均小于10,可以認(rèn)為不存在共線性問題。
②?分析自變量X的顯著性
自變量X的顯著性通過t檢驗進行判斷,如果X對應(yīng)t檢驗的p值小于0.05說明具有顯著性,即該自變量會對因變量產(chǎn)生顯著影響。
從上表來看,“初始工資”、“教育程度”、“工作經(jīng)驗”對應(yīng)t檢驗的p值均小于0.05,說明這3個自變量均會對因變量“工資”產(chǎn)生顯著影響。
③ 判斷自變量對因變量的影響大小和影響方向
自變量對因變量影響大小的比較是通過標(biāo)準(zhǔn)化回歸系數(shù)進行比較的。標(biāo)準(zhǔn)化回歸系數(shù)的絕對值越大,說明該自變量對因變量的影響越大;回歸系數(shù)的正負(fù)代表影響方向。
從上表來看,“初始工資”、“教育程度”、“工作經(jīng)驗”的標(biāo)準(zhǔn)化回歸系數(shù)分別是:0.168、-0.046、0.881;所以工作經(jīng)驗對工資的影響最大,其次是初始工資,影響最小的是教育程度,且初始工資與工作經(jīng)驗對工資的影響是顯著正向的,而教育程度對工資的影響是顯著負(fù)向的。
④ 回歸模型公式
構(gòu)建回歸模型使用非標(biāo)準(zhǔn)化回歸系數(shù),它是方程中不同自變量對應(yīng)的原始回歸系數(shù),反映了在其他自變量不變的情況下,該自變量每變化一個單位對因變量作用的大小。通過非標(biāo)準(zhǔn)化回歸系數(shù)構(gòu)建的回歸方程,才可以對因變量進行預(yù)測。
從上表來看,回歸模型公式為:工資=18326.101 + 0.353*初始工資-280.300*教育程度 + 144.955*工作經(jīng)驗。