醫(yī)學案例 | 多元線性回歸分析
一、案例介紹
某醫(yī)師預研究糖尿病患者的總膽固醇和甘油三酯對空腹血糖的影響,某研究者調查40名糖尿病患者的總膽固醇、甘油三酯和空腹血糖的測量值如下,試根據上述研究問題作統(tǒng)計分析。
二、問題分析
本案例想要研究一些變量(總膽固醇和甘油三酯)對另一變量(空腹血糖)的影響,可以使用多元線性回歸分析進行研究。多元線性回歸分析比較重要的假設有以下5個:
假設1:線性——因變量與自變量之間存在線性關系
假設2:獨立性——各觀測值之間相互獨立,即殘差之間不存在自相關。
假設3:正態(tài)性——殘差接近正態(tài)分布。
假設4:方差齊——殘差的方差齊。
假設5:多重共線性——自變量間不存在多重共線性。
如果違反了這些假設中的一個或多個,那么可能導致線性回歸分析結果不可靠。因此我們需要對假設1-5使用軟件進行檢驗。
三、前提假設檢驗
(1)檢驗假設1:線性
多元線性回歸分析要求因變量Y與自變量X之間存在線性關系。針對連續(xù)型自變量,可以通過繪制自變量與因變量的散點圖,直觀判斷是否存在線性關系。而對于分類自變量(如學歷),可以忽略與因變量之間的線性關系。
使用SPSSAU分別繪制Y空腹血糖和X1總膽固醇、X2甘油三酯的散點圖,在【可視化】模塊選擇【散點圖】,將數據拖拽到右側相應分析框中,點擊開始分析,操作如下圖:
SPSSAU輸出散點圖如下:
①總膽固醇和空腹血糖散點圖
以“空腹血糖”作Y軸,“總膽固醇”作X軸繪制散點圖,可以看出,空腹血糖與總膽固醇之間存在線性關系。
②甘油三酯和空腹血糖散點圖
同理查看甘油三酯與空腹血糖繪制的散點圖,二者之間存在近似線性關系。
綜上,可以認為本案例數據滿足假設1:,即因變量與自變量之間存在線性關系。
(2)檢驗假設2:獨立性
線性回歸分析假設各個觀測值之間是相互獨立的,即殘差之間不存在自相關。可以使用Durbin-Watson檢驗殘差是否存在自相關。
SPSSAU線性回歸分析結果會輸出D-W檢驗結果,如下圖:
一般來說,D-W檢驗其值在0到4之間。如果D-W檢驗值接近0,說明存在正自相關,如果接近4,說明存在負自相關。一般認為,如果D-W檢驗值在1.5到2.5之間,就說明不存在自相關問題。從上表可知,本案例D-W值為2.0437,因此認為不存在自相關,所以數據滿足假設2,即各觀測值之間相關獨立。
(3)檢驗假設3:正態(tài)性
線性回歸假設中的正態(tài)性是指殘差(即隨機擾動項)近似服從正態(tài)分布。首先得到殘差值,在使用SPSSAU進行線性回歸時,勾選“保存殘差和預測值”,操作如下圖:
正態(tài)分布檢驗的方法有很多種,例如直方圖、P-P圖/Q-Q圖、統(tǒng)計檢驗等。本案例使用P-P圖進行正態(tài)性檢驗,得到殘差P-P圖如下:
P-P圖近似呈現(xiàn)為一條對角直線,說明數據接近正態(tài)分布。從上圖可以看到,殘差的P-P圖近似為一條對角直線,故認為殘差基本滿足正態(tài)分布,滿足假設3。
(4)檢驗假設4:方差齊
多元線性回歸方差齊指的是殘差項在不同自變量取值下具有相同的方差,即各組殘差具有相同的離散程度。可以通過繪制標準化預測值與標準化殘差的散點圖來檢驗多元線性回歸的方差齊性。以標準化預測值為橫坐標,以標準化殘差為縱坐標,繪制散點圖。
①數據標準化處理
首先將保存的殘差值和預測值進行標準化處理,在SPSSAU【數據處理】模塊,選擇【生成變量】,選中殘差值和預測值,在“量綱處理”選擇標準化處理,點擊“確認處理”,操作如下圖:
②散點圖繪制
以標準化預測值為X軸,以標準化殘差為Y軸,繪制散點圖,得到散點圖如下:
如果方差齊性假設成立,則散點圖中的點應該大致均勻分布在坐標系中,散點的分布情況不會因為標準化預測值的變化而改變。從上圖可以看出,散點基本均勻分布在坐標系中,無明顯趨勢,所以可以認為滿足假設4,即殘差近似滿足方差齊性。
(5)檢驗假設5:多重共線性
自變量之間不存在多重共線性,如果存在多重共線性,那么自變量之間的線性關系會導致回歸系數的估計變得不穩(wěn)定,增加標準誤差,從而影響預測的準確性。同時,多重共線性還會導致t檢驗和P值失去意義,無法準確判斷自變量對因變量的影響。在多元線性回歸分析中,我們通常使用方差膨脹因子(VIF值)來檢測多重共線性。
SPSSAU線性回歸分析結果輸出共線性診斷結果如下:
SPSSAU同時輸出VIF值和容忍度值(容忍度=1/VIF,二者選其一即可,通常描述VIF值)。一般認為,當VIF值大于5時(或容忍度小于0.2),存在嚴重的多重共線性問題。分析上表知,VIF值均小于5,所以認為本案例自變量之間不存在多重共線性問題,滿足假設5。
如果存在共線性問題,可以通過移除共線性變量、使用逐步回歸、嶺回歸或者增加樣本量等方式進行處理。
綜上所述,本案例數據滿足使用多元線性回歸分析的假設,可以進行分析。
四、線性回歸分析
本案例線性回歸分析結果如下:
對于多元線性回歸模型的檢驗可以分為兩部分:①多個自變量與因變量這個整體的顯著性檢驗(F檢驗);②每個自變量對因變量影響的顯著性檢驗(t檢驗),二者檢驗目的不同。
(1)模型檢驗
檢驗統(tǒng)計量
當H0為真時,統(tǒng)計量F服從自由度為m和n-m-1的F分布,其中,n為樣本量,m為回歸模型中的自變量個數,加入自變量回歸系數全為0,則Y與各個自變量沒有任何關系,這就失去了建立回歸方程的意義,故當檢驗結果為拒絕H0時,稱該回歸模型是有統(tǒng)計學意義的。
SPSSAU多元線性回歸分析F檢驗輸出結果如下:
從上表回歸模型方程分析結果可知,F(xiàn)=9.2572,p=0.0005<0.05,所以拒絕原假設H0,即回歸模型有統(tǒng)計學意義。
(2)單個回歸系數檢驗
回歸系數顯著性檢驗是指每個自變量對因變量影響的顯著性檢驗,使用t檢驗進行。SPSSAU輸出每個自變量對因變量影響的t檢驗結果如下:
分析上表可知,總膽固醇與甘油三酯對應t檢驗的p值均小于0.05,說明兩變量均對空腹血糖具有顯著影響。
(3)影響大小比較
自變量對因變量影響大小的比較是通過標準化回歸系數進行比較的。標準化回歸系數的絕對值越大,說明該自變量對因變量的影響越大。
標準化回歸系數,是對自變量和因變量同時進行標準化處理后所得到的回歸系數,數據經過標準化處理后消除了量綱、數量級等差異的影響,是的不同變量之間具有可比性,因此使用標準化回歸系數比較不同自變量對因變量的影響大小。
分析結果可知,總膽固醇和甘油三酯的標準化回歸系數分別為0.4788和0.2944,說明二者均對空腹血糖有顯著正態(tài)性影響,且相對來講總膽固醇的影響更大一些。
(4)模型公式
從分析結果可以看出,模型公式為:空腹血糖=4.985 + 0.212*總膽固醇 + 0.351*甘油三酯,模型R方值為0.334,意味著總膽固醇、甘油三酯可以解釋空腹血糖的33.4%變化原因。
特別提示:構建回歸模型使用非標準化回歸系數,它是方程中不同自變量對應的原始回歸系數,反映了在其他自變量不變的情況下,該自變量每變化一個單位對因變量作用的大小。通過非標準化回歸系數構建的回歸方程,才可以對因變量進行預測。
更多分析結果可登錄SPSSAU查看,在此不再進行贅述。
五、結論
本案例使用多元線性回歸分析研究總膽固醇和甘油三酯對空腹血糖的影響,研究發(fā)現(xiàn),總膽固醇和甘油三酯均會對空腹血糖產生顯著正向影響,其中總膽固醇的影響更大一點。
六、知識小貼士
(1)R方值多少合適?
R平方值表示模型擬合能力的大小,比如0.3表示自變量X對于因變量Y有30%的解釋能力。這個值介于0~1之間,越大越好。但實際研究中并沒有固定的標準,有的專業(yè)0.1甚至0.05這樣都可以,但有的專業(yè)卻常常出現(xiàn)0.8以上。一般情況下只需要報告此值即可,不用過多關注其大小,原因在于多數時候我們更在乎X對于Y是否有影響關系即可。
(2)回歸系數非常非常小或者非常非常大?
如果說數據的單位很大,不論是自變量X還是因變量Y;此種數據會導致結果里面的回歸系數出現(xiàn)非常非常小,也或者非常非常大。此種情況是正?,F(xiàn)象,但一般需要對數據進行統(tǒng)一取對數處理,以減少單位問題帶來的‘特別大或特別小的回歸系數’問題。