線性回歸分析與SPSS實(shí)例分析其一:模型/估計(jì)/檢驗(yàn)
一元/多元回歸分析模型及其參數(shù)估計(jì)、假設(shè)檢驗(yàn):
? 一元回歸分析模型
即:??
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
? 回歸參數(shù)的估計(jì):?通常有兩種估計(jì)方法1.普通最小二乘估計(jì),2.極大似然估計(jì)(省略)
一.普通最小二乘估計(jì)(OLSE)
? 我們對(duì)每個(gè)樣本單位,都考慮觀測(cè)值與其平均值
的離差?;貧w模型越接近所得樣本數(shù)據(jù),意為該離差越小。所以我們使各個(gè)離差進(jìn)行平方處理。
??
根據(jù)微積分知識(shí)推導(dǎo)(過(guò)程省略):
? ? ?
由此得出的最小二乘估計(jì)代入回歸函數(shù),即得回歸方程?
而是在給定的
的條件下的估計(jì)值,稱為因變量擬合值。
所以定義因變量的觀察值與擬合值之間的離差為殘差。?
??在得到回歸方程后再對(duì)數(shù)據(jù)的殘差進(jìn)行分析,推斷回歸分析的基本假定是否成立。
經(jīng)典的回歸分析假定:
;
;
;
回歸分析的假設(shè)檢驗(yàn)與擬合優(yōu)度
在獲得回歸系數(shù)后,還要運(yùn)用統(tǒng)計(jì)方法對(duì)回歸系數(shù)進(jìn)行顯著性檢驗(yàn),對(duì)回歸方程的擬合效果進(jìn)行評(píng)估。
(補(bǔ)充)顯著性:是指零假設(shè)為真的情況下拒絕零假設(shè)所要承擔(dān)的風(fēng)險(xiǎn)水平,又叫概率水平,或者顯著水平
? t檢驗(yàn)
? 原假設(shè)成立則代表Y與X并無(wú)線性關(guān)系。即是X對(duì)Y的顯著不為0。
? ? ? t檢驗(yàn)中我們選擇統(tǒng)計(jì)量 t ,我們給定顯著性水平為,則雙側(cè)檢驗(yàn)的臨界值為
。
每當(dāng)時(shí),拒絕原假設(shè),認(rèn)為
顯著不為0,一元線性回歸成立。反之,不能拒絕原假設(shè),一元線性回歸不成立。
?F檢驗(yàn)
得到回歸方程后,我們使用得到的數(shù)據(jù)分別計(jì)算出SSR,SSE,SST
總平方和:?可以反映因變量y總體的波動(dòng)程度,類(lèi)似于方差。
回歸平方和:?由回歸方程確定的,自變量x波動(dòng)所引力的因變量波動(dòng)。
殘差平方和:?外部影響,與X無(wú)關(guān)且無(wú)法控制的因素。
對(duì)上述三個(gè)平方和整理可以發(fā)現(xiàn):
由此,在正態(tài)性假設(shè)下,原假設(shè)成立時(shí)
服從于分布
,我們給定顯著性水平
,F檢驗(yàn)臨界值則為
,當(dāng)
時(shí),拒絕原假設(shè),說(shuō)明回歸方程滿足線性關(guān)系,反之不滿足線性關(guān)系。
擬合優(yōu)度:
如何去確定回歸方程的效果好不好?有上述可以定義,在總平方和SST中,SSR的占比越大,而殘差平方和的占比越小,意為著不可控因素越小,所得數(shù)據(jù)的擬合度就越小,所以定義擬合優(yōu)度?由此式,我們可以看出,如果
越接近于1,說(shuō)明SSR的占比越大,意為著線性回歸的擬合優(yōu)度越大。
多元線性回歸分析(注:往后 '? 代表矩陣轉(zhuǎn)置)
上述同理,多元線性回歸分析模型設(shè)為
矩陣形式
在多元回歸模型中,作為隨機(jī)向量,在給定X的情況下,我們?nèi)ゼ俣?/p>
也就是隨機(jī)向量服從與多元正態(tài)分布
因?yàn)閅與有關(guān)
,我們可以推導(dǎo)出Y的均值以及協(xié)方差矩陣:
??
我們可以得出
,可以發(fā)現(xiàn)Y依然服從與一個(gè)多元正態(tài)分布
與一元回歸的操作類(lèi)似,我們依然使用最小二乘法來(lái)估計(jì),求解
達(dá)到最小值時(shí)的
由矩陣最小二乘法公式計(jì)算可得(過(guò)程省略)
的最小二乘估計(jì)b
記殘差? ,由此得殘差平方和
由此基礎(chǔ)之上就可以得到關(guān)于的估計(jì)
假設(shè)檢驗(yàn):
在我們?cè)O(shè)立了模型,并且對(duì)參數(shù)進(jìn)行估計(jì)之后,便要對(duì)所得回歸方程進(jìn)行顯著性檢驗(yàn)。
,
分別對(duì)回歸、殘差、總計(jì)平方和,即SSR、SSE、SST整理我們可以知道
??
??
我們給定顯著性水平
F = MSR/MSE? 若得則拒絕原假設(shè),證明方程回歸系數(shù)不全為0,方程整體具有顯著性。
多元線性回歸分析中對(duì)單個(gè)回歸系數(shù)的顯著性檢驗(yàn)
? ?
(i=0,1,2,...,k)。
對(duì)這一類(lèi)問(wèn)題的假設(shè)檢驗(yàn),若接受了原假設(shè),則表面該回歸系數(shù)可以看作0,我們可以考慮直接在回歸方程中將項(xiàng)
去掉,認(rèn)為該項(xiàng)對(duì)Y沒(méi)有影響。
作用:對(duì)單個(gè)回歸系數(shù)的顯著性檢驗(yàn)有注意簡(jiǎn)化我們的整個(gè)回歸模型。
對(duì)多元?dú)w回分析的擬合效果評(píng)估:調(diào)整后的樣本決定系數(shù)
在一元回歸分析中樣本決定系數(shù)在0到1之間,但是在多元回歸分析中由于自變量的增加,
也會(huì)不可避免的增加,所以自變量越多(即便引入的變量其實(shí)與Y無(wú)關(guān)),意味著
也越大。應(yīng)此,我們要對(duì)樣本決定系數(shù)進(jìn)行修正.
其計(jì)算公式:?
相關(guān)英語(yǔ)單詞:
最小二乘估計(jì): ordinary least square estimation, OLSE
因變量/響應(yīng)變量:dependent variable / response variable
自變量/解釋變量:independent variable / explanatory variable
變量/雙變量: variable / bivariable (n.變量 adj,多變的,可變的)
線性回歸模型: linear regression model
regression n.回歸,倒退,退化
analyze v.分析/研究 ,解析,分解
參數(shù)/回歸系數(shù): regression parameters / regression coeffi-cient
殘差:residual
其二:基于SPSS的應(yīng)用實(shí)例與分析