線(xiàn)性模型 - Linear Model

一、簡(jiǎn)單線(xiàn)性模型

根據(jù)intercept和income第一列的值寫(xiě)出公式
F檢測(cè)越大、P越小,模型越合適。
二、標(biāo)準(zhǔn)化系數(shù)和多重共線(xiàn)性
(一)為什么要標(biāo)準(zhǔn)化系數(shù)
消除量綱和數(shù)量級(jí)之間的差異以便于比較不同變量。
x標(biāo)準(zhǔn)化
(二)多重共線(xiàn)性與交互項(xiàng)
多重共線(xiàn)性:不同變量之間的相關(guān)性。
交互項(xiàng):x1對(duì)y的作用還受到x2對(duì)y的影響。
(三)多重共線(xiàn)性的診斷
1.方差擴(kuò)大因子VIF>10,存在多重共線(xiàn)性。
2.相關(guān)矩陣,相關(guān)系數(shù)越高,越可能存在。
(四)補(bǔ)救
1.刪除x2。
2.把x1和x2合并為一個(gè)變量。
3.PCA
4.LASSO Ridge regression
三、四個(gè)假設(shè)
1.Linearity
2.Homosexuality同方差性與異方差性
3.independence殘差之間獨(dú)立
4.normality
check
1.看圖
pattern(拋物線(xiàn))+funnel shape?
Q-Q point 45度線(xiàn)
2.formal tests?
異方差:Hartley test?BF test
independence:Durbin-Watson test?
outliers:Shapiro-Wilk test?
四、多項(xiàng)式回歸
x的變化(平方項(xiàng)、立方項(xiàng))
平方項(xiàng):拋物線(xiàn)、倒U
立方項(xiàng):兩個(gè)駝峰
交互項(xiàng):兩個(gè)x
五、數(shù)據(jù)變換

(一)為什么要轉(zhuǎn)換
Y:同方差+Y左偏或右偏
X:不是全部的x與y都有線(xiàn)性關(guān)系+處理leverage values or outliers
(二)如何轉(zhuǎn)換

- Box Cox transformation



六、加權(quán)最小二乘
(一)是什么

(二)為什么使用
異方差存在,方差大的項(xiàng)給小權(quán)重,方差小的給大權(quán)重破。
(三)BLUE
七、異常值和離群值
(一)是什么
異常值:殘差大
離群值:影響回歸

(二)影響
(三)診斷方法

標(biāo)準(zhǔn)化殘差:估計(jì)每個(gè)點(diǎn)的誤差。
學(xué)生化殘差:去掉異常值。
(四)The LTS estimator
(五)Outlier direction
- 用LTS畫(huà)圖
- 假設(shè)檢驗(yàn)
- Outlier map

注意:不要?jiǎng)h掉點(diǎn)