最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

線性回歸的Robustness

2019-12-26 17:36 作者:露保協(xié)  | 我要投稿

ANOVA和線性回歸的簡要總結(jié):

本文主要想考慮一下線性回歸的robustness,即outlier和high leverage point對回歸結(jié)果的影響。

考慮以下問題:x_i都固定,改變某一個y_j,對于預(yù)測值\hat{y_j}有何影響?(self-sensitivity or self-influence

從training的y_i到預(yù)測的y_i的關(guān)系,根據(jù)projection matrix給出:

所以

可見這個影響是線性的,并且強(qiáng)度取決于i th leverage h_{ii}。

  • 如果leverage比較小,即時y_i的偏差很大(outlier),對于回歸的直線影響不大。

  • 如果leverage很大,就要小心y_i的偏差了。如果偏差不大,無所謂。如果偏差很大,也就是說:既是outlier,也是high leverage point,則影響很大,非常危險。

下面仔細(xì)研究一下leverage h_{ii}有什么性質(zhì)。

性質(zhì)1: leverage的average。根據(jù)(小心Tr中三個矩陣的交換)

所以平均leverage是p/n。

  1. 數(shù)據(jù)點(diǎn)n越多,越不敏感,因?yàn)閱蝹€偏差可以由別的正常數(shù)據(jù)點(diǎn)制約著。

  2. 如果超過2p/n,可以認(rèn)為是一個high-leverage point,要小心。

性質(zhì)2:leverage的bound。對于冪等矩陣必然有0\leqslant leverage\leqslant 1。

  1. self-influence一定是正向的。y_i變大,\hat{y}_i不會變小。

  2. self-influence一定是削弱的。y_i變大1,\hat{y}_i頂多變大1,因?yàn)橛衅渌粍拥臄?shù)據(jù)點(diǎn)制約著。

性質(zhì)3:leverage的直觀含義是距離x_i集中位置的偏差。對于一維回歸,可以計(jì)算出

幾何含義顯著。這個結(jié)果可以推廣到高維,結(jié)果中包含了Mahalanobis距離:(要注意這里面的x向量是不包含1的)

當(dāng)\Sigma矩陣是單位矩陣時,它就是一般的歐式距離(數(shù)據(jù)點(diǎn)到重心的距離)?,F(xiàn)在\Sigma代表estimated covariance matrix,這相當(dāng)于在PCA的坐標(biāo)軸下測量的距離:

把它變換到新的坐標(biāo)就變成

在一維情況下,主軸就是坐標(biāo)軸,所以形式很簡單。二維的時候,主軸和坐標(biāo)軸偏離了,所以表達(dá)形式就比較復(fù)雜了。不妨算一下,形式并沒有明顯的直觀含義。但是從PCA的直觀來看,我們還是很容易分析出哪些點(diǎn)的leverage比較大。比如下圖中紅點(diǎn)和綠點(diǎn),雖然離重心的歐式距離差不多,但從PCA的坐標(biāo)來看,顯然紅點(diǎn)的leverage更大。

這個公式很好記。(n-1)來自于estimated covariance[的逆]中的Bessel修正,1/n和一維一樣。

下面是數(shù)值模擬。生成的數(shù)據(jù)是:

x=1:10;

x=[x,20];

y=x+randn(1,11);

plot(x,y)

plot(x,y,'o')

這11個點(diǎn)的leverage分別為:0.214617940199336 0.175747508305648 0.144186046511628 0.119933554817276 0.102990033222591 0.0933554817275748 0.0910299003322259 0.0960132890365449 0.108305647840532 0.127906976744186 0.725913621262459,其平均值為0.1818,前10個點(diǎn)都接近于這個平均值,而最后一個點(diǎn)超過0.3636(已經(jīng)是四倍均值了),歸于顯著的high leverage point。

黃色線為原數(shù)據(jù)的回歸結(jié)果,綠色線為把x=20的y上移5之后回歸得到的結(jié)果?;貧w的直線有了很大的偏差。一開始在20點(diǎn)處的預(yù)測值為20.1496,后來預(yù)測值為23.7792,上升值3.6296的確恰好等于leverage?0.7259*5。和理論相符。線性回歸的結(jié)果在20這個點(diǎn)上是不robust的。

線性回歸的Robustness的評論 (共 條)

分享到微博請遵守國家法律
东乡族自治县| 龙江县| 郧西县| 卫辉市| 牡丹江市| 临洮县| 安阳县| 滨海县| 偃师市| 万安县| 临高县| 秭归县| 腾冲县| 连山| 富源县| 宣汉县| 海淀区| 垣曲县| 黎平县| 教育| 永吉县| 金坛市| 探索| 连山| 普陀区| 清河县| 临海市| 台州市| 图们市| 南投市| 个旧市| 北碚区| 黄龙县| 安西县| 涪陵区| 丹棱县| 江津市| 抚顺市| 海城市| 峨眉山市| 璧山县|