隨機擾動項和殘差區(qū)別?總體回歸函數(shù)和樣本回歸函數(shù)區(qū)別?以一元回歸為例。

一、問題開始前,我們首先要了解一下何為“回歸”。
? ? “回歸”一次最早由?F·高爾頓(Francis Galton)?提出,在一篇研究父母與子女身高關(guān)系的論文中,他發(fā)現(xiàn)雖然有這樣一個趨勢:個子高的父母子女也會高、個子矮的父母子女也會矮。但是從大數(shù)上來看,給定任一父母的身高,孩子真實身高卻不一定會滿足“父母高孩子高、父母矮孩子矮”的規(guī)律,而是趨向于人口總體的平均身高,這種現(xiàn)象叫做“高爾頓普遍回歸定律”,這也就是“回歸”一詞的原本含義。
? ? 現(xiàn)在“回歸”一詞已經(jīng)演變?yōu)橐环N新的概念,作為動詞表示“回歸分析”:研究被解釋變量對解釋變量的依賴關(guān)系,目的就是從已經(jīng)知道的解釋變量的值,去推斷被解釋變量的總體均值。所謂“推斷”也即“回歸”有很多種方法,常見的就是LS最小二乘法、MLE極大似然估計法等。

二、總體回歸函數(shù)PRF與隨機擾動項
? ? 從上面的概念我們已經(jīng)知道,“回歸”相當(dāng)于給你解釋變量(以下用代替),去預(yù)測被解釋變量(以
代替)的均值或者期望值。那么,我們可以這樣表示:
......①
? ? 這里的指的就是總體的均值或者期望值,如果
表示已知的總體的各個解釋變量,那么我們就稱式①為“總體回歸函數(shù)”(Population Regression Function)。注意,這里需要給大家解釋清楚:同一個
值,可能有很多個
體,比如身高為170cm的孩子有很多很多,身高為180cm的孩子也有很多很多,兩組不同的身高組,就會形成兩個組各自父母身高的均值。

? ? 在解釋變量給定值的情況下被解釋變量(條件)均值或期望值的軌跡,就叫做總體回歸線!知道了總體回歸函數(shù)和總體回歸線,那么接下來就可以引入“隨機擾動項”的概念了。隨機擾動項(以下用來表示)指的是“除了
以外影響
的不可觀測的可正可負(fù)的隨機變量”,又叫做“離差”。繼續(xù)以上面父母與子女身高關(guān)系的例子為例,既然我們預(yù)測到了不同身高孩子的父母身高各自均值,那么給定一個孩子,其父母真實身高與預(yù)測的、本組本應(yīng)該有的父母的身高均值之間的差距,就用“隨機擾動項”來描述。加上隨機擾動項后,就得到了總體回歸函數(shù)的隨機形式:
......②
? ? 這里的指的是實際的觀測值即真實值,等于回歸后的均值或者期望值加上隨機擾動項
?,F(xiàn)實中有很多原因?qū)е聜€體的真實值和均值不一樣,比如數(shù)據(jù)問題、模型設(shè)置問題、個體隨機特點等等,并且從節(jié)省原則來思考,我們也希望變量越少越好。所以“隨機擾動項”是計量經(jīng)濟(jì)學(xué)中最重要、也是最有特色的一點,是和數(shù)理經(jīng)濟(jì)學(xué)等學(xué)科最本質(zhì)的區(qū)別。所謂“驚喜和惡魔都在隨機擾動項里”,處理隨機擾動項,是計量經(jīng)濟(jì)學(xué)最頭疼、也最讓人樂此不疲的事情。

三、樣本回歸函數(shù)SRF與殘差
? ? 我們都知道,獲得總體所有的觀測值困難重重,所以現(xiàn)實中就寄希望于抽取樣本,通過樣本做回歸,用來估計總體的回歸函數(shù)。和總體回歸函數(shù)一樣,通過抽取的樣本觀測值來預(yù)測所抽取的該組樣本內(nèi)每一個
對應(yīng)的
的期望值和均值,就得到了樣本回歸函數(shù)(Sample Regression Function),表示為:
......③
? ? 這里的指的是抽取的這一個樣本中每一組不同數(shù)值的
對應(yīng)的
的均值,一定要注意,我們可能會抽取很多個樣本,每一個樣本都能得到一個不一樣的樣本回歸函數(shù)!這是理解的關(guān)鍵所在。

? ? 然后定義樣本回歸函數(shù)的隨機形式:
......④
? ? 這里的指的是抽取的這一個樣本中每一組不同數(shù)值的
對應(yīng)的
的觀測值(真實值),也是等于回歸后的均值加上一個樣本中的類似總體的“隨機擾動項”“
”,只不過這里的"
"寫作“
”,我們叫做“殘差”。對于不同的樣本,會有不同的“殘差”!

四、區(qū)分和總結(jié)
? ? 前面說到,我們希望用樣本回歸函數(shù)來代替總體回歸函數(shù),但是可能會有很多次抽樣,從而得到不同的樣本,每一次抽樣都得到一個新的樣本回歸函數(shù),那么一哪一次為準(zhǔn)呢?能不能完全替代總體回歸函數(shù)(樣本回歸線和總體回歸線完全一致)呢?答案是“只有上帝才知道”,我們幾乎不可能完全替代總體回歸函數(shù),因為誰也不知道總體回歸線的具體真實樣子,所以每一次回歸都認(rèn)為是一次正確的替代。樣本容量越大,即抽樣數(shù)量和總體數(shù)量之間差距越小,我們的替代就越可能接近真實總體回歸函數(shù)的樣子。
? ? 參照式子②和式子④,如果進(jìn)行“替代”(即認(rèn)為④中的已經(jīng)包括了所有總體值,總體和樣本沒有容量差距),我們就會發(fā)現(xiàn):此時
實際就是【樣本回歸函數(shù)的“隨機擾動項”+樣本和總體之間容量不一致導(dǎo)致的抽樣誤差】。

隨機擾動項和殘差區(qū)別?總體回歸函數(shù)和樣本回歸函數(shù)區(qū)別?以一元回歸為例。的評論 (共 條)
