R語言關(guān)于回歸系數(shù)的解釋
原文鏈接:http://tecdat.cn/?p=10076
?
?
除非我們打算提出因果主張,否則我們應(yīng)該像描述虛擬變量那樣解釋連續(xù)變量的回歸系數(shù)。
一條有用建議是,以預(yù)測的方式解釋回歸系數(shù) 。要了解它們的含義,讓我們考慮一個示例。
預(yù)測學(xué)生表現(xiàn)
?
hsb <- read.csv("datasets/hsb_comb_full.csv")
names(hsb)
[1] "schoolid" "minority" "female" ? "ses" ? ? ?"mathach" ?"size" ? ? "sector"
[8] "pracad" ? "disclim" ?"himinty" ?"MEANSES" ?"N_BREAK" ?"sesdev" ? "myschool"
# Let's go with the first school, and the first 5 student-level variables
hsb <- hsb[hsb$schoolid == hsb$schoolid[1], 1:5]
summary(hsb)
schoolid ? ? ? minority ? ? ? ? ? female ? ? ? ? ? ?ses ? ? ? ? ? ? mathach
Min. ? :1224 ? Min. ? :0.00000 ? Min. ? :0.0000 ? Min. ? :-1.6580 ? Min. ? :-2.832
1st Qu.:1224 ? 1st Qu.:0.00000 ? 1st Qu.:0.0000 ? 1st Qu.:-0.8830 ? 1st Qu.: 3.450
Median :1224 ? Median :0.00000 ? Median :1.0000 ? Median :-0.4680 ? Median : 8.296
Mean ? :1224 ? Mean ? :0.08511 ? Mean ? :0.5957 ? Mean ? :-0.4344 ? Mean ? : 9.715
3rd Qu.:1224 ? 3rd Qu.:0.00000 ? 3rd Qu.:1.0000 ? 3rd Qu.:-0.0330 ? 3rd Qu.:16.370
Max. ? :1224 ? Max. ? :1.00000 ? Max. ? :1.0000 ? Max. ? : 0.9720 ? Max. ? :23.584
# Mathach, ses and female seem to have some variability
# Let's predict math achievement using female (dummy), ses (continuous)
lm(mathach ~ female + ses, hsb)
Call:
lm(formula = mathach ~ female + ses, data = hsb)
Coefficients:
(Intercept) ? ? ? female ? ? ? ? ?ses
12.092 ? ? ? -2.062 ? ? ? ?2.643
現(xiàn)在,解釋其系數(shù)的典型方法female
是:
在保持SES不變的情況下,男性和女性在數(shù)學(xué)成績上平均相差2.06點,其中男性表現(xiàn)更好。
?但是要澄清語言,我們可以說:
對于擁有相同SES的學(xué)生,我們期望男性和女性之間的數(shù)學(xué)成績相差2.06點,而男性的成績更好。
問題出現(xiàn)在對的解釋上ses
,通常是:
保持性別不變,SES的提高與數(shù)學(xué)成績提高2.64有關(guān)。
我們通常聲稱這是一個相關(guān)陳述,沒有因果關(guān)系。但是,它具有因果關(guān)系。這暗示著,在一個人中,如果我們可以將他們的SES提高1點,我們可以期望數(shù)學(xué)成績提高2.64點。
蓋爾曼和希爾的措辭解釋如下:
對于相同性別的學(xué)生,我們期望在SES中有分?jǐn)?shù)差異的學(xué)生之間的數(shù)學(xué)成績有2.64分的差異。
這就是所謂的回歸系數(shù)的預(yù)測解釋。它沒有因果關(guān)系,并傳達(dá)出我們正在對不同個體之間的差異進(jìn)行預(yù)測或描述。