Stata中的治療效果:RA:回歸調(diào)整、 IPW:逆概率加權(quán)、 IPWRA、 AIPW
原文鏈接:http://tecdat.cn/?p=10148
?
今天的主題是Stata中的治療效果。
治療效果估算器根據(jù)觀察數(shù)據(jù)估算治療對結(jié)果的因果關(guān)系。
?我們將討論四種治療效果估計量:
RA:回歸調(diào)整
IPW:逆概率加權(quán)
IPWRA:具有回歸調(diào)整的逆概率加權(quán)
AIPW:增強(qiáng)的逆概率加權(quán)
?與對觀測數(shù)據(jù)進(jìn)行的任何回歸分析一樣,因果關(guān)系的解釋必須基于合理的基礎(chǔ)科學(xué)原理。
介紹
我們將討論治療方法和結(jié)果。
一種治療可能是新藥,其結(jié)果是血壓或膽固醇水平升高。治療可以是外科手術(shù),也可以是患者活動的結(jié)局。治療可以是職業(yè)培訓(xùn)計劃以及結(jié)果就業(yè)或工資。治療甚至可以是旨在提高產(chǎn)品銷量的廣告。
考慮一下母親吸煙是否會影響嬰兒出生時的體重。只能使用觀測數(shù)據(jù)來回答這樣的問題。?
觀察數(shù)據(jù)的問題是受試者選擇是否接受治療。例如,母親決定吸煙還是不吸煙。據(jù)說這些受試者已自我選擇進(jìn)入治療組和未治療組。
在理想的世界中,我們將設(shè)計一個實(shí)驗(yàn)來測試因果關(guān)系和治療結(jié)局之間的關(guān)系。我們將受試者隨機(jī)分配到治療組或未治療組。隨機(jī)分配治療方法可確保治療方法與結(jié)果無關(guān),從而大大簡化了分析。
因果推論要求對每個治療水平的結(jié)果的無條件估計。無論數(shù)據(jù)是觀察性的還是實(shí)驗(yàn)性的,我們僅觀察以接受治療為條件的每個受試者的結(jié)局。對于實(shí)驗(yàn)數(shù)據(jù),治療的隨機(jī)分配保證了治療與結(jié)果無關(guān)。對于觀察數(shù)據(jù),我們對治療分配過程進(jìn)行建模。如果我們的模型是正確的,則根據(jù)我們模型中的協(xié)變量,治療分配過程被認(rèn)為與隨機(jī)條件一樣好。
讓我們考慮一個例子。圖1是類似于Cattaneo(2010)使用的觀測數(shù)據(jù)的散點(diǎn)圖。治療變量是母親在懷孕期間的吸煙狀況,結(jié)果是嬰兒的出生體重。

紅點(diǎn)表示懷孕期間吸煙的母親,而綠點(diǎn)表示未懷孕的母親。母親自己選擇是否吸煙,這使分析變得復(fù)雜。
我們不能通過比較吸煙和不吸煙的母親的平均出生體重來估計吸煙對出生體重的影響。為什么不?再看一下我們的圖表。年齡較大的母親往往體重較重,無論懷孕時是否吸煙。在這些數(shù)據(jù)中,年齡較大的母親也更有可能吸煙。因此,母親的年齡與治療狀況和結(jié)局有關(guān)。那么我們應(yīng)該如何進(jìn)行呢?
?
RA:回歸調(diào)整估計量
RA估計量對結(jié)果進(jìn)行建模,以說明非隨機(jī)治療分配。
我們可能會問:“如果吸煙的母親選擇不吸煙,結(jié)果將如何改變?”或“如果不吸煙的母親選擇吸煙,結(jié)果將會如何改變?”。如果我們知道這些反事實(shí)問題的答案,那么分析將很容易:我們只需從反事實(shí)結(jié)果中減去觀察到的結(jié)果即可。
?我們可以構(gòu)建對這些未觀察到的潛在結(jié)果的度量,我們的數(shù)據(jù)可能看起來像這樣:

?
在圖2中,使用實(shí)心點(diǎn)顯示觀察到的數(shù)據(jù),而使用空心點(diǎn)顯示未觀察到的潛在結(jié)果??招牡募t點(diǎn)代表吸煙者不吸煙的潛在后果??招牡木G色點(diǎn)代表不吸煙者吸煙的潛在后果。
我們可以通過將單獨(dú)的線性回歸模型與觀察到的數(shù)據(jù)(實(shí)點(diǎn))擬合到兩個治療組,從而估計未觀察到的潛在結(jié)果。

?
在圖3中,我們?yōu)椴晃鼰熣咛峁┝艘粭l回歸線(綠線),為吸煙者提供了一條單獨(dú)的回歸線(紅線)。
讓我們了解這兩行的含義:

?
圖4左側(cè)標(biāo)記為“已觀察?”的綠點(diǎn)是對不吸煙的母親的觀察。綠色回歸線上標(biāo)有E(y0)的點(diǎn)是考慮到母親的年齡并且不吸煙的嬰兒的預(yù)期出生體重。紅色回歸線上標(biāo)有E(y1)的點(diǎn)是同一名母親吸煙后嬰兒的預(yù)期出生體重。
這些期望之間的差異估計了未接受治療者的協(xié)變量特異性治療效果。
現(xiàn)在,讓我們看看另一個反事實(shí)問題。
圖4右側(cè)的紅色標(biāo)記為“?觀察到的紅色”是對懷孕期間吸煙的母親的觀察。綠色和紅色回歸線上的點(diǎn)再次表示在兩種治療條件下母親嬰兒的預(yù)期出生體重(潛在的結(jié)局)。
這些期望之間的差異估計了接受治療者的協(xié)變量特異性治療效果。
請注意,我們根據(jù)每個變量的協(xié)變量值來估計平均治療效果(ATE)。此外,無論實(shí)際接受哪種治療,我們都對每位受試者估計這種效果。數(shù)據(jù)中所有受試者的這些效應(yīng)的平均值估計了ATE。
我們還可以使用圖4來激發(fā)對每個受試者在每種治療水平下可獲得的結(jié)果的預(yù)測,而與所接受的治療無關(guān)。數(shù)據(jù)中所有受試者的這些預(yù)測值的平均值估計每個治療水平的潛在結(jié)果均值(POM)。
?估計的POM的差異與上述ATE的估計相同。
被治療者(ATET)上的ATE與ATE相似,但僅使用在治療組中觀察到的受試者。這種計算治療效果的方法稱為回歸調(diào)整(RA)。
. webuse cattaneo2.dta, clear
為了估算兩個治療組中的POM,我們輸入
. teffects ra (bweight mage) (mbsmoke), pomeans
我們在第一組括號中指定結(jié)果模型,并帶有結(jié)果變量及其后的協(xié)變量。在此示例中,結(jié)果變量為bweight,唯一的協(xié)變量為mage。
我們在第二組括號中指定處理模型(僅是處理變量)。在此示例中,我們僅指定處理變量mbsmoke。我們將在下一節(jié)中討論協(xié)變量。
鍵入命令的結(jié)果是
Iteration 0: ? EE criterion = ?7.878e-24
Iteration 1: ? EE criterion = ?8.468e-26
Treatment-effects estimation ? ? ? ? ? ? ? ? ? ?Number of obs ? ? ?= ? ? ?4642
Estimator ? ? ?: regression adjustment
Outcome model ?: linear
Treatment model: none
------------------------------------------------------------------------------
| ? ? ? ? ? ? ? Robust
bweight | ? ? ?Coef. ? Std. Err. ? ? ?z ? ?P>|z| ? ? [95% Conf. Interval]
-------------+----------------------------------------------------------------
POmeans ? ? ?|
mbsmoke |
nonsmoker ?| ? 3409.435 ? 9.294101 ? 366.84 ? 0.000 ? ? 3391.219 ? ?3427.651
smoker ?| ? 3132.374 ? 20.61936 ? 151.91 ? 0.000 ? ? 3091.961 ? ?3172.787
------------------------------------------------------------------------------
輸出報告說,如果所有母親吸煙,平均出生體重將為3132克,如果沒有母親吸煙,則平均出生體重將為3409克。
我們可以通過減去POM來估算出生體重時吸煙的ATE:3132.374 – 3409.435 = -277.061。獲取標(biāo)準(zhǔn)誤和置信區(qū)間:
Iteration 0: ? EE criterion = ?7.878e-24
Iteration 1: ? EE criterion = ?5.185e-26
Treatment-effects estimation ? ? ? ? ? ? ? ? ? ?Number of obs ? ? ?= ? ? ?4642
Estimator ? ? ?: regression adjustment
Outcome model ?: linear
Treatment model: none
-------------------------------------------------------------------------------
| ? ? ? ? ? ? ? Robust
bweight | ? ? ?Coef. ? Std. Err. ? ? ?z ? ?P>|z| ? ? [95% Conf. Interval]
--------------+----------------------------------------------------------------
ATE ? ? ? ? ? |
mbsmoke |
(smoker vs ? ?|
nonsmoker) ?| ?-277.0611 ? 22.62844 ? -12.24 ? 0.000 ? ?-321.4121 ? -232.7102
--------------+----------------------------------------------------------------
POmean ? ? ? ?|
mbsmoke |
nonsmoker ?| ? 3409.435 ? 9.294101 ? 366.84 ? 0.000 ? ? 3391.219 ? ?3427.651
-------------------------------------------------------------------------------
輸出報告的是我們手動計算的相同ATE:-277.061。ATE是每個母親吸煙時出生體重與沒有母親吸煙時出生體重之間差異的平均值。
?IPW:逆概率加權(quán)估計器
RA估計量對結(jié)果進(jìn)行建模,以說明非隨機(jī)治療分配。一些研究人員更喜歡為治療分配過程建模,而不為結(jié)果指定模型。
我們知道,在我們的數(shù)據(jù)中,吸煙者往往比不吸煙者年齡大。我們還假設(shè)母親的年齡直接影響出生體重。我們在圖1中觀察到了這一點(diǎn) 。

該圖顯示治療分配取決于母親的年齡。我們希望有一種調(diào)整這種依賴性的方法。特別是,我們希望我們有更多的較高年齡的綠色點(diǎn)和較低年齡的紅色點(diǎn)。如果這樣做的話,每組的平均出生體重將會改變。我們不知道這將如何影響均值差異,但是我們知道這將是對差異的更好估計。
為了獲得類似的結(jié)果,我們將對較低年齡段的吸煙者和較高年齡段的不吸煙者進(jìn)行加權(quán),而對較高年齡段的吸煙者和較低年齡段中的不吸煙者進(jìn)行加權(quán)。
我們將采用以下形式的概率模型或logit模型
Pr(女人抽煙)= F(a + b *年齡)
teffects默認(rèn)使用logit,但是我們將指定probit選項(xiàng)進(jìn)行說明。
一旦我們擬合了該模型,就可以為數(shù)據(jù)中的每個觀察獲得預(yù)測Pr(女人抽煙)。我們稱這個為p?i。然后,在進(jìn)行POM計算(這只是平均值計算)時,我們將使用這些概率對觀測值進(jìn)行加權(quán)。我們將對吸煙者的觀測值加權(quán)為1 /?p?i,以便當(dāng)成為吸煙者的可能性較小時,權(quán)重將較大。我們將對不吸煙者的觀察加權(quán)1 /(1-?p?i),以便當(dāng)不吸煙者的概率較小時,權(quán)重將較大。
結(jié)果是下圖替換了圖1:

?
在圖5中,較大的圓圈表示較大的權(quán)重。
使用此IPW估算器估算POM
結(jié)果是
Iteration 0: ? EE criterion = ?3.615e-15
Iteration 1: ? EE criterion = ?4.381e-25
Treatment-effects estimation ? ? ? ? ? ? ? ? ? ?Number of obs ? ? ?= ? ? ?4642
Estimator ? ? ?: inverse-probability weights
Outcome model ?: weighted mean
Treatment model: probit
------------------------------------------------------------------------------
| ? ? ? ? ? ? ? Robust
bweight | ? ? ?Coef. ? Std. Err. ? ? ?z ? ?P>|z| ? ? [95% Conf. Interval]
-------------+----------------------------------------------------------------
POmeans ? ? ?|
mbsmoke |
nonsmoker ?| ? 3408.979 ? 9.307838 ? 366.25 ? 0.000 ? ? 3390.736 ? ?3427.222
smoker ?| ? 3133.479 ? 20.66762 ? 151.61 ? 0.000 ? ? 3092.971 ? ?3173.986
------------------------------------------------------------------------------
我們的輸出報告說,如果所有母親吸煙,平均出生體重將為3133克,如果沒有母親吸煙,則平均出生體重將為3409克。
這次,ATE是-275.5,如果我們鍵入
(Output omitted)
我們將了解到標(biāo)準(zhǔn)誤為22.68,95%置信區(qū)間為[-319.9,231.0]。
?
IPWRA:具有回歸調(diào)整估計量的IPW
RA估計量對結(jié)果進(jìn)行建模,以說明非隨機(jī)治療分配。IPW估算器對處理進(jìn)行建模以說明非隨機(jī)處理分配。IPWRA估算器對結(jié)果和治療方法進(jìn)行建模,以說明非隨機(jī)治療方案。
IPWRA使用IPW權(quán)重來估計校正后的回歸系數(shù),隨后將其用于執(zhí)行回歸調(diào)整。
結(jié)局模型和治療模型中的協(xié)變量不必相同,它們常常不是因?yàn)橛绊懯茉囌哌x擇治療組的變量通常不同于與結(jié)果相關(guān)的變量。IPWRA估算器具有雙重魯棒性,這意味著如果錯誤指定了治療模型或結(jié)果模型(而不是兩者),則效果的估算將保持一致。
讓我們考慮具有更復(fù)雜的結(jié)果和治療模型,但仍使用我們的低體重數(shù)據(jù)的情況。
結(jié)果模型將包括
??母親的年齡
?孕早期產(chǎn)前檢查的指標(biāo)
?母親婚姻狀況的指標(biāo)
?第一胎的指標(biāo)
治療模型將包括
結(jié)果模型的所有協(xié)變量
母親的年齡?^ 2
孕產(chǎn)婦教育年限
我們還將指定aequations選項(xiàng),報告結(jié)果和治療模型的系數(shù)。
Iteration 0: ? EE criterion = ?1.001e-20
Iteration 1: ? EE criterion = ?1.134e-25
Treatment-effects estimation ? ? ? ? ? ? ? ? ? ?Number of obs ? ? ?= ? ? ?4642
Estimator ? ? ?: IPW regression adjustment
Outcome model ?: linear
Treatment model: probit
-------------------------------------------------------------------------------
| ? ? ? ? ? ? ? Robust
bweight | ? ? ?Coef. ? Std. Err. ? ? ?z ? ?P>|z| ? ? [95% Conf. Interval]
--------------+----------------------------------------------------------------
POmeans ? ? ? |
mbsmoke |
nonsmoker ?| ? 3403.336 ? ?9.57126 ? 355.58 ? 0.000 ? ? 3384.576 ? ?3422.095
smoker ?| ? 3173.369 ? 24.86997 ? 127.60 ? 0.000 ? ? 3124.624 ? ?3222.113
--------------+----------------------------------------------------------------
OME0 ? ? ? ? ?|
mage | ? 2.893051 ? 2.134788 ? ? 1.36 ? 0.175 ? ?-1.291056 ? ?7.077158
prenatal1 | ? 67.98549 ? 28.78428 ? ? 2.36 ? 0.018 ? ? 11.56933 ? ?124.4017
mmarried | ? 155.5893 ? 26.46903 ? ? 5.88 ? 0.000 ? ? ?103.711 ? ?207.4677
fbaby | ? -71.9215 ? 20.39317 ? ?-3.53 ? 0.000 ? ?-111.8914 ? -31.95162
_cons | ? 3194.808 ? 55.04911 ? ?58.04 ? 0.000 ? ? 3086.913 ? ?3302.702
--------------+----------------------------------------------------------------
OME1 ? ? ? ? ?|
mage | ?-5.068833 ? 5.954425 ? ?-0.85 ? 0.395 ? ?-16.73929 ? ?6.601626
prenatal1 | ? 34.76923 ? 43.18534 ? ? 0.81 ? 0.421 ? ?-49.87248 ? ?119.4109
mmarried | ? 124.0941 ? 40.29775 ? ? 3.08 ? 0.002 ? ? 45.11193 ? ?203.0762
fbaby | ? 39.89692 ? 56.82072 ? ? 0.70 ? 0.483 ? ?-71.46966 ? ?151.2635
_cons | ? 3175.551 ? 153.8312 ? ?20.64 ? 0.000 ? ? 2874.047 ? ?3477.054
--------------+----------------------------------------------------------------
TME1 ? ? ? ? ?|
mmarried | ?-.6484821 ? .0554173 ? -11.70 ? 0.000 ? ? -.757098 ? -.5398663
mage | ? .1744327 ? .0363718 ? ? 4.80 ? 0.000 ? ? .1031452 ? ?.2457202
|
c.mage#c.mage | ?-.0032559 ? .0006678 ? ?-4.88 ? 0.000 ? ?-.0045647 ? -.0019471
|
fbaby | ?-.2175962 ? .0495604 ? ?-4.39 ? 0.000 ? ?-.3147328 ? -.1204595
medu | ?-.0863631 ? .0100148 ? ?-8.62 ? 0.000 ? ?-.1059917 ? -.0667345
_cons | ?-1.558255 ? .4639691 ? ?-3.36 ? 0.001 ? ?-2.467618 ? -.6488926
-------------------------------------------------------------------------------
輸出的POmeans部分顯示兩個治療組的POM。ATE現(xiàn)在計算為3173.369 – 3403.336 = -229.967。
OME0和OME1部分分別顯示未處理組和已處理組的RA系數(shù)。
輸出的TME1部分顯示概率處理模型的系數(shù)。
與前兩種情況一樣,如果我們希望ATE出現(xiàn)標(biāo)準(zhǔn)誤等,我們將指定ate選項(xiàng)。如果我們需要ATET,則可以指定atet選項(xiàng)。
AIPW:增強(qiáng)型IPW估算器
IPWRA估算器對結(jié)果和治療方法進(jìn)行建模,以說明非隨機(jī)治療方案。AIPW估算器也是如此。
AIPW估算器向IPW估算器添加偏差校正項(xiàng)。如果正確指定了處理模型,則偏差校正項(xiàng)為0,并且將模型簡化為IPW估計量。如果治療模型指定不正確,但結(jié)果模型指定正確,則偏差校正項(xiàng)會校正估計量。因此,偏差校正項(xiàng)使AIPW估計器具有與IPWRA估計器相同的雙重魯棒性。
AIPW估計器的語法和輸出與IPWRA估計器的語法和輸出幾乎相同。
Iteration 0: ? EE criterion = ?4.632e-21
Iteration 1: ? EE criterion = ?5.810e-26
Treatment-effects estimation ? ? ? ? ? ? ? ? ? ?Number of obs ? ? ?= ? ? ?4642
Estimator ? ? ?: augmented IPW
Outcome model ?: linear by ML
Treatment model: probit
-------------------------------------------------------------------------------
| ? ? ? ? ? ? ? Robust
bweight | ? ? ?Coef. ? Std. Err. ? ? ?z ? ?P>|z| ? ? [95% Conf. Interval]
--------------+----------------------------------------------------------------
POmeans ? ? ? |
mbsmoke |
nonsmoker ?| ? 3403.355 ? 9.568472 ? 355.68 ? 0.000 ? ? 3384.601 ? ?3422.109
smoker ?| ? 3172.366 ? 24.42456 ? 129.88 ? 0.000 ? ? 3124.495 ? ?3220.237
--------------+----------------------------------------------------------------
OME0 ? ? ? ? ?|
mage | ? 2.546828 ? 2.084324 ? ? 1.22 ? 0.222 ? ?-1.538373 ? ?6.632028
prenatal1 | ? 64.40859 ? 27.52699 ? ? 2.34 ? 0.019 ? ? 10.45669 ? ?118.3605
mmarried | ? 160.9513 ? ?26.6162 ? ? 6.05 ? 0.000 ? ? 108.7845 ? ?213.1181
fbaby | ? -71.3286 ? 19.64701 ? ?-3.63 ? 0.000 ? ? -109.836 ? -32.82117
_cons | ? 3202.746 ? 54.01082 ? ?59.30 ? 0.000 ? ? 3096.886 ? ?3308.605
--------------+----------------------------------------------------------------
OME1 ? ? ? ? ?|
mage | ?-7.370881 ? ?4.21817 ? ?-1.75 ? 0.081 ? ?-15.63834 ? ?.8965804
prenatal1 | ? 25.11133 ? 40.37541 ? ? 0.62 ? 0.534 ? ?-54.02302 ? ?104.2457
mmarried | ? 133.6617 ? 40.86443 ? ? 3.27 ? 0.001 ? ? ?53.5689 ? ?213.7545
fbaby | ? 41.43991 ? 39.70712 ? ? 1.04 ? 0.297 ? ?-36.38461 ? ?119.2644
_cons | ? 3227.169 ? 104.4059 ? ?30.91 ? 0.000 ? ? 3022.537 ? ?3431.801
--------------+----------------------------------------------------------------
TME1 ? ? ? ? ?|
mmarried | ?-.6484821 ? .0554173 ? -11.70 ? 0.000 ? ? -.757098 ? -.5398663
mage | ? .1744327 ? .0363718 ? ? 4.80 ? 0.000 ? ? .1031452 ? ?.2457202
|
c.mage#c.mage | ?-.0032559 ? .0006678 ? ?-4.88 ? 0.000 ? ?-.0045647 ? -.0019471
|
fbaby | ?-.2175962 ? .0495604 ? ?-4.39 ? 0.000 ? ?-.3147328 ? -.1204595
medu | ?-.0863631 ? .0100148 ? ?-8.62 ? 0.000 ? ?-.1059917 ? -.0667345
_cons | ?-1.558255 ? .4639691 ? ?-3.36 ? 0.001 ? ?-2.467618 ? -.6488926
-------------------------------------------------------------------------------
ATE為3172.366 – 3403.355 = -230.989。
最后
上面的示例使用了一個連續(xù)的結(jié)果:出生體重。?teffects也可以用于二進(jìn)制,計數(shù)和非負(fù)連續(xù)結(jié)果。
估計量還允許多個治療類別。
參考文獻(xiàn):
【1】 Cattaneo, M. D. 2010. Efficient semiparametric estimation of multi-valued treatment effects under ignorability.?Journal of Econometrics?155: 138–154.

最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.在R語言中實(shí)現(xiàn)Logistic邏輯回歸
8.python用線性回歸預(yù)測股票價格
9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標(biāo)