第十一章 二值選擇模型
11.3 泰坦尼克號在施救時奉行的政策是“婦女兒童優(yōu)先”(women and children first)。此政策是否得到徹底執(zhí)行?具體來說,三等艙的婦女或兒童的存活概率是否高于一等艙的男子?
根據(jù)數(shù)據(jù)集中的定義,婦女(female)包括女童(female & child)和成年女性(female & !child),兒童(child)包括女童和男童(!female & child),男子(!female)包括男童和成年男子(!female & !child),所以要分別進行預測和比較。

三等艙中男童、女童和成年女性的生存概率的預測值分別如下。

一等艙中的男童和成年男性的生存概率的預測值分別如下。

因此生存概率:三等艙女童>一等艙男童>三等艙成年女性>一等艙成年男性>三等艙男童。如果要將“三等艙的婦女或兒童”和“一等艙的男子”分別作為整體看待,可以按人數(shù)對生存概率加權(quán)平均后再進行比較??傮w來說可以認為在援救中做到了“婦女兒童優(yōu)先”。
11.4??使用數(shù)據(jù)集 loanapp.dta 考察美國的按揭貸款(mortgage loan)是否存在種族歧視。如果申請人的按揭貸款獲批,則被解釋變量 approve 取值為 1;反之a(chǎn)pprove 取值為0。主要解釋變量為white(是否白人)。數(shù)據(jù)集中的其他種族為 black(是否黑人)與 hispan(是否拉丁裔)。本題統(tǒng)一使用穩(wěn)健標準誤。
(1)線性方程和變量均顯著,邊際效應即為white的回歸系數(shù)0.2。

(2)首先,最大的區(qū)別是Probit模型不是線性的,而LPM是線性的;
其次,Probit的回歸結(jié)果沒有具體的方程,而LPM可以給出具體方程;
最后,Probit的回歸系數(shù)沒有經(jīng)濟含義,而LPM的回歸系數(shù)有經(jīng)濟含義。

(3)通過LPM可以認為,在其他條件不變的情況下,白人獲得按揭貸款的概率顯著高于其他人種約20%;在非線性模型中,估計量βhat一般并非邊際效應,需要計算平均邊際效應。

在Probit模型中,解釋變量white同樣顯著,效應與LPM中國相差不大。綜上可以認為美國發(fā)放按揭貸款中存在種族歧視現(xiàn)象。
(4)加入控制變量后,可以發(fā)現(xiàn)解釋變量white依然非常顯著。

計算平均邊際效應后發(fā)現(xiàn)人種是否為白人對發(fā)放按揭貸款的效應有所下降,但白人與非白人取得按揭貸款的概率仍存在顯著的差異,因此可以認為存在種族歧視現(xiàn)象。

(5)先進行Logit回歸。

由于變量較多,這里使用上一章提到的esttab命令比較顯著性??梢园l(fā)現(xiàn),解釋變量white仍以1%的顯著性水平顯著,解釋變量unem的顯著性從5%提高到1%,其他變量的顯著性均沒有變化。

(6)通過觀察幾率比(Odds Ratio)可以發(fā)現(xiàn),在其他變量不變的情況下,白人申請貸款的幾率比是非白人的2.55倍。

11.5?Chen(2015)研究中原王朝被游牧民族征服的概率,以每十年為觀測單位建立公元前221年至1911年的時間序列。數(shù)據(jù)集nomadic_conquest.dta 的被解釋變量為conquered(中原朝是否被征服)。主要解釋變量包括:diff(中原王朝早于游牧政權(quán)建立的年數(shù)),age(中原王朝的絕對年齡),wall(中原是否在長城的有效保護之下),以及 drought1(中國北方在十年中發(fā)生旱災的年數(shù)比例的一階滯后)。另外,時間變量為 decade(十年)。
(1)使用OLS得到的LPM回歸模型如下。在10%的顯著性水平下,方程整體不顯著(p=10.28%,或者說勉強顯著)。

(2)方程整體非常顯著;解釋變量diff,age,drought1以1%的顯著性水平顯著,wall以10%的顯著性水平顯著;從經(jīng)濟意義上看,基本可以確定的是,干旱的年份越少,中原王朝被征服的概率就應該越低,同時具有長城保護會進一步降低被征服的可能,因此drought1和wall的符號都是合理的;但解釋變量diff和age的經(jīng)濟意義在缺乏具體理論的情況下難以判斷:以age為例,一方面,在一個朝代建立的前期和中期,其國家實力隨著時間不斷增強,因此其被征服的可能是與存在時間負相關(guān)的;另一方面,朝代進入晚期國家狀況不斷惡化,被征服的可能和存在時間轉(zhuǎn)為正相關(guān),故難以判斷其符號是否合理。

非線性回歸的回歸系數(shù)反映的不是邊際效應,其含義需要通過幾率比來解釋。離散變量和連續(xù)變量的odd ratios解釋略有不同。
連續(xù)變量diff:在其他條件不變的情況下,中原王朝每早比游牧王朝建立一年,其被征服的幾率比p/(1-p)就平均提高3.94%。
離散變量wall:在其他條件不變的情況下,有長城的中原王朝被征服的幾率比平均是沒長城的中原王朝的8.3%,或者說,有長城的中原王朝被征服的幾率比相較沒長城的中原王朝平均低91.7%

(3)平均邊際效應如下,除age外整體與LPM中的回歸系數(shù)差異不大。

(4)diff的效應在(2)中已經(jīng)進行了解釋,drought1同理。
(5)表中D表示“conquered!=0”,即被解釋變量真實值是“被征服”,~D表示“未被征服”;+表示某樣本的預測值是“被征服”,-表示“未被征服”,以概率值0.5劃分。因此Classified表中+D和-~D是代表預測正確,+~D和-D代表預測錯誤。
直觀上看,最下方預測正確的百分比為96.23%,非常準確。但這個212的樣本中只有7個是被征服的,才占樣本的3.3,剩下205個全是未被征服的,并且7個被征服的樣本全預測錯了,錯誤率100%,所以個人認為這個模型不太合理。

(6)使用如下命令觀察時間序列折線圖。xsize()和ysize()用于指定坐標軸寬度,避免圖形過于緊湊;yline(0.5)是繪制一條yhat=0.5的直線,用于區(qū)分預測值;xlabel()指定了坐標軸的最大最小值以及刻度間隔。通過該圖同樣可以發(fā)現(xiàn)(5)小問提到的問題,紅色曲線的高點代表D=1,即被征服,但所有對應預測值均小于0.5,預測為未被征服。


(6)Probit

下面的Note可以忽略,如果想研究可以參考:
Stata | FAQ: Explanation of completely determined message
https://www.stata.com/support/faqs/statistics/completely-determined-in-logistic-regression/
(8)數(shù)值和顯著性與Logit差別都不大。

(9)所有預測值都是conquered=0,沒有太多改進。

補充:標準正態(tài)分布、logit、t(3)的概率密度(PDF)和分布函數(shù)(CDF)形狀的比較



僅供參考,如有問題請在評論區(qū)反饋。