淺談因果框架
?1、因果推斷研究必要性
必要性:通過研究表明過于依賴統(tǒng)計相關的建模方式,存在著嚴重的理論缺陷:缺乏因果關系考慮,僅從數(shù)據(jù)中學習到的相關性可能是錯誤的。首先,利用相關性學習的模型,泛化能力和穩(wěn)定性差,極易受到場景變化或數(shù)據(jù)中異常值的影響;再者,過度依賴數(shù)據(jù)擬合的機器學習模型就像是一個黑盒子,缺乏可解釋性。
?2、因果關系的三個層級
第一層級(關聯(lián)):從數(shù)據(jù)中觀察到哪些相關規(guī)律?是對歷史數(shù)據(jù)的總結。
第二層級(干預):如果采取某個行動,會產(chǎn)生什么結果?是面向未來的推測。
第三層級(反事實):如果當時采取了另外一個行動,結果會是怎樣?是面向過去的反思。
目前階段:大部分機器學習模型主要在第一層級,僅僅實現(xiàn)了對歷史數(shù)據(jù)的“曲線擬合”,這就導致:一是解釋性差,擬合背后的作用機理處于黑盒狀態(tài);二是泛化性差,擬合得到規(guī)律只適用于訓練數(shù)據(jù)。而因果推斷方法能讓我們站上第二、三層級,從而實現(xiàn)更好的解釋性和泛化性,這也是因果推斷在機器學習領域逐步興起的一大原因。
?3、因果關系的兩大框架
3.1 Donald Rubin(美國哈佛大學的教授,目前在清華大學丘院任教。)
潛在結果模型:Rubin流派關注于如何用數(shù)學去詳細地計算某件“因”能帶來多少“果”。
我們把每個研究對象或者用戶用i來表示,他們可能會受到一定的策略干預:Ti=1代表受到了干預(實驗組),Ti=0代表沒有受到干預(基準組),對應的我們關心的結果分別是Yi0和Yi1,但是只有一種情況會真實發(fā)生,也就是說Yi0和Yi1只能觀察到其中一個,另一個未知。這里我們期望得到的因果推斷結果是平均處理效應ATE=E[Y1-Y0]。
舉例說明:例如我們發(fā)現(xiàn)Airbnb上的用戶每進行一次旅行,就會平均對平臺的信任度提高1%,95%置信區(qū)間[-1.3%, -0.4%],(Zhu et al. 2020)。
Rubin流派非常切合商業(yè)世界,因為我們根本不想浪費時間知道今天下雨會帶來多少營業(yè)收入增長這種無意義的因果關系。
使用Rubin流派的企業(yè),需要清晰知道企業(yè)對什么事情感興趣,只想對這一件事兒帶來的果做出因果關系估計。
3.1.1 技術思想與方法總結
A/B測試:潛在效果模型最常見的方法就是隨機實驗,或者說是我們在工業(yè)界中常用到的A/B測試。我們通過一定的隨機性抽樣構造實驗組和基準組,來觀察組間的差異。
工具變量法:工具變量是解決線性回歸問題內(nèi)生性的一種方法。接下來我們介紹一下內(nèi)生性問題和如何通過工具變量解決內(nèi)生性。內(nèi)生性的主要問題是如果我們關心X對Y的影響,但是存在無法測量到的變量U,且U會同時影響X和Y。那么X具有內(nèi)生性,U即上文提到的混淆變量。如果我們能找到一個跟X有關的變量Z,且Z與U不相關。那我們可以通過Z作為工具變量來估計X對Y的因果效應,具體計算方法一般是兩階段最小二乘法。工具變量法在實際使用的時候,要注意避免“弱工具變量”的問題,也就是工具變量Z和關心的變量X相關度很低,這樣會造成估計的因果效應有偏差,可以依賴統(tǒng)計檢驗方法來確認這樣的問題是否存在。
匹配法:匹配(Matching)是被業(yè)務廣泛使用的一種因果分析方法,主要是為了解決當實驗組和控制組由于某種原因(confounder)不可比的時候,通過給實驗組的每一個用戶匹配和他在某些特征上最相似(CEM粗粒度匹配)或者接受干預概率(propensity score)最相似(PSM傾向性得分匹配)的控制組用戶,重新制造可比的實驗組和控制組。
逆概率加權等等一些方法
3.1.2?應用
使用更少的樣本但更好地幫助我們理解新藥的價值和風險;
理解一/二級市場因子究竟會對價格或市場產(chǎn)生多大的因果影響。
3.2?結構因果模型
在前一個部分我們介紹了潛在結果模型的主要思想和方法發(fā)展。這一類流派方法統(tǒng)計理論比較完善,可以得到比較準確的估計結果。但是也存在一定的局限性,只能用于估計變量之間一度相關的影響(只允許有一個因變量和一些自變量,不能估計間接影響的鏈路),去如何學習眾多變量之間的鏈路和復雜關系,則需要用到另一個流派的結構因果模型方法。
結構因果模型用有向無環(huán)圖?(directed acyclic graph;DAG)?來描述變量之間的因果關系和條件分布。圖的每個節(jié)點是一個變量,因果關系由鏈接這些節(jié)點的邊來表示,例如X1<-X2代表了X2影響了X1,我們也稱X1為子節(jié)點,X2為父節(jié)點。對于一組隨機變量X=(X1,X2,...,XP)形成的DAG。
3.2.1?技術思想與方法總結
基于條件獨立檢驗的因果發(fā)現(xiàn):基于約束條件實現(xiàn)(V結構 )
PC 算法仍是將完全圖作為初始骨架圖, 然后從空集開始逐步增大分離集的大小,不斷刪除骨架圖中的邊, 使得每個結點的鄰居數(shù)不斷減少,尋找兩個節(jié)點的分離集限定在它們的鄰居集的子集范圍內(nèi),目的是避免高維變量的條件獨立檢驗。
FCI算法用以在未觀測混雜變量和樣本選擇偏差存在的情形下學習因果結構, 該方法在 PC 鄰接搜索的基礎上, 利用額外的條件獨立性檢驗以處理潛在混雜變量
基于評分模型的因果發(fā)現(xiàn):
兩階段的貪婪等價搜索算法 (greedy equivalence search, GES)是該類型的一個代表性方法, 它基于觀測數(shù)據(jù), 從 DAG空間中搜索獲取真實分布的完備圖,但該方法尚無法處理未觀測混雜變量、樣本選擇偏差等問題。
基于結構方程(函數(shù))的因果發(fā)現(xiàn):
LiNGAM作為該研究方向的一個代表性模型, LiNGAM的全稱是Linear Non-Gaussian Acyclic Model,即線性非高斯無環(huán)模型。它建模連續(xù)隨機變量間的因果關系,假設變量間線性關聯(lián)且噪聲項服從非 Gauss 分布. 獨立成分分析技術(independent component analysis, ICA) 被用于 LiNGAM 的模型選擇,但由于超參數(shù)選擇問題, ICA 算法常常陷入局部最優(yōu)而無法收斂于最優(yōu)解。
ANM、CANM、PNL、IGCI、HCR、SELF
獨立因果假設:
這部分后面還需要補充和完善,目前整理不是特別好。
3.2.2?應用
應用于千千萬萬的邊緣節(jié)點,幫助人們認識和理解各個邊緣節(jié)點間的作用關系,應用范圍在:移動互聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、智能家居等等