孟德爾隨機化為什么能掀起波瀾?

關(guān)聯(lián)無處不在,隨著時間的增加,樹的身高和兒童身高呈現(xiàn)正相關(guān),樹的身高會影響兒童的身高?非也!
????真實世界研究中,為了發(fā)現(xiàn)可靠的關(guān)聯(lián),混雜的控制已成為一門必修課,如今控制混雜的主流方法有:隨機分組、配對、分層、雙重差分、傾向性匹配得分、多因素回歸、本底事件率比矯正法、工具變量等。
????在這些方法中為何孟德爾隨機化能掀起波瀾?
????本課題組重磅系列,帶你走進(jìn)不一樣的孟德爾世界!豌豆的世界!
硬菜正式奉上,歡迎各位老爺品嘗?。?!
病因的概念:那些能使人們發(fā)病概率升高的因素,即為病因。流行病學(xué)的病因一般稱為危險因素,使疾病發(fā)生概率升高的因素——M. Lilienfeld
流行病學(xué)病因研究方法

?在流行病學(xué)研究中,觀察性研究得出的結(jié)論并不是因果關(guān)系,我們通常認(rèn)為因果關(guān)系是一種概率性關(guān)系?!柏惾~斯網(wǎng)絡(luò)之父”Judea Pearl寫了一本書《為什么:關(guān)于因果關(guān)系的新科學(xué)》。在本書中,pearl主要闡述了因果關(guān)系之梯,分為了三個層級,從低到高分別是“關(guān)聯(lián)”、“干預(yù)”、“反事實”。

第一層級的關(guān)系是Association-關(guān)聯(lián),主要通過Seeing-貫徹來發(fā)現(xiàn)事物之間的關(guān)聯(lián),比如A發(fā)生時,B也會發(fā)生。
第二層級是Intervention-干預(yù),這一部分主要通過Doing—行動來確認(rèn)事物之間的關(guān)聯(lián)。比如通過改變A,去看B是否發(fā)生。
第三層及是Counterfactual-反事實,通過Imaging-想象來確認(rèn)事物之間的因果關(guān)聯(lián),其實就是由果及因,比如想想B的改變是否可以通過改變A來實現(xiàn)。
? 此外,還有一些流行病學(xué)教科書上我們所熟知的模型來幫助我們更好的理解因果關(guān)系,例如三角模型和病因鏈模型。

———————————————————
?Why?is an instrument variable (IV)?

“Correlation does not imply causation”.
? ?在吸煙與肺癌的觀察性研究中,我們往往會考慮吸煙和肺癌之間可能存在的混雜因素,例如:年齡、性別、居住地、工作環(huán)境、社會經(jīng)濟(jì)地位等等。但是我們永遠(yuǎn)無法窮舉所有的混雜,而通過使用工具變量,研究者可以通過利用一個與自變量相關(guān)但與混淆變量不相關(guān)的變量,來解決混淆變量的問題。這使得研究者可以得到一種類似于隨機實驗的效果,從而實現(xiàn)對因果效應(yīng)的無偏估計。

具體而言,使用工具變量的步驟如下:
1. 選擇一個與內(nèi)生變量相關(guān)但與誤差項不相關(guān)的變量作為工具變量。
2. 使用工具變量估計內(nèi)生變量對工具變量的影響。
3. 使用得到的內(nèi)生變量估計值作為獨立變量,再次進(jìn)行OLS回歸分析。
4. 通過比較使用工具變量的估計結(jié)果和普通OLS回歸的結(jié)果,判斷內(nèi)生性對估計結(jié)果的影響。

此圖需要三個核心假設(shè):
(1)Relevance:工具變量Z與暴露X必須相關(guān)聯(lián)
(2)Effffective random assignment:?工具變量Z與混雜因素C無關(guān)
(3)Exclusion restriction:?工具變量Z不能對結(jié)果Y有任何直接影響。
IV在經(jīng)濟(jì)學(xué)方面、公共衛(wèi)生、社會學(xué)和人類遺傳學(xué)應(yīng)用廣泛,目前在人類遺傳學(xué)領(lǐng)域的應(yīng)用最為火熱,以下是三個應(yīng)用IV的經(jīng)典案例:
IV in Economics: Effffect of military service on earnings[1]
???????征兵彩票可以看作是一種服兵役的“自然實驗”

IV in Public Health: Effffectiveness of vaccine[2]
????????同樣的想法也可以應(yīng)用于不符合規(guī)定的RCT。

IV in Public Health: Effffectiveness of vaccine[3]
這是“孟德爾隨機化”的一個特殊情況,其中遺傳變異被用作IV,通常X是一個流行病學(xué)危險因素。即這些因素可能在疾病發(fā)生的過程中是處于更靠近因變量(或疾?。┌l(fā)生的“下游”位置

[1]Angrist, J. (1990). Lifetime earnings and the Vietnam era draft lottery: evidence from social security?administrative records.?American Economic Review, 80(3), 313–336.
[2]Hirano, K. et al. (2000). Assessing the effffect of an inflfluenza vaccine in an encouragement design.?Biostatistics, 1(1), 69–88.
[3]Gamazon, E. et al. (2015). A gene-based association method for mapping traits using reference?transcriptome data.?Nature Genetics, 47(9).
———————————————————
遺傳學(xué)中MR研究的步驟
工具變量篩選
·?? 讀取工具變量
·?? 去除連鎖不平衡
·?? 剔除混雜
暴露與結(jié)局相匹配
·?? 獲取IV在結(jié)局中的信息
·?? 合并效應(yīng)量
·?? MR分析
?
MR分析和敏感性分析
·?? 敏感性分析
·?? MR可視化
?
遺傳工具變量的三個核心假設(shè):
1. 關(guān)聯(lián)性假設(shè):遺傳變異與暴露因素之間存在較強的關(guān)聯(lián)性假設(shè)。
2. 獨立性假設(shè):遺傳變異與影響“暴露和結(jié)局”的混雜因素獨立。
3. 排他性假設(shè):遺傳變異只能通過暴露對結(jié)局發(fā)生作用,而不能通過其他途徑
尋找合適的工具變量

GWAS是在全基因組層面上,開展多中心、大樣本、反復(fù)驗證的基因與疾病的關(guān)聯(lián)研究,是通過對大規(guī)模的群體DNA樣本進(jìn)行全基因組高密度遺傳標(biāo)記 (如 SNP 或 CNV 等)分型,從而尋找與復(fù)雜疾病相關(guān)的遺傳因素的研究方法,全面揭示疾病發(fā)生、發(fā)展與治療相關(guān)的遺傳基因。具體步驟如下:
?
GWAS→P<5E-8→連鎖不平衡(LD)→獨立性→排他性
?
?? 連鎖不平衡是指不同基因座(loci)的等位基因(allele)之間非隨機(nonrandom)的關(guān)聯(lián)。簡單地說,只要兩個基因不是完全獨立地遺傳,就會表現(xiàn)出某種程度的連鎖。
獨立性:去除與暴露和結(jié)局有關(guān)的SNP,通過Phenoscanner :phenoscanner. medschl.cam.ac.uk/?網(wǎng)站查找每個SNP的二級表型,去除與暴露和結(jié)局有關(guān)的混雜因素的SNP。
?? 排他性:遺傳變異只能通過暴露對結(jié)局發(fā)生作用,而不能通過其他途徑。?多效性的存在也可能會違反這一假設(shè),因此我們在后面的分析過程中,還需要對多效性進(jìn)行評估。
———————————————————
總結(jié),孟德爾隨機化以基因型作為工具變量的優(yōu)勢是:
·????? 遺傳相關(guān)中,因果關(guān)系的方向是確定的,遺傳多樣性導(dǎo)致了不同的表型,反之則不成立。
·????? ?一般情況下我們所測量的環(huán)境暴露因素都或多或少與行為,社會,心理等因素相關(guān),造成偏倚。但遺傳變異則不受這些混淆因素影響。相對來說,遺傳變異與其效應(yīng)的測量誤差較小。
·????? 目前GWAS的數(shù)據(jù)相對容易獲取。MR研究的R代碼已經(jīng)體系化,各種MR開發(fā)小工具層出不窮,一旦確定了選題,出結(jié)果快。
————————————————————
MR研究相關(guān)結(jié)果展示,下期我們將推出MR研究的一系列代碼,敬請期待。
MR敏感性分析

多效性檢驗

簡單可視化




關(guān)注微信公眾號,獲取更多相關(guān)內(nèi)容!

文字編輯:想不出吸睛好名字
審閱:老陳