混合物分析新思路:BKMR套路解析


本章思維導(dǎo)圖:

Mixture analysis是近幾年環(huán)境流行病學(xué)最熱門的方法,即“混合物分析”。很多污染物是同源的(co-exposed congeners),而且污染物與污染物之間可能存在交互效應(yīng)。在傳統(tǒng)的分析方法中,化學(xué)物間高度的共線性(collinearity)可能導(dǎo)致結(jié)果錯誤?;旌衔锍煞挚赡芘c健康具有復(fù)雜的非線性和非加性關(guān)系、多暴露變量交互作用產(chǎn)生高緯度導(dǎo)致回歸模型擬合不佳。
常見的例子有空氣污染、塑化劑混合物(鄰苯二甲酸、持久性有機(jī)化學(xué)品)、營養(yǎng)素、重金屬之類。例如,鈣和維生素D的作用是相輔相成的,研究鈣的健康效應(yīng)的時候,VD是否考慮了?研究貧血的時候,鐵和鈷是否同時考慮?再比如,A鉛暴露比較高,A神經(jīng)疾病可能性較大;但如果A飲食模式好、補(bǔ)充抗氧化微量元素,又或經(jīng)常補(bǔ)充拮抗受體鋅,那A理論上神經(jīng)疾病可能性就很小。但若實際上,A依然患病,那么問題來了!是不是A別的重金屬超標(biāo)?是不是微量元素的正作用不夠抵消鉛的負(fù)作用?請問到底吃啥能抵消啥?這些問題似乎在過去很難有答案。但是,隨著方法學(xué)的進(jìn)步很好地解決此類糾纏不清的問題。
混合物分析系列將分為3-4期文章隨著方法學(xué)進(jìn)化而逐一講解,涉及BKMR(貝葉斯核機(jī)器回歸)、CEVK、WQS、QcG分析,這些方法共同解決了化學(xué)物共同暴露對健康結(jié)局的總體效應(yīng)、化學(xué)物對健康結(jié)局影響的重要程度、不同化學(xué)物之間的交互作用的痛點。
舊方法局限性
聚類方法由于對連續(xù)暴露濃度進(jìn)行分類而導(dǎo)致信息丟失。諸如隨機(jī)森林之類的統(tǒng)計學(xué)習(xí)算法可以為混合成分提供可變重要性的度量,但該度量并沒有簡潔地總結(jié)關(guān)聯(lián)的大小或方向。回歸框架內(nèi)的變量選擇技術(shù)LASSO將各個回歸系數(shù)縮小到零,但這些通?;谙鄬唵蔚幕旌铣煞謪?shù)模型。分層模型通過將個體效應(yīng)估計縮小到組均值來解決高度相關(guān)的污染物,但這種方法通常還假設(shè)每個成分與健康之間存在線性和可加性關(guān)聯(lián)。由此,BKMR克服了上述傳統(tǒng)方法可能受到多重共線性和模型選擇誤差限制的缺點,因此更加可靠地評估環(huán)境化學(xué)混合物對健康的影響。
BKMR原理
BKMR無需設(shè)置參數(shù)表達(dá)形式,允許非線性效應(yīng)和交互作用存在,可以根據(jù)模型里放進(jìn)來的混合物變量,生成核函數(shù),然后再利用貝葉斯抽樣和分析方法,生成混合物組分和模型里放入的疾病變量的關(guān)系曲線(dose-response curves)。方法學(xué)文章見 Bobb et al. 2015(doi:10.1093/biostatistics/kxu058)和 Bobb et al. 2018(doi.org/10.1186/s12940-018-0413-y)。簡而言之,迭代2萬次后構(gòu)建暴露劑量響應(yīng)函數(shù)h()。公式:

注意,BKMR公式中的x為協(xié)變量,z才是暴露因素。
BKMR案例
案例1
(PMID: 32006885): 696名焦?fàn)t作業(yè)工人作為研究對象,問卷調(diào)查收集人群基本資料,高效液相色譜質(zhì)譜聯(lián)用方法檢測尿中PAHs羥基代謝產(chǎn)物:2-OHNAP、1-OHNAP、3-OHFLU、2-OHFLU、2-OHPHE、9-OHPHE、1-OHPHE、1-OHPYR、9-OHBAP、3-OHCHR、6-OHCHR。9-OHBAP、3-OHCHR和6-OHCHR檢測率接近或低于50%,定義為二分類變量(檢出或未檢出),以協(xié)變量的方式納入研究。文章嘗試兩種核函數(shù)(Gaussian and Binomial possible choices for specifying the kernel function)。

當(dāng)8種PAHs代謝物 (2-OHNAP, 1-OHNAP, 3-OHFLU, 2-OHFLU, 2-OHPHE, 9-OHPHE, 1-OHPHE, 1-OHPYR) 的整體濃度在高于P??時,隨著代謝物濃度的增加,mtDNAcn呈下降趨勢(圖A);當(dāng)其他代謝物分別固定在P??、P??和P??時,評估單個代謝物對于結(jié)局影響時發(fā)現(xiàn),隨著2-OHNAP和2-OHPHE濃度的增加,mtDNAcn下降(圖B);


圖C顯示2-OHNAP和2-OHPHE與mtDNAcn的線性關(guān)系(不如rcssci包的rcs圖直觀和嚴(yán)謹(jǐn),更推薦繪制rcs曲線);圖D中的平行暴露-反應(yīng)關(guān)系表明,2-OHNAP與2-OHPHE并不存在相互作用。

案例2
(PMID: 34293557),解為探尋何種污染物在空氣污染整體健康效應(yīng)中占據(jù)主導(dǎo),該研究計算了混合物成分PM2.5、O3、和NO2的后驗包含概率(posterior inclusion probability, PIP)。

如圖(a)?所示,分別有99.3%的PM2.5,86.7%的O3和84.0%的NO2PIP值高于閾值(0.5)。研究者還試圖通過改變用來確定是否要包含某變量的閾值來識別主要污染物。如圖 (b)?所示,在閾值從0增加到1的過程中,PM2.5始終具有最大比例高于閾值的PIP值,這說明PM2.5對全因死亡率增加的解釋力度強(qiáng)于O3和NO2。

R實戰(zhàn)






R代碼:


Tips
上述過程需要注意幾點:
①代碼中,暴露因素z的預(yù)處理,可以酌情按照ln或者log10轉(zhuǎn)換后再中心化,可均數(shù)或中位數(shù)中心,文獻(xiàn)報道不一。?
中心化代碼:
②BKMR思路見思維導(dǎo)圖,其中納入BKMR的混合物不同,最后的結(jié)果也可能很不同。簡而言之,多test然后依據(jù)可解釋性選陽性結(jié)果。
篩選方法可以是混合物z全部入選,也可以LASSO篩選,甚至可以自行組合混合物模式。BKMR 不是基于零假設(shè)檢驗的經(jīng)典統(tǒng)計框架,95% CI 被解釋為可信區(qū)間,應(yīng)避免討論統(tǒng)計效能。換句話說,樣本量小不影響結(jié)果。但是,筆者真實分析發(fā)現(xiàn),混合物>10時過多,需研究樣本量較大才容易有陽性結(jié)果。
③混合物間如果存在高度相關(guān)性或者familywise效應(yīng),可以用group參數(shù)處理。相關(guān)性可用相關(guān)系數(shù)矩陣(可搜索前期文章相關(guān)系數(shù)圖)、熱圖、VIF等指標(biāo)來探索。
④PIP =0 意味著該協(xié)變量的CR劑量反應(yīng)是零點上的一條直線,但是這并不意味著此Z對y沒有影響,而只是在BKMR二階段程序中沒有選擇它。⑤ BKMR結(jié)局可以是連續(xù)y,也可以是二分類y。當(dāng)二分類y時,需要標(biāo)出family="binomial"。BKMR包運(yùn)用probit回歸估計的β相比logistic偏小,βlogit≈1.6 *βprobit。
⑤ BKMR大樣本>1萬人需運(yùn)行幾小時,iteration迭代2萬次會更慢??梢钥紤]適當(dāng)降低標(biāo)準(zhǔn),筆者推薦迭代1000次先做預(yù)分析。
⑥高分SCI有許多敏感性分析,總結(jié)見思維導(dǎo)圖。
發(fā)散思維
1.BMKR 文章大多都是環(huán)境領(lǐng)域的隊列研究 或者橫斷面,也有(nested )case-control,那么BKMR是否可以運(yùn)用于臨床研究指標(biāo)?
2.BKMR擴(kuò)展:基于time的BKMR[4],基于滯后回歸的 BKMR 縱向版本[5]。當(dāng)然,也可以按照time因素分層做普通的BKMR[6]。
小結(jié)
BKMR法提供了存在共線性問題的混合物解決方法,可計算總效應(yīng)趨勢(多污染物模式)、單獨(dú)效應(yīng)(單污染物模式)、相對重要性(PIP)、非線性劑量效應(yīng)曲線(CR曲線)、交互作用(雙CR曲線),是環(huán)境領(lǐng)域的一大利器。
數(shù)據(jù)和代碼索要請在公眾號消息界面,發(fā)送信息“BKMR”


本公眾號建立了學(xué)術(shù)交流群(群),僅供SCI學(xué)術(shù)交流,人數(shù)有限需要實名制。入群請加筆者微信popnie,加好友請備注說明:姓名-學(xué)校(單位)-專業(yè),否則不會通過(別再問我為啥不理你)。
參考文獻(xiàn):
1https://academic.oup.com/biostatistics/article/16/3/493/269719 2https://ehjournal.biomedcentral.com/articles/10.1186/s12940-018-0413-y 3https://jenfb.github.io/bkmr/ProbitEx.html 4Domingo-Relloso, Arce, Maria Grau-Perez, Laisa Briongos-Figuero, Jose L Gomez-Ariza, Tamara Garcia-Barrera, Antonio Due?as-Laita, Jennifer F Bobb, et al. 2019. “The Association of Urine Metals and Metal Mixtures with Cardiovascular Incidence in an Adult Population from Spain: The Hortega Follow-up Study.” International Journal of Epidemiology 48 (6): 1839–49. 5Liu, Shelley H, Jennifer F Bobb, Kyu Ha Lee, Chris Gennings, Birgit Claus Henn, David Bellinger, Christine Austin, et al. 2018. “Lagged Kernel Machine Regression for Identifying Time Windows of Susceptibility to Exposures of Complex Mixtures.” Biostatistics 19 (3): 325–41. 6Tyagi, Pooja, Tamarra James-Todd, Lidia M??nguez-Alarcón, Jennifer B Ford, Myra Keller, John Petrozza, Antonia M Calafat, et al. 2021. “Identifying Windows of Susceptibility to Endocrine Disrupting Chemicals in Relation to Gestational Weight Gain Among Pregnant Women Attending a Fertility Clinic.” Environmental Research 194: 110638. 7https://www.niehs.nih.gov/news/events/pastmtg/2015/statistical/ 8https://jenfb.github.io/bkmr/overview.html
原創(chuàng)不易,歡迎轉(zhuǎn)載,分享給你身邊的小伙伴。

BKMR系列1