科研代碼大全|DALEX包用于探索/解釋/評估模型/分析不同特征變量對響應(yīng)變量的影響

科研有捷徑,輸入代碼,一鍵獲取科研成果!就是這么省事,來具體看下有多方便!
搜索http://985.so/a9kb查看全部代碼(目前共計(jì)50+持續(xù)新增中),也可以點(diǎn)擊右側(cè)【目錄】,可以看到更多有趣的代碼
真香提示:文末可以知道如何獲取代碼~??
機(jī)器學(xué)習(xí)模型被廣泛使用,并且在分類或回歸任務(wù)中有各種應(yīng)用。由于計(jì)算能力的提高、新數(shù)據(jù)源和新方法的可用性,ML模型越來越復(fù)雜。使用增強(qiáng)、神經(jīng)網(wǎng)絡(luò)裝袋等技術(shù)創(chuàng)建的模型是真正的黑匣子。很難追蹤輸入變量和模型結(jié)果之間的聯(lián)系。它們因高性能而被使用,但缺乏可解釋性是它們最弱的方面之一。
在許多應(yīng)用中,我們需要知道、理解或證明模型中如何使用輸入變量以及它們對最終模型預(yù)測有什么影響。而DALEX是一組幫助理解復(fù)雜模型如何工作的工具,為了解決分類和回歸問題的數(shù)據(jù)訓(xùn)練而創(chuàng)建的一個(gè)綜合工具包。
小編最近學(xué)習(xí)到DALEX包能夠?qū)⒌哪P瓦M(jìn)行很好的解釋,不僅能夠?qū)δP瓦M(jìn)行評估,還可以進(jìn)行不同特征變量對響應(yīng)變量的影響進(jìn)行分析。
目前,已有研究將DALEX包應(yīng)用于生信文章,如下圖。這是來自Am J Transl Res
的一篇IF > 4分生信文章。

但是具體要如何實(shí)現(xiàn)???
今天,下面小編以生物信息轉(zhuǎn)錄組數(shù)據(jù)為例進(jìn)行說明。
代碼具體包括:
Step1 輸入數(shù)據(jù)并劃分訓(xùn)練集和測試集
Step2構(gòu)建模型(隨機(jī)森林RF、廣義線性回歸GLM和支持向量機(jī)SVM)
Step3模型解釋(DALEX包的explain函數(shù)對三個(gè)模型進(jìn)行解釋性分析)
Step4模型表現(xiàn)(model_performance函數(shù))
Step5變量重要性分析(此處損失函數(shù)為均方根誤差)
Step6單個(gè)連續(xù)型解釋變量與響應(yīng)變量關(guān)系(variable_effect函數(shù))?
下面是代碼中附帶數(shù)據(jù)逐步分析結(jié)果




?

神奇吧,就是如此簡單,我們用的都是入門級函數(shù),稍微懂點(diǎn)R語言就能實(shí)現(xiàn)。
掃碼,聊天框回復(fù)“B07”,查看原文,可以免費(fèi)獲取代碼!?
