熱點(diǎn)!生信文章必備之LASSO,randomForest和xgboost三種機(jī)器學(xué)習(xí)算法進(jìn)行特征基因篩選
爾云間? 一個(gè)專門做科研的團(tuán)隊(duì)
? ?
歡迎點(diǎn)贊+收藏+關(guān)注
生信人R語言學(xué)習(xí)必備
立刻擁有一個(gè)Rstudio賬號(hào)
開啟升級(jí)模式吧
(56線程,256G內(nèi)存,個(gè)人存儲(chǔ)1T)

小果今天給大家?guī)淼姆窒斫^對(duì)是生信熱點(diǎn)分析內(nèi)容,基于三種機(jī)器學(xué)習(xí)算法進(jìn)行生存資料特征基因篩選,最終將三種算法獲得的交叉基因作為我們的特征基因。
接下來跟著小果開啟今天的學(xué)習(xí)之旅吧!
1.?三種機(jī)器學(xué)習(xí)算法進(jìn)行特征篩選
小伙伴們是不是在想到底是那三種機(jī)器學(xué)習(xí)算法?不急!小果來慢慢告訴大家,今天小果將利用LASSO回歸,隨機(jī)森林和xgboost三種算法進(jìn)行生存資料特征基因篩選,這三種機(jī)器學(xué)習(xí)的算法原理小果在這里不做過多的介紹,感興趣的小伙伴們可以自行查詢學(xué)習(xí),今天小果將通過實(shí)操,讓大家輕松掌握如何利用這三種算法進(jìn)行特征基因篩選,其實(shí)分析非常簡(jiǎn)單,只需要輸入帶有生存信息的表達(dá)矩陣文件,就可以很輕松的完成該分析,對(duì)小白也很適用,話不多說,馬上跟著小果開始今天的實(shí)操吧!
2.?準(zhǔn)備需要的R包
3.?數(shù)據(jù)準(zhǔn)備
exp_surv.txt
#生存信息加基因表達(dá)矩陣文件,行名為樣本信息,第一列為OS.time(生存時(shí)間),第二列為OS(生存狀態(tài)),其他列為基因。

4 . LASSO回歸分析


#通過LASSO回歸篩選的特征基因文件,第一列表示基因名,第二列表示coefficient。
5.隨機(jī)森林分析

?注:通過隨機(jī)森林算法篩選的特征基因,第一列表示基因名,第二列為VIP值。
6.xgboost算法

?
注:通過xgboost算法篩選的VIP值排前十的基因,第一列表示基因名,第二列表示VIP值。
繪制venn圖篩選三種算法獲得的交叉基因
7.結(jié)果文件
1.?lambda.pdf
該結(jié)果圖片為L(zhǎng)ASSO回歸lambda圖。

2.?lasso.pdf
該結(jié)果圖片LASSO回歸為10折交叉驗(yàn)證圖。

?
3.?forest.pdf
該結(jié)果圖片為隨機(jī)森林OBB圖和VIP圖。

?4.?train_error.pdf
該結(jié)果圖片為xgboost算法cox風(fēng)險(xiǎn)比例回歸的負(fù)偏對(duì)數(shù)隨著迭代次數(shù)的變化。

?5.?venn.pdf
該結(jié)果圖片為三種算法特征基因的venn圖,將交叉基因篩選為候選基因。

?
最終小果順利完成了利用 lassso回歸,隨機(jī)森林和xgboost三種機(jī)器學(xué)習(xí)算法進(jìn)行了特征基因篩選。機(jī)器學(xué)習(xí)相關(guān)其他分析內(nèi)容歡迎嘗試本公司新開發(fā)的云平臺(tái)生物信息分析小工具,零代碼完成分析,云平臺(tái)網(wǎng)址:http://www.biocloudservice.com/home.html。

“生信果”,生信入門、R語言、生信圖解讀與繪制、軟件操作、代碼復(fù)現(xiàn)、生信硬核知識(shí)技能、服務(wù)器、生物信息學(xué)的教程,以及基于R的分析和可視化等原創(chuàng)內(nèi)容,一起見證小白和大佬的成長(zhǎng)。