散文網(wǎng) » 科技 »學(xué)習(xí) » 當生物信息遇上深度學(xué)習(xí)，會擦出怎么的火花？這篇文章帶你感受深度學(xué)習(xí)的魅力！

當生物信息遇上深度學(xué)習(xí)，會擦出怎么的火花？這篇文章帶你感受深度學(xué)習(xí)的魅力！

2023-08-10 13:48 作者:爾云間 0人讀過 | 我要投稿

表達相關(guān)的生信怎樣才能讓人眼前一亮？

深度學(xué)習(xí)也可以用于生物信息？

這篇文章帶你了解當深度學(xué)習(xí)遇上生物信息會擦出怎么的火花！

小云今天介紹的是一篇發(fā)表在我們的老朋友期刊——Cancer Biomarkers上的文章。一眼看去，映入眼簾的就是Machine learning algorithm and deep neural networks，腦海便浮現(xiàn)出一個想法，不簡單?。?！首先文章選題方向的是我們熟悉的肝癌基因，然后利用一些統(tǒng)計學(xué)和機器學(xué)習(xí)方法進行臨床與基因表達的關(guān)聯(lián)分析，篩選出了一些與肝癌具有顯著相關(guān)性的基因，最后講這些基因作為構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練集，搭建完成后再使用富集分析揭示關(guān)鍵基因所在的代謝途徑。怎么樣？是不是思路比較簡單？并沒有想象中的那么復(fù)雜。接下來讓小云帶你解讀一下這篇文章。

題? ? ? ?目：機器學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)確定了一個新的肝細胞癌亞型
雜? ? ? ?志：Cancer Biomarkers
影響因子：IF=3.828
發(fā)表時間：2022年9月

研究背景

在世界上最常見的癌癥中，肝細胞癌(HCC)排名第五，也是導(dǎo)致癌癥相關(guān)死亡的三大原因之一。在北美和歐洲，這些歷史上較低的HCC發(fā)病率近年來有所增加。且由于疾病早期缺乏特異性特征，患者通常在疾病進展的晚期被診斷出來。因此，迫切需要一種準確預(yù)測HCC患者預(yù)后生存風(fēng)險的模型，以指導(dǎo)臨床治療。

數(shù)據(jù)來源

研究流程

第一步是從TCGA-LIHC和GSE112790兩個項目中鑒定差異表達基因。使用單變量COX和多變量COX回歸分析來進一步識別與生存相關(guān)的基因。將生存相關(guān)基因放入KMeans中以聚類兩種類型的肝細胞癌患者。然后分別使用隨機森林和LASSO回歸算法來幫助識別影響肝細胞癌患者預(yù)后的關(guān)鍵基因。其次，通過一部分樣本訓(xùn)練DNN，使用DNN不熟悉的另一部分數(shù)據(jù)來預(yù)測患者的亞型。最終使用Kaplan-Meier方法來評估效果。

主要結(jié)果

Part 1 :差異基因的篩選與鑒定

使用“Limma”包對GSE112790數(shù)據(jù)進行差異表達分析，結(jié)果如圖1(A)所示，獲得624個下調(diào)基因和794個上調(diào)基因。同時對TCGA-LIHC數(shù)據(jù)進行差異表達分析，如圖1(B)所示，獲得464個下調(diào)基因和2394個上調(diào)基因。且圖1(C)展示了所有的差異基因熱圖。且從兩次差異分析中挑選了重疊基因，如圖1(D)所示。

（ps：基因差異分析、火山圖繪制、熱圖繪制以及韋恩圖繪制等都可以用小云新開發(fā)的零代碼生信分析小工具實現(xiàn)哦，云生信分析工具平臺包含超多零代碼分析和繪圖小工具，上傳數(shù)據(jù)一鍵出圖，感興趣的小伙伴歡迎來嘗試，網(wǎng)址：http://www.biocloudservice.com/home.html）。

圖1 ?GSE112790和TCGA-LIHC數(shù)據(jù)差異表達分析

Part 2 :?HCC生存相關(guān)關(guān)鍵基因的選擇

使用單變量COX回歸模型來檢驗每個基因的預(yù)后影響。篩查閾值p < 0.05的基因，提示其預(yù)后效果有統(tǒng)計學(xué)意義，基于單因素COX結(jié)果，進一步考慮臨床因素，包括性別、年齡、T分期、分期和分級分期。然后通過多元COX回歸計算各基因的回歸系數(shù)、風(fēng)險比、相應(yīng)的置信區(qū)間和p值。最終得到了546個符合條件的差異表達基因。（ps：云生信分析工具平臺也可以一鍵COX回歸分析哦！感興趣的小伙伴快來試試吧，網(wǎng)址：http://www.biocloudservice.com/home.html）。

Part 3 : 基于無監(jiān)督k均值聚類的兩個新亞型

得到生存相關(guān)的關(guān)鍵基因后，利用無監(jiān)督K-means距離中的PAM函數(shù)計算不同K值下的簇間輪廓寬度，其聚類效果如圖2(A)所示?？梢钥吹?，當K=2時，K-means模型的聚類效果最佳。其空間分布如圖2(B)所示。365例患者被分為兩種新的亞型包含243例低?；颊?C1)和122例高危患者(C2)。隨后采用Kaplan-Meier方法分析兩種亞型的生存率，K-M曲線如圖2(C)所示(p < 0.0001)。該模型ROC曲線的具體參數(shù)圖2(D)。最后比較了兩種亞型中不同AJCC分級患者的比例，結(jié)果如圖2(E)和2(F)所示，可以發(fā)現(xiàn)晚期癌癥患者在高危亞型中的比例遠高于晚期癌癥患者在低危亞型中的比例。

Part 4 :?隨機森林和LASSO降維

隨機森林模型的決策樹數(shù)量參數(shù)（ntree）由錯誤樹圖優(yōu)化（圖 3A），“mtry”使用默認參數(shù)。這模型的特征向量是生存相關(guān)基因，并且類別向量使用高風(fēng)險和低風(fēng)險亞型。經(jīng)過反復(fù)訓(xùn)練，模型的出袋誤差率為4.66%。將接近度矩陣轉(zhuǎn)化為距離矩陣，計算每個MDS軸的重要性。從而繪制MDS圖(圖3B)。高危和低危患者的樣本分布在MDS1軸的兩端，相應(yīng)的ROC曲線(圖3C)也驗證了隨機森林模型的可靠性。根據(jù)基尼系數(shù)從高到低對基因進行排序，輸出最重要的前50個基因(圖3D)。

使用R包“glmnet”實現(xiàn)LASSO邏輯回歸，族參數(shù)設(shè)置為“二項式”。不斷增大懲罰(Lambda)，使模型中各基因的系數(shù)調(diào)整為趨于0，系數(shù)可視化如圖4A和4B所示。交叉驗證是優(yōu)化模型以確保模型的均方誤差滿足要求的一個很好的選擇(圖4C)。每個模型對應(yīng)的ROC曲線下面積存儲在AUC中并輸出(圖4D)，其中AUC值均大于0.9。

Part 5: DNN預(yù)測模型的建立

利用Lasso模型中系數(shù)部位0的基因與隨機森林篩選的TOP 50基因進行比較，最后如圖5(A)所示，得到17個基因，將這17個基因作為DNN模型訓(xùn)練的特征向量，類別向量為無監(jiān)督聚類得到的兩組亞型。將具有完整臨床數(shù)據(jù)的TCGA-LIHC數(shù)據(jù)集隨機劃分三分之一作為模型的預(yù)測集，其余三分之二樣本作為訓(xùn)練集。圖5(C-F)展示了訓(xùn)練過程中數(shù)據(jù)集的交叉熵損失。將DNN預(yù)測結(jié)果和K-Means聚類結(jié)果放入混淆矩陣結(jié)果如圖5(B)。最終將預(yù)測集放入訓(xùn)練完成的KNN模型，利用預(yù)測結(jié)果繪制生存曲線，如圖5(G)所示，可以看出該模型可以準確預(yù)測患者的亞型(p=0.00027)。

Part 6：基因集富集分析結(jié)果

使用R包“enrichment go”和“enrichment kegg”對差異基因進行超幾何分布檢驗分析。如圖6所示為KEGG富集分析結(jié)果，如圖7所示為GO富集分析結(jié)果。使用MSigDB數(shù)據(jù)庫作為背景基因集，來展開GSEA分析。結(jié)果如圖8(A)和8(B)展示了上調(diào)、下調(diào)基因所富集的8條通路。

Part?7: 文章小結(jié)

這篇文章使用機器學(xué)習(xí)算法篩選出17個HCC患者的生存相關(guān)基因，并基于這些基因訓(xùn)練DNN模型來預(yù)測HCC患者的生存風(fēng)險。結(jié)果說明組成這個模型的基因都是影響癌癥形成和發(fā)展的關(guān)鍵基因。文章分析思路比較簡單，但是其結(jié)合了多種機器學(xué)習(xí)方法，可以解決以往實驗存在的數(shù)據(jù)局限性以及新穎性問題。小伙伴們也可以借用這個套路，換個疾病展開研究，或者將某些機器學(xué)習(xí)方法進行替換，都是一篇準SCI哦！快去用這個思路復(fù)現(xiàn)吧！