4張圖直取Q1區(qū)6分+純生信!依靠“機器學(xué)習(xí)”不蹭熱點就能發(fā)高分!聚焦腫瘤異質(zhì)性分型

現(xiàn)在的生信文化主要是追逐熱點,小云也一直致力于給小伙伴們追蹤分享新熱點。因為追熱點確實容易發(fā)高分,但需要抓住新熱點剛出現(xiàn)時的紅利期,這一點小云也在分享文章時多次給朋友們提醒過,如果錯過了紅利期就不占什么優(yōu)勢了(ps:就像之前的銅死亡,剛出現(xiàn)的時候簡單分析就能發(fā)5分+純生信,現(xiàn)在就沒那么容易了,要么增加分析創(chuàng)新性和難度,要么加實驗,它與其他熱點相比也就沒有明顯優(yōu)勢了。今年剛出現(xiàn)的雙硫死亡,或者以后再出現(xiàn)的新熱點也都會是這個趨勢····)
其實,還有一條路,可能沒有那么火爆,但比較穩(wěn),就是不蹭熱點,針對某一疾病從一些非熱點角度來分析。雖然這種模式的選題方向buff加成并不高,但同時發(fā)文競爭力也會比較小,再加上一些分析上的創(chuàng)新(比如機器學(xué)習(xí)),也是很容易彎道超車發(fā)高分的!?

小云今天就帶來一篇不蹭熱點,聚焦腫瘤異質(zhì)性,利用“機器學(xué)習(xí)”進行分層分析的文章,僅用4張圖就拿下了6分+的純生信,這性價比不用多說了吧!雖然選題方向是非熱點,但“機器學(xué)習(xí)”分析方法上的buff加成效果還是相當(dāng)哇塞的,想走這條路的小伙伴快來抄作業(yè)吧,換個腫瘤同樣適用哦!

l?題目:HER2+/ER+乳腺癌15個預(yù)后基因分類特征的開發(fā)和驗證
l?雜志:Computational and Structural Biotechnology Journal
l?影響因子:IF=6.155
l?發(fā)表時間:2023年5月
研究背景
HER2+乳腺癌(BC)是一個異質(zhì)性亞群,雌激素受體(ER)狀態(tài)正在成為HER2+ BCs中的一個預(yù)測標(biāo)志,HER2+/ER+病例通常在診斷后的前5年有更好的生存率,但與HER2+/ER-相比,5年后有更高的復(fù)發(fā)風(fēng)險。這可能是因為HER2+ BCs中持續(xù)的ER信號有助于逃脫HER2的阻斷。目前HER2+/ER+ BC研究不足,缺乏生物標(biāo)志物。因此,更好地理解潛在的分子多樣性對于尋找HER2+/ER+ BCs的新治療靶點是重要的。

研究思路
基于TCGA-BRCA隊列的123個HER2+/ER+ BC樣本的基因表達數(shù)據(jù)進行了無監(jiān)督一致聚類和全基因組Cox回歸分析,以識別不同的HER2+/ER+亞組。然后在TCGA使用已鑒定的亞組構(gòu)建了一個受監(jiān)督的極端梯度增強(XGBoost)分類器,并在另外兩個獨立的數(shù)據(jù)集中進行驗證。最后對不同HER2+/ER+ BC隊列中的預(yù)測亞組進行了計算特征分析。

主要結(jié)果
1. HER2+/ER+BC中的亞組分析
收集在3個隊列中均表達的15850個共同基因,去除了一直為零計數(shù)的基因后再進行單變量Cox回歸分析,得到549個存活相關(guān)基因(圖1D)?;?49個基因在訓(xùn)練集TCGA-BRCA HER2+/ER+隊列中進行無監(jiān)督共識聚類(CC)分析,分析顯示當(dāng)無監(jiān)督CC聚類數(shù)等于2時,可以得到最顯著的生存差異,表明TCGA-BRCA HER2+/ER+隊列中存在兩個穩(wěn)健的不同亞組(圖1A, B),進行KM曲線分析兩個亞組之間的存活率差異(圖1C)。(ps:cox回歸分析、KM曲線繪制也可以用小云新開發(fā)的零代碼生信分析小工具實現(xiàn),云生信分析工具平臺包含超多零代碼分析和繪圖小工具,上傳數(shù)據(jù)一鍵出圖,感興趣的小伙伴歡迎來嘗試喲,網(wǎng)址:http://www.biocloudservice.com/home.html)。


圖1?HER2+/ER+BC中的亞組分析
2.?HER2+/ER2 + BC基因分類器的開發(fā)
在亞組1與亞組2間進行差異分析,鑒定得到197個差異表達基因(圖3a),與Cox回歸分析的549個存活相關(guān)基因取交集后得到15個重疊基因。由于這15個基因具有生存意義和亞群區(qū)分意義,所以作者利用這15個基因訓(xùn)練監(jiān)督分類模型(XGBoost)?以將TCGA-BRCA HER2+/ER+患者分類到CC確定的兩個亞組中。XGBoost分類器的微調(diào)過程和5重交叉驗證性能見表1,AUC、敏感性和特異性分別為0.85、0.76和0.77。XGBoost模型中每個基因的重要性分?jǐn)?shù)如圖2所示,TNNI2是模型做出預(yù)測決策的最重要特征。



表1?XGBoost分類器的超參數(shù)微調(diào)過程和5重交叉驗證模型性能
3. XGBoost分類器的外部驗證
使用兩個外部數(shù)據(jù)集(METABRIC HER2+/ER+隊列和GSE149283 HER2+/ER+隊列)驗證XGBoost分類器的作用。首先比較METABRIC HER2+/ER+隊列和GSE149283 HER2+/ER+隊列中兩個亞組間15個模型基因的表達差異,顯示亞組2中的總體基因表達量低于亞組1,與訓(xùn)練集中結(jié)果一致(圖3A, B)。在METABRIC HER2+/ER+隊列中進行KM生存分析,顯示亞組2的存活率低于亞組1,與訓(xùn)練集中結(jié)果類似(圖3C)。在GSE149283 HER2+/ER+隊列中分析2個亞組間的藥物反應(yīng),顯示亞組2中有更高比例的患者對曲妥珠單抗表現(xiàn)出部分緩解(圖3D)。

圖3?XGBoost分類器的外部驗證
4. 亞組間特征分析
首先分析TCGA-BRCA HER2+/ER+隊列和METABRIC HER2+/ER+隊列的亞組間的基因突變情況,顯示兩亞組中的常見突變基因不同(圖4A)。使用TIMER在TCGA-BRCA和METABRIC隊列上估計六種免疫細(xì)胞類型的定量豐度,以檢查兩個HER2+/ER+亞組中的TILs差異(圖4B)。比較TCGA-BRCA和METABRIC隊列中不同亞組的PAM50內(nèi)在亞型和已發(fā)表的基因特征(rorS和GENIUS)(圖4C, D)。



圖4?亞組間的特征分析
小結(jié)
這篇文章聚焦于乳腺癌異質(zhì)性,利用機器學(xué)習(xí)算法進行分型分析,并開發(fā)了一個XGBoost分類器。選題方向雖不是生信大熱點,但創(chuàng)新性很不錯,再加上機器學(xué)習(xí)分析思路的buff加成,僅用4張圖就發(fā)到了6分+的純生信,提分效果相當(dāng)哇塞!目前腫瘤異質(zhì)性方向的關(guān)注度并不高,發(fā)文競爭比較小、空間大,換個癌種就可以用這個思路復(fù)現(xiàn)啦!
