再來一個不蹭熱點(diǎn)的6分+思路——從“疾病特征”入手,45天即接收!

生信分析一定要追熱點(diǎn)嗎?
能不能從自己深耕的疾病方向入手分析呢?
不追熱點(diǎn)能不能發(fā)高分?怎么才能發(fā)高分?····?

這是小云選取的一些粉絲的私信問題,看來朋友們對于生信追熱點(diǎn)還有一些疑問。小云分享的大部分思路都是追熱點(diǎn)的,那是因?yàn)樾聼狳c(diǎn)、大熱點(diǎn)確實(shí)容易發(fā)文,尤其是新熱點(diǎn)剛出現(xiàn)的紅利期,很容易簡單分析就發(fā)個高分純生信。
但是,這并不意味著生信只能追熱點(diǎn),小云也非常喜歡看到從疾病出發(fā)另辟蹊徑的文章,也樂得分享這種文章(ps:小云之前也分享過類似文章,可以點(diǎn)擊文末鏈接或關(guān)注公眾號查看哦),其實(shí)這種文章與你自己深耕的疾病更加契合,并且方向越小眾競爭越少、越好發(fā)文。如果想再增加些創(chuàng)新性,可以分析方法上求創(chuàng)新和多元化,比如機(jī)器學(xué)習(xí)算法、單細(xì)胞數(shù)據(jù)分析和多組學(xué)分析等~?~

?還是用實(shí)例說話!這篇文章從疾病特征入手,利用機(jī)器學(xué)習(xí)算法建立分類器,同時還進(jìn)行單細(xì)胞數(shù)據(jù)分析、多組學(xué)分析、公共病理數(shù)據(jù)分析驗(yàn)證,分析內(nèi)容上的豐富多彩,直接打造出一個6分+純生信文章,并且一個半月就接收,這性價(jià)比,這速度都非常哇塞!小伙伴們心動了嗎?心動不如行動,要復(fù)現(xiàn)思路可以找小云哦!

l?題目:頭頸部鱗狀細(xì)胞癌神經(jīng)侵襲風(fēng)險(xiǎn)評估機(jī)器學(xué)習(xí)模型的建立
l?雜志:Int J Mol Sci.
l?影響因子:IF=6.208
l?發(fā)表時間:2023年5月
研究背景
血液和淋巴擴(kuò)散以及局部和周圍神經(jīng)侵犯(PNI)包括實(shí)體瘤擴(kuò)散的主要途徑。PNI是多種癌癥中的常見威脅,包括頭頸鱗狀細(xì)胞癌(HNSCC ),并且由于局部復(fù)發(fā)率增加和腫瘤復(fù)發(fā)時間縮短而成為不利生存的預(yù)后指標(biāo)。由于手術(shù)切除的腫瘤樣本的可用性,通過病理檢查對神經(jīng)周圍侵犯的充分診斷是有限的,并且目前還沒有針對HNSCC PNI患者的治療干預(yù)措施。這些問題表明,迫切需要可靠的分子分類器來支持診斷性PNI評估和預(yù)后風(fēng)險(xiǎn)預(yù)測,并探索確切的潛在分子原理。
數(shù)據(jù)來源?

研究思路
將有PNI狀態(tài)注釋的TCGA-HNSC隊(duì)列作為訓(xùn)練集,篩選PNI相關(guān)的差異表達(dá)基因。根據(jù)44個PNI基因特征進(jìn)行聚類分析,比較不同亞型間的生存差異并在驗(yàn)證隊(duì)列中驗(yàn)證。隨后利用單細(xì)胞數(shù)據(jù)分析PNI相關(guān)的44個基因特征在特定細(xì)胞類型中的表達(dá)情況。然后基于PNI相關(guān)的44基因特征表達(dá)的分子分類,建立一個機(jī)器學(xué)習(xí)(ML)模型,進(jìn)一步診斷隱匿性PNI,模型在CDSA病理數(shù)據(jù)中驗(yàn)證。最后分析PNI機(jī)器學(xué)習(xí)分類器與突變、DNA甲基化以及免疫浸潤的相關(guān)性。

?
主要結(jié)果
1. PNI相關(guān)基因特征的識別和聚類分析
首先在有PNI狀態(tài)注釋的TCGA-HNSC隊(duì)列中基于組織病理學(xué)PNI狀態(tài)進(jìn)行KM生存分析,以評估PNI的預(yù)后作用。結(jié)果顯示不同PNI狀態(tài)間5年總生存率(OS)、疾病特異性生存率(DSS)和無進(jìn)展間期(PFI)存在顯著差異(圖1A)。以此隊(duì)列為訓(xùn)練集,分析PNI-HNSCC與PNI+HNSCC間的差異基因,獲得60個DEGs(圖1C)?;谶@些DEGs的轉(zhuǎn)錄水平進(jìn)行無監(jiān)督的分級聚類,獲得了兩個主要的聚類,其富集了PNI-(聚類A) 或PNI+(聚類B)。但聚類分析顯示在PNI+腫瘤中突出了一組上調(diào)的DEGs(n = 16),其與肌肉組織相關(guān),表明解剖亞位點(diǎn)的偏差,遂予以剔除,最終得到一個PNI相關(guān)的44個基因特征(圖1D)。



圖1?PNI相關(guān)的基因特征的識別
2. 基于PNI相關(guān)的基因特征的聚類分析和驗(yàn)證
基于PNI相關(guān)的44個基因組的轉(zhuǎn)錄水平的無監(jiān)督系統(tǒng)聚類證實(shí)了兩個主要的聚類A和B,后者細(xì)分為兩個亞聚類B1和B2,其中PNI+腫瘤在亞簇B2(圖2A)。在PNI相關(guān)上調(diào)和下調(diào)基因中,比較聚類A、B1和B2間的GSVA富集分?jǐn)?shù),顯示差異顯著(圖2B)。根據(jù)單變量Cox回歸模型,對來自TCGA-HNSC的具有注釋性PNI狀態(tài)的患者的5年OS、DSS和PFI進(jìn)行生存分析,顯示通過PNI相關(guān)的44基因特征分類的OS、DSS和PFI與通過病理性PNI狀態(tài)分層相似(圖2C)??傊cPNI相關(guān)的44個基因特征使得具有注釋的PNI狀態(tài)的TCGA-HNSC隊(duì)列能夠分層,并且在分子層面定義為具有不同臨床特征和預(yù)后的群體。為了證實(shí)PNI相關(guān)的44基因標(biāo)記與臨床特征及其預(yù)后價(jià)值之間的聯(lián)系,在沒有PNI狀態(tài)注釋的TCGA-HNSC隊(duì)列驗(yàn)證了其表達(dá)模式,無監(jiān)督的分級聚類顯示了驗(yàn)證隊(duì)列被分層為與訓(xùn)練隊(duì)列類似的聚類A和子聚類B1和B2(圖3A)。并且驗(yàn)證隊(duì)列中的KM曲線顯示,A/B1組和B2組間的OS和PFI存在顯著差異(圖3B)。


?圖2?基于PNI相關(guān)基因特征的聚類分析

?圖3?PNI相關(guān)的基因特征的分類效果和預(yù)后價(jià)值驗(yàn)證
3. PNI相關(guān)的基因特征的單細(xì)胞分析
作者GSE103322數(shù)據(jù)集和TISCH2在線工具分析PNI相關(guān)的44個基因特征在不同類型細(xì)胞中的表達(dá)情況(圖4A)。分析顯示,PNI相關(guān)的44基因標(biāo)記的37個下調(diào)基因(包括CDKN2A)和7個上調(diào)基因(包括IFNK)主要在惡性細(xì)胞的不同亞群中表達(dá),而在基質(zhì)細(xì)胞(包括成纖維細(xì)胞)中的表達(dá)值明顯較低,在免疫細(xì)胞中幾乎檢測不到(圖4A,B)。?

圖4 PNI相關(guān)的基因特征的單細(xì)胞分析
4. PNI相關(guān)機(jī)器學(xué)習(xí)模型的建立
將有PNI狀態(tài)注釋的TCGA-HNSC隊(duì)列分成訓(xùn)練(80%)和測試(20%)數(shù)據(jù)集,并且聚類A(PNI-富集)與子聚類B2(PNI+富集)?被選為單個機(jī)器學(xué)習(xí)模型訓(xùn)練的類別?;?/span>PNI相關(guān)的44基因特征表達(dá)建立機(jī)器學(xué)習(xí)(ML)?分類模型,比較了三種常用的分類模型(隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)和邏輯回歸)的預(yù)測性能,最終選擇了與其他兩個模型相比性能稍好的隨機(jī)森林模型,用于進(jìn)一步分析(圖5A, B)。基于隨機(jī)森林模型,TCGA-HNSC腫瘤被分為ML A(富含PNI)和ML B2(富含PNI+)(圖5 C)。生存分析顯示,ML B2分類的HNSCC表現(xiàn)出不利的OS、DSS和PFI(圖5D)。最后利用CDSA中的HE染色圖片證實(shí)了臨床上PNI注釋的腫瘤和沒有PNI注釋的腫瘤中PNI的存在,其通過隨機(jī)森林模型預(yù)測為ML B2(圖5E),也就說明隨機(jī)森林分類器能夠識別HNSCC的隱匿性PNI。



圖5 機(jī)器學(xué)習(xí)分類模型的建立
5.?ML A和ML B腫瘤之間突變景觀、DNA甲基化和免疫浸潤分析
作者分析了ML A和ML B腫瘤之間的突變景觀和全局DNA甲基化。CNAs分析顯示,與TCGA-HNSC的ML B2相比,ML A的CNAs改變分?jǐn)?shù)顯著增加(圖6A),并確定了拷貝數(shù)增加或減少的不同熱點(diǎn)區(qū)域(圖6B)。突變分析顯示,ML A HNSCC的總體細(xì)胞突變計(jì)數(shù)明顯高于ML B2(圖6C),并且?guī)讉€MutSig基因顯示出兩組間體細(xì)胞突變頻率的顯著差異(圖6D)。然后又分析了TCGA-HNSC的DNA甲基化模式,結(jié)果顯示,與ML B2腫瘤相比,ML A的總體β平均值顯著降低(圖6F)。最后,利用xCell、CIBERSORTx和Kassandra分析ML A和ML B2腫瘤中的免疫細(xì)胞浸潤情況,發(fā)現(xiàn)ML A中的B細(xì)胞和T細(xì)胞的數(shù)量顯著更高(圖6G)。(ps:突變分析、甲基化分析、免疫浸潤分析也可以用云生信平臺分析工具實(shí)現(xiàn)哦,云生信分析工具平臺包含超多零代碼小工具,上傳數(shù)據(jù)一鍵出圖,網(wǎng)址:http://www.biocloudservice.com/home.html,歡迎朋友們來探索~?~)




圖6 ML A和ML B腫瘤之間突變景觀、DNA甲基化和免疫浸潤分析
文章小結(jié)
這個文章從HNSC的疾病特征“周圍神經(jīng)侵犯PNI”切入進(jìn)行分析,分析中應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行模型構(gòu)建、單細(xì)胞數(shù)據(jù)分析、多組學(xué)分析和病理數(shù)據(jù)驗(yàn)證,相當(dāng)豐富,所以創(chuàng)新性也很高。僅用45天就接收的6分+純生信,文章性價(jià)比也很高!并且這種在疾病上深入分析的文章不容易思路撞車,所以想做創(chuàng)新性分析的小伙伴,不要猶豫啦,用上這個思路行動起來吧!
