4張圖拿下12分+純生信?新方向“病毒感染診斷”發(fā)文就是厲害!
“三陽”又來了,小伙伴們是不是又被朋友圈、小紅書里的“三陽”刷屏了? 經(jīng)歷過一場“新冠全民戰(zhàn)”后,關(guān)注度達到了一個新高度,這也體現(xiàn)在科研數(shù)量上,“新冠”成為了今年的生信科研熱點。但隨著新冠相關(guān)生信文章的爆發(fā)式增長,發(fā)文難度也隨之變大,再想用老套路法高分可就不行了,這就提醒我們:要創(chuàng)新?。?!
怎么創(chuàng)新呢?小云給你支支招:
1)選題方向定位于“新冠”?,但分析方向選擇“臨床數(shù)據(jù)庫分析”或“孟德爾隨機化”,抱上這倆大腿不愁發(fā)高分文章;2)開拓視野,從單一“新冠”擴展到“病毒類”疾病,從選題上創(chuàng)造優(yōu)勢!
今天小云就針對第2招,分享一個文章實例
(ps:想看第1招文章應(yīng)用的朋友,可以關(guān)注小云,文章分享下期就來,敬請期待哦)
:文章基于10個獨立隊列,建立了一個由33-mRNAs構(gòu)成的病毒感染診斷模型,并利用單細胞數(shù)據(jù)、機器學(xué)習(xí)算法進行進一步分析。其分析方法并不難,但依靠“病毒感染診斷”這個新方向和大隊列分析,僅憑4張圖就拿下了12分+的純生信,不得不感嘆性價比之高??!下面就來具體看看~
l?題目:使用33種宿主免疫反應(yīng)mRNAs的機器學(xué)習(xí)分類器準(zhǔn)確區(qū)分鼻拭子樣本中的病毒性和非病毒性急性呼吸道疾病 l?雜志:
Genome Medicine
l?影響因子:IF=12.3008 l?發(fā)表時間:2023年8月
研究背景
病毒性急性呼吸系統(tǒng)疾病(病毒性ARI)在世界范圍內(nèi)對人類發(fā)病率和死亡率有顯著影響,但因其與非病毒性ARI的臨床表現(xiàn)重疊而使得診斷變復(fù)雜,所以它們的成功治療需要及時診斷病毒病原學(xué)。二十一世紀(jì)迄今為止的多次大流行進一步凸顯了有效監(jiān)測臨床相關(guān)新興病毒的需求未得到滿足。最近的研究已經(jīng)確定了血液和鼻腔樣本中對病毒感染的保守宿主反應(yīng),因此可以基于宿主反應(yīng)的基因標(biāo)記,對呼吸道病毒感染進行鑒定。
數(shù)據(jù)來源
該研究納入了10個獨立隊列,包括來自病毒性ARI受試者和對照受試者的鼻樣本,對照樣本來自健康供體或ARI康復(fù)受試者以及非病毒性呼吸道疾病受試者。前6個數(shù)據(jù)集作為發(fā)現(xiàn)隊列,后4個隊列作為驗證隊列。
研究流程
首先在6個發(fā)現(xiàn)隊列中利用 Hedges'g 計算了病例(病毒性 ARI 樣本)和對照中每個基因的效應(yīng)大小 (ES),并根據(jù)ES閾值和FDR值篩選差異表達基因。然后使用前向搜索方法減少用于最終模型的基因數(shù)量,確定了一個33-mRNAs特征。隨后,利用2個單細胞數(shù)據(jù)集分析33-mRNA標(biāo)記分數(shù)的細胞分布。最后利用IML機器學(xué)習(xí)平臺基于33個mRNAs開發(fā)和訓(xùn)練邏輯回歸(LOGR)模型來提高33-mRNA標(biāo)記的普適性。
1. 差異表達基因的獲得
在6個發(fā)現(xiàn)數(shù)據(jù)集中使用MetaIntegrator進行差異基因分析,與健康對照(HC)患者相比,病毒性ARI患者的鼻拭子中有328個差異表達基因(|ES|≥ 0.6,F(xiàn)DR ≤ 10%)。在這328個基因中,有119個基因在發(fā)現(xiàn)和驗證隊列中以相同方向進行了差異表達(圖1B,?C)。在訓(xùn)練和驗證數(shù)據(jù)集之間具有高度相關(guān)的效應(yīng)大小(圖1D)。針對119個基因進行GO富集分析,這些基因參與了與宿主對病毒感染的反應(yīng)相關(guān)的途徑(圖1E)。
2. 33-mRNA宿主反應(yīng)特征的建立和單細胞分析
作者利用前向搜索方法減少用于最終模型的基因數(shù)量,最終從119個基因中確定了一個33-mRNA特征(24個高表達,9個低表達),并通過使用最終基因簽名中上調(diào)基因的表達減去下調(diào)基因表達的幾何平均值,計算樣本的33-mRNA特征評分。然后基于2個單細胞數(shù)據(jù)集(SCP1289和GSE176269)對33-mRNA特征評分的細胞分布進行了分析。將單細胞數(shù)據(jù)根據(jù)細胞類型(圖5A)、感染狀態(tài)(圖2B)、感染嚴重性(圖2C)和33-mRNA特征評分(圖2D)的分布進行了UMAP可視化,發(fā)現(xiàn)巨噬細胞和中性粒細胞得分最高(圖2D)。比較HC和病毒性ARI患者中的巨噬細胞和中性粒細胞比例,發(fā)現(xiàn)巨噬細胞的比例隨著病毒性ARI的嚴重程度而增加(圖2E),但是在單細胞水平上的33-mRNA評分和病毒性ARI的嚴重程度之間沒有聯(lián)系(圖2F, G),進一步表明33-mRNA評分的增加是由于呼吸道中巨噬細胞比例的變化。
3. 33-mRNA評分的區(qū)分能力驗證
在兒童和成人患者的發(fā)現(xiàn)和驗證數(shù)據(jù)集中比較病毒性ARI患者與對照間的33-mRNA評分差異,發(fā)現(xiàn)病毒性ARI患者的樣本水平33-mRNA評分顯著高于HCs患者和非病毒性ARI患者(圖3A)。接下來研究年齡、病毒類型和病毒載量是否對33-mRNA信號有影響,結(jié)果發(fā)現(xiàn),兒童和成人病毒性ARI患者的33-mRNA評分沒有差異(圖3A),沒有觀察到病毒類型對33-mRNA評分的顯著影響(圖3B),而高病毒載量患者的33-mRNA評分明顯高于低病毒載量患者(圖3C, D)。這些結(jié)果表明,33-mRNA不受病毒類型的影響,并與呼吸道中的病毒載量相關(guān)。
4. 33-mRNA邏輯回歸分類器的構(gòu)建
為了提高33-mRNA特征的穩(wěn)定性和普適性,作者利用IML機器學(xué)習(xí)平臺使用發(fā)現(xiàn)數(shù)據(jù)集開發(fā)一個基于邏輯回歸(LOGR)的分類器,該分類器可以將病毒性ARI患者從健康對照人群中區(qū)分出來。利用ROC曲線評估預(yù)測性能,顯示綜合AUC值為0.94,說明區(qū)分能力優(yōu)異(圖4)。隨后又在驗證隊列中進行模型驗證,AUC值為0.89,說明區(qū)分能力也良好(圖4)。
文章小結(jié)
思路看完了,有沒有感覺掌握技巧發(fā)文就是這么簡單?這篇文章得益于“病毒感染診斷”的創(chuàng)新選題,多隊列和多種數(shù)據(jù)的應(yīng)用,僅憑4張圖就拿下了12分+的純生信?。∧壳安《痉较蜃鲞@類思路的還很少,想發(fā)高分的朋友,可以出手啦!?