8+非腫瘤分析,WGCNA+機器學(xué)習(xí)篩選相關(guān)基因
今天給同學(xué)們分享一篇非腫瘤+WGCAN+機器學(xué)習(xí)的生信文章“Identification and validation of immune and oxidative stress-related diagnostic markers for diabetic nephropathy by WGCNA and machine learning”,這篇文章于2023年2月22日發(fā)表在Front Immunol期刊上,影響因子為8.786。
糖尿病腎?。―N)以蛋白尿、高血壓和腎功能逐漸減退為特征,在發(fā)達國家是終末期腎臟疾病最常見的原因,也給社會和經(jīng)濟帶來了嚴(yán)重負(fù)擔(dān)。研究表明,隨著全球糖尿病患病率的上升,患有DN的人數(shù)也在增加,預(yù)計在未來20年左右,糖尿病患者將從5.37億增加到7.83億。然而,目前的治療方法主要側(cè)重于腎素-血管緊張素系統(tǒng)的阻斷、血壓管理和血糖控制。因此,迫切需要尋找糖尿病腎病診斷和治療的新靶點。隨著生物信息學(xué)的進步,近年來其研究技術(shù)已經(jīng)廣泛應(yīng)用于探索多種疾病的靶點,包括糖尿病腎病。
圖1 流程圖
1. 差異表達基因的鑒定
從GSE30528中獲得了1696個差異表達基因(DEGs),并從Genecard數(shù)據(jù)庫中挖掘出了另外855個與氧化應(yīng)激相關(guān)的基因。通過對這兩者的交集,生成了111個差異表達氧化應(yīng)激基因(DEOSGs)(圖2A-C)。
圖2 篩選差異表達基因(DEGs)
2. 免疫浸潤分析和加權(quán)基因共表達網(wǎng)絡(luò)的構(gòu)建
使用CIBERSORT算法,證明了五種免疫細胞類型在DN和對照樣本中是可比較的,包括T細胞CD4初級、T細胞γδ、靜息NK細胞、靜息樹突狀細胞和靜息肥大細胞(圖3A)。
圖3 免疫浸潤分析和加權(quán)基因共表達網(wǎng)絡(luò)的構(gòu)建
在這項研究中,軟閾值功率被校準(zhǔn)為14(無標(biāo)度R 2 = 0.85)(圖3B)。最后,WGCNA分析揭示了11個模塊的總和(圖3C)。特別是,綠色模塊和品紅色模塊與T細胞CD4幼稚和γδ亞群呈強正相關(guān)。由于它們與免疫浸潤細胞的關(guān)聯(lián)顯著,綠色和品紅色模塊被視為額外調(diào)查的對象。
3. DEIOSG的獲取和功能豐富性分析
DEIOSGs是與WGCNA生成的品紅色和綠色模塊重疊的基因,共鑒定出24個DEIOSGs(圖4A)
圖4 DEIOSG的獲取和功能豐富性分析
此外,作者通過GO和KEGG對24個差異表達的內(nèi)源性氧化應(yīng)激基因(DEIOSGs)進行了功能富集分析。在BP評估中,DEIOSGs主要參與超氧化物代謝過程、中性粒細胞激活等功能。在CC中,DEIOSGs定位于質(zhì)膜外側(cè)、內(nèi)吞泡等結(jié)構(gòu)。與MF相關(guān)的DEIOSG變化包括酰胺結(jié)合、整合素結(jié)合和超氧化物生成的NAD(P)H氧化酶活性(圖4B)。根據(jù)KEGG分析,DEIOSGs在白細胞經(jīng)內(nèi)皮遷移、中性粒細胞外細胞陷阱形成、脂質(zhì)和動脈粥樣硬化、糖尿病心肌病、自然殺傷細胞介導(dǎo)的細胞毒作用等通路中特別豐富(圖4C、D)。
4. 通過機器學(xué)習(xí)和蛋白質(zhì)相互作用網(wǎng)絡(luò)篩選中心基因
首先,使用LASSO回歸算法從DEIOSGs中提取了6個基因(圖5A)。其次,SVM-RFE算法確定了6個基因(圖5B)。然后,RF算法選擇了7個基因(圖5C)。隨后,通過Venn圖將這三個基因重疊,最終得到了兩個基因,即CD36和SLC1A3(圖5D)。同時,通過PPI網(wǎng)絡(luò),作者通過cytoHubba插件獲得了一個基因,即ITGB2(圖6A,B)。最后,通過這兩種方法共同確定了3個中心基因,所有這些基因都上調(diào)表達。
圖5 通過機器學(xué)習(xí)篩選核心基因
圖6 通過蛋白質(zhì)相互作用網(wǎng)絡(luò)篩選關(guān)鍵基因
5. 表達中心基因和外部數(shù)據(jù)集的驗證
與正常對照樣本相比,作者在GSE30528數(shù)據(jù)集中發(fā)現(xiàn)這些基因在DN中的表達更高(圖7A-C)。作者接下來使用另一個數(shù)據(jù)集確認(rèn)了這些基因的表達情況,結(jié)果顯示在GSE104948中,這些基因在DN中的表達也比對照組更強,并且它們在統(tǒng)計學(xué)上都具有顯著性(圖7D-F)。
圖7 表達中心基因并驗證外部數(shù)據(jù)集
6. ROC分析
為了探索這3個中心基因的診斷效能,作者進行了ROC曲線分析,其中AUC值大于0.7的中心基因被用作診斷標(biāo)記。在GSE30528數(shù)據(jù)集中,CD36的AUC值為0.8215,SLC1A3的AUC值為0.9402,ITGB2的AUC值為0.9060(圖8A-C)。
圖8 ROC曲線分析
在GSE104948數(shù)據(jù)集中,CD36的AUC值為1.000(95% CI: 1.000-1.000),SLC1A3的AUC值為0.7937(95% CI: 0.5244-1.000),ITGB2的AUC值為0.9921(95% CI: 0.9669-1.000)(圖8D-F)。
7. GSEA分析
根據(jù)GSEA的研究結(jié)果,CD36高表達組在原發(fā)性免疫缺陷和病毒蛋白與細胞因子及細胞因子受體的相互作用方面富集(圖9A)。ITGB2高表達組主要集中在檸檬酸循環(huán)(TCA循環(huán))和蛋白酶體(圖9B)。移植物排斥、原發(fā)性免疫缺陷和系統(tǒng)性紅斑狼瘡都與SLC1A3表達增加有關(guān)(圖9C)。
圖9
8. 臨床分析
在DN患者中,相關(guān)性分析顯示CD36表達與腎小球濾過率(GFR)呈負(fù)相關(guān)(r = -0.860,p < 0.001),CD36表達與血清肌酐呈正相關(guān)(r = 0.887,p < 0.001)(圖10A、B)。ITGB2表達與腎小球濾過率(GFR)呈負(fù)相關(guān)(r = -0.2031,p = 0.6002),但差異無統(tǒng)計學(xué)意義,而ITGB2表達與血清肌酐呈正相關(guān)(r = 0.5590,p = 0.020)(圖10C、D)。
圖10 相關(guān)性分析
9. 轉(zhuǎn)錄調(diào)控構(gòu)建和潛在藥物預(yù)測
使用JASPAR數(shù)據(jù)庫,最終獲得了31個轉(zhuǎn)錄因子(TFs),其中有9個轉(zhuǎn)錄因子的度≥2,它們是FOXC1,F(xiàn)OXL1,YY1,PPARG,STAT3,HINFP,MAX,USF1,USF2(圖11A)。通過TarBase數(shù)據(jù)庫預(yù)測了可能的miRNA,其中有10個miRNA的度≥2(圖11B)。
圖11 調(diào)控網(wǎng)絡(luò)
在DSigDB數(shù)據(jù)庫中篩選了87個潛在的治療藥物,篩選標(biāo)準(zhǔn)為調(diào)整后的p值<0.05。
10. 單細胞RNA測序
通過單細胞RNA測序,作者確定了CD36、ITGB2和SLC1A3在12個細胞群中的分布(圖12A),其中CD36主要分布在內(nèi)皮細胞中,而ITGB2和SLC1A3在白細胞中高度表達(圖12B-D)。
圖12 單核RNA測序
總結(jié)
總之,通過將三種機器學(xué)習(xí)算法與WGCNA分析相結(jié)合,本研究確定了三個中心基因,這些基因可能成為DN診斷和治療的新靶點。