用于預測乳腺癌存活率的新型糖酵解相關基因特征的鑒定

Identification of a Novel Glycolysis-Related Gene Signature for Predicting Breast Cancer Survival
摘要:
為了確定用于評估乳腺癌患者預后的糖酵解相關基因特征,我們分析了來自 TCGA 數據庫的訓練集和來自 GEO 和 ICGC 數據庫的四個驗證隊列的數據,其中包括 1,632 名乳腺癌患者。我們進行了 GSEA、單變量 Cox 回歸、LASSO 和多重 Cox 回歸分析。最后,一個 11?-開發(fā)了與糖酵解相關的基因特征,用于預測乳腺癌患者的存活率。Kaplan-Meier 分析和 ROC 分析表明,該特征在 TCGA、ICGC 和 GEO 數據集中顯示出良好的 BC 預后能力。單變量Cox回歸和多變量Cox回歸分析表明,它是獨立于多種臨床特征的重要預后因素。此外,構建了一個結合患者基因特征和臨床特征的預后列線圖。這些發(fā)現為識別預后不良的乳腺癌患者提供了見解。
關鍵詞:生物信息學,乳腺癌,糖酵解,預后特征,癌癥基因組圖譜
結果
使用基因集富集分析初步篩選基因
我們獲得了一個數據集,其中包含 1,057 名 BC 患者和 112 名正常對照的臨床信息以及來自 TCGA 的 24,991 個 mRNA 表達水平的數據。下載了5個糖酵解相關的MSigDB 6.2版基因集,共獲得443個基因。我們使用上述數據和 GSEA 來驗證哪些基因組在 BC 組織和匹配的相鄰正常組織之間具有顯著差異。結果表明,四個顯著富集的基因組,標準化 P 值 <0.05,來自以下途徑:BIOCARTA_GLYCOLYSIS_PATHWAY、GO_GLYCOLYTIC_PROCESS、HALLMARK_GLYCOLYSIS 和 REACTOME_GLYCOLYSIS(表 2,圖1)。從這四個基因組中選擇相應的 381 個基因進行后續(xù)分析。


通過執(zhí)行 GSEA 對正常組織和 BC 組織之間具有顯著差異的五個基因集進行富集圖。
糖酵解相關風險特征的構建與評價
我們進行了單變量 Cox 回歸分析以分析 GSEA 后的 381 個基因。最后,使用 LASSO 和多變量 Cox 過濾后,共有 11 個基因(PGK1、SDC1、NUP43、NT5E、IL13RA1、GCLC、CACNA1H、P4HA1、TSTA3、MXI1和STC1)與 OS 顯著相關(調整后 P < 0.05)回歸分析(圖 2)。建立基于基因的預后模型以評估每位患者的生存風險,如下所示:風險評分 = 0.00710 × PGK1 表達 +?0.00187?×?SDC1表達 + 0.05107 ×?NUP43表達 + 0.05599 ×?NT5E表達+ 0.00587 ×?IL13RA1?+ 0.05692 ×?GCLC的表達 + 0.01385 ×?CACNA1H的表達+ (-0.00535) ×?P4HA1的表達 + 0.011698 × TSTA3 的表達+ 0.026129 ×?MXI1的表達+ 0.00305 ×?STC1的表達.?然后,我們分析了 cBioPortal 數據庫中 TCGA BC 樣本中這 11 個選定基因的突變狀態(tài)。圖 S1A顯示了 11 個基因的變化。我們還對相鄰正常和 BC 組織中 11 個基因的表達進行了差異分析。11 個基因在腫瘤組織中均顯著上調(P < 0.05,圖 S1B)。

GRGs 選擇使用 LASSO 模型和多變量 Cox 模型。(A) LASSO 模型中 326 個 GRG 系數的十倍交叉驗證。(B) 21 個選定 GRG 的 X-tile 分析。(C)森林圖說明了 11-GRG 風險特征中每個基因的多變量 Cox 模型結果。
我們根據 11 基因特征計算了訓練集中每位患者的風險評分。高風險評分患者的死亡率高于低風險評分患者(P < 0.0001,時序檢驗)(圖 3A)。1 年、3 年和 5 年 OS 的曲線下面積 (AUC) 值分別為 0.719、0.762 和 0.742(圖 3B)。圖 3C、D顯示訓練集中 BC 患者的風險評分等級分布和生存狀態(tài)。高/低風險組中 11 個 GRGs 的表達模式顯示在熱圖中(圖 3E)。為了評估 11-GRG 簽名的穩(wěn)健性,我們使用來自 ICGC 和 GEO 數據庫的驗證隊列評估其性能。與之前的分析相似,高危亞組患者的生存率低于低危組(P < 0.05;圖 4Aa–Da)。ICGC 隊列的 1 年、3 年和 5 年 AUC 值分別為 0.782、0.79 和 0.675(圖 4Ab),在GSE42568隊列中分別為 0.683、0.723 和 0.752 (圖 4Bb)。在GSE7390隊列中,OS 的 AUC 在 1 年時為 0.715,在 3 年時為 0.701 在 5 年時為 0.76 (圖 4Cb),在GSE58812隊列中,1 年為 0.711,3 年為 0.822,5 年為 0.795?(圖 4Db)。

TCGA 隊列中的 KM 生存分析、GRG 相關基因特征和時間依賴性 ROC 曲線的風險評分評估。(A)高風險和低風險樣本的知識管理生存分析。(B)訓練集總體存活率的 ROC 曲線。在 1、3 和 5 年評估 AUC。(C)風險評分分布,(D),生存狀態(tài),和(E)。11-GRG 特征對高風險和低風險組患者的 11 種 GRGs 表達模式。

ICGC 和 GEO 隊列中的 KM 生存分析和時間依賴性 ROC 曲線。(A) (ICGC), (B) a ( GSE42568 ), (C) a ( GSE7390 ), (D) a ( GSE58812 ), 用雙邊對數秩檢驗進行 Kaplan-Meier 分析以估計在低風險和高風險組患者之間的 OS。(A) b (ICGC), (B) b ( GSE42568 ), (C) b ( GSE7390 ), (D) b ( GSE58812),8-GRG 特征的 1 年、3 年和 5 年 ROC 曲線用于證明預測 BC 患者 OS 的敏感性和特異性。
列線圖的建立和評估
進行單變量分析以檢查幾種臨床病理學特征(年齡、病理分期、ER、PR 和 HER2)的預后價值。因此,11-GRG 風險特征與 OS 相關(風險比 [HR] = 1.178;95% 置信區(qū)間 [CI],1.128-1.231,P < 0.001)(表3)。并且年齡>60,(HR = 1.047;95% CI,1.030-1.064,P < 0.001),高病理分期(III/IV)(HR = 2.022;95% CI,1.541-2.654,P < 0.001)也是BC 的危險因素。此外,多變量分析后,結果顯示風險評分(HR = 1.136;95% CI,1.083-1.191)、年齡(HR = 1.047;95% CI,1.030-1.065)和分期(HR = 1.986;95 % CI,1.522-2.591)仍然是獨立的預后因素,調整后的 P 值 <0.001。此外,ROC 分析顯示 11 基因特征的敏感性和特異性高于其他臨床病理學特征。圖 5A)。此外,基因風險模型被證明是 BC 生存預測的競爭性預后因素。這些結果表明,該特征可以成為預測 BC 患者 OS 的有希望的預后指標。為了開發(fā)一種可以預測 BC 患者 OS 的定量方法,構建了列線圖。預測因素包括風險評分、年齡和腫瘤分期,在多變量 Cox 分析中產生顯著的 P 值(圖 5B)。C-index (0.812)、AUC (1-year, 0.836; 3-year, 0.767 and 5-year, 0.792) 和校準圖的結果顯示列線圖預測的準確度很高(圖 5C、D)?.


具有臨床特征的 BC 患者的臨床特征和風險模型、列線圖和 Kaplan-Meier 生存分析的 ROC 曲線:(A)關于單一臨床特征和風險模型的時間依賴性 ROC 曲線。(B)用于預測 BC 患者總體生存概率的列線圖。(C)列線圖的 1 年、3 年和 5 年 ROC 曲線。(D)分別為 1 年、3 年和 5 年的列線圖校準曲線。具有不同臨床特征的 BC 患者的 Kaplan-Meier 生存分析可以預測患者生存(E、年齡、F、階段)。
數據分層分析
OS的單變量Cox回歸分析結果表明,年齡和分期可以有效預測BC患者的生存。Kaplan-Meier 曲線顯示臨床特征和結果是一致的。年齡超過 60 歲且患有 III-IV 期疾病的 BC 患者與預后不良相關(圖 5E、F)?.?在 TCGA 隊列中,根據臨床病理變量(年齡、腫瘤分期、T/M/N 分期、ER 狀態(tài)、PR 狀態(tài)、HER2 狀態(tài)和輔助化療)進行亞組分析。根據 Kaplan-Meier 曲線,在按年齡、腫瘤分期、T/N 分期、ER 狀態(tài)、PR 狀態(tài)、HER2 狀態(tài)和輔助化療(否/是)分層的 BC 患者中,風險評分保持穩(wěn)定的預后因素 (圖 6A-D,F-I)。然而,風險評分在亞組或按轉移階段分層的患者中發(fā)揮不同的作用。在無遠端轉移的亞組中,高危組的 OS 顯著短于低危組(P < 0.001),而有遠端轉移的兩組間差異無統(tǒng)計學意義(P = 0.324) (圖 6E)。該結果表明,風險模型對沒有轉移的 BC 患者的臨床結果具有比遠端轉移患者更好的預測價值,并且需要更多證據和更大的隊列進行進一步驗證。

根據臨床特征分層的 GRG 相關基因特征對所有 BC 患者進行 KM 生存亞組分析。(A) 年齡 <60 歲,年齡 >=60 歲。(B)早期(I-II 階段),晚期(III-IV 階段)。C,T1-2,T3-4。(D)淋巴結陰性患者、淋巴結陽性患者。(E)沒有遠端轉移的患者,有遠端轉移的患者。(F) ER 陰性患者、ER 陽性患者。(G) PR 陰性患者、PR 陽性患者。(H) HER2陰性患者、HER2陽性患者。(一世)無輔助治療,輔助治療。GRGs,糖酵解相關基因;BC,乳腺癌;ER,雌激素受體;PR,孕激素受體;HER2,人類表皮生長因子 2。
與其他預后特征的比較
將我們的列線圖和簽名與其他已知的預后標志進行了比較。為了排除異質性的影響,所有這些基于 TCGA 數據庫開發(fā)的標志都包括在內。考慮到我們的研究是基于所有類型的 BC 并且使用總 TCGA BC 隊列作為訓練集,因此我們進一步排除了針對特定 BC 亞型(42-44)的模型構建的研究以及TCGA隊列被隨機劃分的研究進入訓練和測試集(45、46)。最后,納入了 15 個相關的預后特征,以與我們的基因特征和列線圖進行比較(表 4)。我們研究中簽名和列線圖在 1 年、3 年和 5 年的 AUC 分別為 0.719、0.762、0.742 和 0.836、0.767、0.792。表 4顯示四個預后特征的 AUC,包括 12 個干性相關 lncRNA 特征(5 年時為 0.813)(47)、11 個免疫相關 lncRNA 特征(5 年時為 0.836)(52)、27 個免疫相關基因特征(0.844 在5 年)(54)和四個甲基化基因特征(5 年時為 0.791)(61)明顯高于其他生物標志物。此外,我們的簽名在預測 BC 患者的 OS 方面也比基于與自噬 (?48?)、腫瘤微環(huán)境(免疫、基質和增殖)(?49?)、腫瘤突變負荷 (?50?)、缺氧 (?51?), DNA 修復 (55?)、lncRNA (?56?)和 miRNA (?57、58?)?。生物標志物的 AUC 值越大,標志物的預測能力就越好。這清楚地表明,我們的列線圖和 GRG 簽名在預測 BC 患者 OS 的四個高質量模型之后優(yōu)于其他模型。

討論
BC 是全世界惡性腫瘤和女性癌癥相關死亡的最常見原因 (?6?,?62?)。由于其表型和分子多樣性,很難預測 BC 的預后。預后模型的應用有助于指導臨床決策,對精準醫(yī)療至關重要。亞型識別、風險分層和潛在機制的表征對于改進現有治療方法、開發(fā)更精確和個性化的療法以及延長生存時間至關重要。糖酵解是一個多步驟的酶促反應,被認為是癌癥發(fā)生和發(fā)展的根源(63)。由于越來越多的研究已經確定了 GRG 的預后標志物,因此必須建立基于 GRG 的風險特征來預測 BC 患者的生存率,以提高預后的準確性。
GSEA是一種評估全基因組表達譜芯片數據的方法,可以整合不同層次和來源的數據。在本研究中,GSEA 是使用 1,096 名 BC 患者的 mRNA 表達譜數據進行的。四個 P 值 <0.05 的基因組表現出顯著差異,并被選擇用于后續(xù)分析。進行單變量、多變量 Cox 和 LASSO 回歸分析以確定 BC 患者的 11 個預后基因?;?11 個最有價值的生物標志物,我們開發(fā)并驗證了一個有效的模型來預測 BC 患者的臨床結果。生存分析顯示高危和低危 BC 患者的預后明顯不同。該模型還在 GEO 和 ICGC 數據集中得到驗證,顯示出良好的臨床預測能力。此外,BC 患者的預測模型可以通過多變量 Cox 分析作為獨立的預后工具。我們還發(fā)現,在我們的預測模型中風險評分較高的患者往往年齡較大、疾病晚期且預后較差。與傳統(tǒng)臨床因素相比,我們研究中的預測模型具有相似或更好的臨床應用潛力。此外,我們整合了預測模型和臨床特征,建立了一個新的列線圖。列線圖利用了臨床特征和預測模型的互補值,并提供了更好的 OS 估計。結果表明,C-index、ROC 和校準圖在我們的研究中表現良好。此外,基因特征可以進一步對臨床定義的患者組進行分層(例如,根據年齡、分期、T/N/M 分期、ER 狀態(tài)、PR 狀態(tài)、HER2 狀態(tài)和輔助化學療法分層的組,分成具有不同生存結果的亞組。該風險模型可以有效預測所有亞組BC患者的預后,但不能應用于有遠端轉移的BC患者亞組。未來應深入探討這一結果的潛在機制。結果表明,風險評分的計算對BC患者具有重要的預后意義。這不僅增加了預測預后的手段,還可以幫助臨床醫(yī)生為患者選擇更合適的治療方案。
化療仍然是癌癥治療的重要途徑。化療藥物對腫瘤細胞的殺傷具有氧依賴性作用,大部分是通過氧化細胞內的自由基和活性氧來殺傷細胞。缺氧會顯著降低化療的效率(64)。Warburg 效應是癌細胞中的有氧糖酵解,已被發(fā)現與各種類型的人類癌癥的化療耐藥性有關 (?65?,?66?)。Warburg 效應促進表觀遺傳和遺傳變化,導致多種新細胞表型的出現,包括耐藥細胞的存在(67)。為了確認我們的簽名是否可以為接受輔助化療的患者的預后提供有效的預測方法,我們進行了亞組分析,結果表明風險模型可以有效預測接受和未接受輔助化療組的 BC 患者的預后.?這也顯示了我們模型的廣泛臨床應用。
為了進一步探索我們的列線圖的預測能力,對用于預測 BC 患者 OS 的幾個重要分子特征進行了比較。我們納入的研究(47、48、52、54、61?)是該模型是基于整個 TCGA 隊列構建的,涉及所有類型的乳腺癌,而不是某個亞型。最終結果表明,我們的特征和另外四個預后特征包括 12 個干性相關 lncRNA 特征(47)、11 個免疫相關 lncRNA 特征(52)、27 個免疫相關基因特征(54)和 4 個甲基化基因特征(61 )) 在預測 BC 患者的 OS 方面比基于自噬 (?48?)、腫瘤微環(huán)境(免疫、基質和增殖)(?49?)、腫瘤突變負荷 (?50?)、缺氧 (?51?)相關標志的特征表現更好, DNA 修復 (?55?), lncRNA (?56?) 和 miRNA (?57?,?58?)??紤]到我們模型的臨床應用成本可能低于兩種基因模型 [12 干性相關 lncRNA 特征 (?47?) 和 27 免疫相關基因特征 (?54)] 并且糖酵解與 BC 的預后密切相關,我們的簽名可能是豐富臨床預測方法所必需的。更重要的是,列線圖的 AUC 大于我們研究中特征的 AUC,這表明風險評分與臨床因素的結合在預測 BC 患者的 OS 方面比單獨的甲基化特征更有希望。
本研究確定的 11 個 GRG 包括PGK1、SDC1、NUP43、NT5E、IL13RA1、GCLC、CACNA1H、P4HA1、TSTA3、MXI1和STC1。在這些基因中,已確定PGK1 (磷酸甘油酸激酶 1)通過與 HIF-1α 形成正前饋環(huán)來促進 BC 進展和轉移。高PGK1表達預示著 BC 的不良預后 (?63?)。SDC1(syndecan-1) 是一種肝素細胞表面蛋白聚糖,可作為生長因子和趨化因子的共同受體 (?68?)。SDC1在 BC 組織中的高表達與侵襲性表型和不良臨床行為有關 (?69?)。Nup43(核孔蛋白 43 kDa)是 Nup107 160 復合物的穩(wěn)定成分,定位于有絲分裂的動粒并調節(jié)有絲分裂進程和染色體分離 (?70?)。NUP43的較高表達通常伴隨著 DNA 擴增,并且與 luminal A 和 HER2+ BC 中較差的 OS 有關 (?71?)。NT5E?(ecto-5-nucleotidase),也稱為CD73, 是一個有前景的預后因素,其高表達與 BC 患者的淋巴結轉移顯著相關 (?72?)。一項研究報告說,白細胞介素 13 和白細胞介素 13 受體 α 1 (IL13RA1) 之間的相互作用促進了癌細胞的生長和轉移,并且 IL13RA1 的表達與侵襲性 BC 患者的不良預后相關 (?73?)。膠原蛋白脯氨酰 4-羥化酶 α 1 (P4HA1) 是大多數細胞類型和組織中的主要異構體,它還可以增強大多數脯氨酰 4-羥化酶的活性 (?74?)。在 BC 的發(fā)展過程中,P4HA1表達被誘導 (?75?)。當P4HA?/?HIF?-?1軸被激活,癌細胞干性增強,而氧化磷酸化和活性氧的水平降低(76)。異常的糖基化促進了細胞的惡性轉化和腫瘤的發(fā)展,這取決于TSTA3基因功能(組織特異性移植抗原 P35B)(77)。TSTA3表達較高的 BC 患者的存活率較低 (?78?)。MYC 相關蛋白 X interactor-1 (MXI1) 是致癌 MYC 蛋白的拮抗劑,MXI1基因的缺失會導致多種人類癌癥 (?79?)。MXI1的低表達與 BC 患者的不良預后有關 (?80?)。斯鈣素-1 (STC1) 是一種分泌型糖蛋白,其高表達水平與 BC 中的腫瘤生長和轉移有關 (?81?)。然而,其他基因(GCLC和CACNA1H)首次被確定在 BC 患者中具有預后價值。有必要對這些基因在 BC 中的生物學功能進行更深入的研究。
據我們所知,我們的研究是第一個通過評估來自公共 TCGA 數據庫的數據來識別和全面分析預后 GRG 以預測 BC 患者生存的研究。此外,識別并驗證了基于 11 個 GRG 的新型風險特征。該特征可用作高風險患 BC 患者的篩查工具,并對患者進行分層以提高靶向治療的有效性。此外,我們成功地建立了一個結合臨床因素和分子標志物的 GRG 相關列線圖,以有效的定量方法預測 BC 患者的 OS。我們還分析了 cBioPortal 數據庫中 9 個選定基因的突變狀態(tài)。我們的研究不僅可以更好地了解BC的遺傳學,而且對指導未來的研究具有重要意義。
我們的研究存在一些局限性。首先,這是一項回顧性研究,所有 BC 患者均來自公共數據庫。其次,需要大規(guī)模的多中心隊列來驗證我們模型的預測性能并評估其臨床適用性以更好地管理 BC。此外,將需要在我們醫(yī)院進行未來的基礎實驗,以驗證我們的研究結果并闡明 GRGs 在 BC 的啟動和發(fā)展中的功能作用。此外,基因特征可能更有效地預測沒有遠端轉移的 BC 患者的生存率,其預后作用值得進一步評估。
結論
我們構建了一個有效、創(chuàng)新和可靠的 11-GRGs 預后模型(PGK1、SDC1、NUP43、NT5E、IL13RA1、GCLC、CACNA1H、P4HA1、TSTA3、MXI1和STC1)來預測 BC 患者的預后。我們的簽名是 BC 的一個獨立且重要的風險因素。此外,構建了結合預測模型和臨床因素的列線圖,可以作為預測預后和指導臨床實踐的有用工具。