最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

cox構(gòu)建預(yù)測模型(2):如何用R語言拆分?jǐn)?shù)據(jù)集并作均衡性檢驗(yàn)

2023-08-21 16:57 作者:風(fēng)暴統(tǒng)計  | 我要投稿

Cox回歸預(yù)測模型的基礎(chǔ)統(tǒng)計策略大致可以概括為“一表四圖”,即均衡性表、列線圖、校準(zhǔn)圖、ROC圖、DCA圖。

今天主要講解均衡性表的制作,在構(gòu)建預(yù)測模型時必須要有訓(xùn)練集與驗(yàn)證集,而驗(yàn)證集又分為內(nèi)部驗(yàn)證與外部驗(yàn)證,內(nèi)部驗(yàn)證是必須的。內(nèi)部驗(yàn)證集與訓(xùn)練集是由同一份數(shù)據(jù)拆分而成,訓(xùn)練集用于構(gòu)建模型,驗(yàn)證集用來后續(xù)測試模型的泛化能力。而均衡性表是用來比較訓(xùn)練集與驗(yàn)證集差異性的重要表格,也是預(yù)測模型文章中的基線表,通常需要兩個數(shù)據(jù)集無統(tǒng)計學(xué)差異。

本文將以復(fù)現(xiàn)一篇seer公共數(shù)據(jù)庫文章(Q1 IF=5.2)為例,說明預(yù)測模型中均衡性表格的繪制過程,除了R語言,本文還會介紹一種更為快捷便利的統(tǒng)計分析方法——風(fēng)暴統(tǒng)計,可以一站式提供眾多統(tǒng)計分析方法,比SPSS智能,比R語言簡潔!


主要內(nèi)容包括:

一、文獻(xiàn)解讀

二、利用R語言復(fù)現(xiàn)

三、利用在線網(wǎng)站復(fù)現(xiàn)

四、小結(jié)

一、文獻(xiàn)解讀

案例文獻(xiàn)是沈陽醫(yī)學(xué)院公共衛(wèi)生學(xué)院學(xué)者基于SEER數(shù)據(jù)庫的一項回顧性研究,旨在建立一個列線圖來預(yù)測老年惡性骨腫瘤(MBT)患者的總生存期(OS)。


1. 摘要

背景:惡性骨腫瘤(MBT)是老年患者死亡的原因之一。我們研究的目的是建立一個列線圖來預(yù)測老年MBT患者的總生存期(OS)。

方法:從SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險因素。基于這些危險因素構(gòu)建列線圖,以預(yù)測老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來評價預(yù)測模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應(yīng)用價值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險組和低風(fēng)險組。Kaplan-Meier(K-M)曲線用于測試兩名患者之間的生存差異。

結(jié)果:從SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險因素?;谶@些危險因素構(gòu)建列線圖,以預(yù)測老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來評價預(yù)測模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應(yīng)用價值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險組和低風(fēng)險組。Kaplan-Meier(K-M)曲線用于測試兩名患者之間的生存差異。

結(jié)論:我們建立了一個新的列線圖來預(yù)測老年MBT患者的1年,3年,5年的OS。該預(yù)測模型可以幫助醫(yī)生和患者制定治療計劃和后續(xù)策略。

2. 數(shù)據(jù)介紹

文獻(xiàn)共納入1641名2004-2018診斷的老年MBT患者的臨床病理數(shù)據(jù)。暴露因素包括年齡、種族、性別、診斷年份、組織學(xué)類型、分級、分期、原發(fā)位置、TNM分期、腫瘤大小、是否化療、是否放療及手術(shù)方式。


3.研究結(jié)果

這篇文獻(xiàn)構(gòu)建Cox回歸預(yù)測模型的統(tǒng)計思路十分清晰。首先按照7:3將數(shù)據(jù)集進(jìn)行拆分獲得訓(xùn)練集與驗(yàn)證集,然后做均衡性檢驗(yàn),比較訓(xùn)練集和驗(yàn)證集的差異性,再做單因素和多因素Cox回歸,篩選變量構(gòu)建列線圖預(yù)測模型,最后通過校準(zhǔn)圖、ROC曲線、DCA曲線對模型的校準(zhǔn)度、區(qū)分度以及臨床決策的實(shí)際需要進(jìn)行評價。

文章涉及到的均衡性差異表如下圖:



二、利用R語言復(fù)現(xiàn)

下面我們利用從SEERStat中提取的相關(guān)數(shù)據(jù)進(jìn)行復(fù)現(xiàn)。根據(jù)文獻(xiàn)中的納入排除標(biāo)準(zhǔn),提取涉及的相關(guān)數(shù)據(jù),最終共納入1,574名患者(原文獻(xiàn)1,641)。介于SEERStat數(shù)據(jù)庫會有更新,因此提取的樣本量與原文會有所出入,這里請大家多關(guān)注統(tǒng)計方法的運(yùn)用!本次用到的是R版本是4.3.1。

1. 安裝加載R包并導(dǎo)入數(shù)據(jù)

這里繪制均衡性表格,主要用到"compareGroups"R包:

if(!require("compareGroups")) install.packages("compareGroups")

library("compareGroups")

#導(dǎo)入數(shù)據(jù)集

raw

2.數(shù)據(jù)隨機(jī)拆分

通過設(shè)置隨機(jī)數(shù)種子,將數(shù)據(jù)集按照7:3的比例拆分為訓(xùn)練集與驗(yàn)證集。

set.seed(666666)

index

train

test

3.均衡性檢驗(yàn)

對訓(xùn)練集與驗(yàn)證集提取group變量,并對兩個數(shù)據(jù)集進(jìn)行合并生成total數(shù)據(jù)集,total數(shù)據(jù)集與原數(shù)據(jù)集相比多了一列分組變量,分組依據(jù)是訓(xùn)練集或驗(yàn)證集,以便于通過total數(shù)據(jù)集進(jìn)行兩個數(shù)據(jù)集間的均衡性檢驗(yàn)。

train$group

test$group

total

#進(jìn)行均衡性檢驗(yàn),并繪制三線表

base_tab

+ Grade + Stage + Primary.Site + t_stage + n_stage

+ m_stage +Tumor_size + Chemotherapy + Radiation + Surgery,

data = total,method = c(Tumor_size=2))

print(base_tab)

代碼解讀:descrTable(y~x1 + x2 + x3......,data = ,method = c(x=2)),y為分組變量,x為暴露因素,method設(shè)置為2對指定的定量變量使用秩和檢驗(yàn)。

R語言均衡性檢驗(yàn)結(jié)果如下:



三、利用在線網(wǎng)站復(fù)現(xiàn)

如果沒有代碼基礎(chǔ),或者希望通過更便捷的方式完成統(tǒng)計分析,推薦使用這個智能在線統(tǒng)計分析平臺——風(fēng)暴統(tǒng)計。一站式完成Cox預(yù)測模型基礎(chǔ)統(tǒng)計分析,便捷又快速。

它的網(wǎng)址是www.medsta.cn(在電腦端瀏覽器打開)
瀏覽器輸入medsta.cn即可medical statistics縮寫)

1.進(jìn)入網(wǎng)站分析模塊

電腦端打開風(fēng)暴統(tǒng)計平臺——“風(fēng)暴智能統(tǒng)計”模塊,點(diǎn)擊“臨床預(yù)測模型(最新)”,進(jìn)入“cox預(yù)測模型”頁面。


2.導(dǎo)入數(shù)據(jù)集

這里同樣導(dǎo)入我們從SEERStat中提取的文獻(xiàn)相關(guān)數(shù)據(jù),目前網(wǎng)站支持10M以下的csv格式數(shù)據(jù)。


3.數(shù)據(jù)集的拆分

點(diǎn)擊“數(shù)據(jù)集拆分”,可以設(shè)置隨機(jī)種子與拆分比例,簡簡單單就完成了拆分工作,如果需要下載拆分好的數(shù)據(jù)集,也可以點(diǎn)擊最右側(cè)“下載新的數(shù)據(jù)集


4.選擇變量,繪制均衡表

點(diǎn)擊“訓(xùn)練集與驗(yàn)證集比較”,分別選入正態(tài)變量、偏態(tài)變量、分類變量,在右側(cè)直接生成三線表格。


5.導(dǎo)出三線表

制作好的三線表還可以直接下載使用,有excel版和word版可以選擇。


word版結(jié)果如下:


四、小結(jié)

有細(xì)心的朋友可能注意到網(wǎng)站分析結(jié)果與R語言結(jié)果不一致,是不是網(wǎng)站計算有誤?這里為大家解釋一下!R語言的"compareGroups"包在使用卡方檢驗(yàn)時,只會得出校正卡方的結(jié)果,這是不準(zhǔn)確的,相信學(xué)過鄭老師“30天學(xué)會醫(yī)學(xué)統(tǒng)計與SPSS”免費(fèi)公益課的同學(xué)都知道卡方檢驗(yàn)結(jié)果的取舍應(yīng)根據(jù)數(shù)據(jù)結(jié)構(gòu)來。

下面我們通過SPSS軟件進(jìn)行驗(yàn)證,抽取其中3個變量可以看出,在線平臺的分析結(jié)果與SPSS是完全一致的,對于2×2的卡方檢驗(yàn),R語言只給出校正卡方結(jié)果,并且沒有顯示統(tǒng)計量。

因此,大家在使用網(wǎng)站進(jìn)行分析時,可以放心!網(wǎng)站不僅操作過程簡單便捷,分析結(jié)果也十分的全面可靠!

風(fēng)暴統(tǒng)計網(wǎng)站分析結(jié)果:


SPSS分析結(jié)果:

T Stage

N Stage

M Stage




R語言分析結(jié)果:


cox構(gòu)建預(yù)測模型(2):如何用R語言拆分?jǐn)?shù)據(jù)集并作均衡性檢驗(yàn)的評論 (共 條)

分享到微博請遵守國家法律
扶绥县| 彭州市| 阿克陶县| 新沂市| 依兰县| 方正县| 香格里拉县| 乐东| 大埔区| 施甸县| 保定市| 达州市| 哈巴河县| 民丰县| 武隆县| 神木县| 庆城县| 托克逊县| 布拖县| 遵化市| 湖州市| 平泉县| 昌乐县| 红安县| 桃源县| 富锦市| 贺兰县| 罗山县| 南皮县| 府谷县| 通州区| 济南市| 利辛县| 临夏市| 阿尔山市| 定襄县| 高邮市| 策勒县| 喀什市| 昭通市| 宝坻区|