最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Logistic構(gòu)建預(yù)測模型(2):如何用R語言整理數(shù)據(jù)?(附全套代碼)

2023-08-09 08:05 作者:風(fēng)暴統(tǒng)計  | 我要投稿

Logistic構(gòu)建臨床預(yù)測模型系列主要以一篇基于logistic回歸構(gòu)建預(yù)測模型的文章為例,從整理數(shù)據(jù)到構(gòu)建預(yù)測模型,再到內(nèi)部驗(yàn)證模型,包括了整理數(shù)據(jù)、隨機(jī)數(shù)據(jù)拆分、基線描述、差異性分析、繪制ROC曲線并計算AUC值、HL檢驗(yàn)及繪制校準(zhǔn)曲線、構(gòu)建列線圖模型并繪制DCA曲線,基本涵蓋了Logistic構(gòu)建預(yù)測模型的全過程,敬請期待!

本文為Logistic構(gòu)建臨床預(yù)測模型系列第二篇文章,為大家介紹如何用R語言篩選并整理數(shù)據(jù),即1分鐘構(gòu)建預(yù)測模型 | 從“傻瓜式”整理數(shù)據(jù)開始!第一篇文獻(xiàn)解讀可參見以下這篇文章:

Logistic構(gòu)建預(yù)測模型(1):復(fù)現(xiàn)SEER數(shù)據(jù)庫文獻(xiàn)解讀

今日文章分為三部分
1.文章解讀
2.R語言復(fù)現(xiàn)
3.“傻瓜式”整理數(shù)據(jù)

風(fēng)暴統(tǒng)計

本文介紹預(yù)測模型構(gòu)建的第一步,數(shù)據(jù)整理!無論是手動錄入的還是取自數(shù)據(jù)庫的數(shù)據(jù),在完成數(shù)據(jù)獲取這一步之后,要花很大的精力和時間用在整理數(shù)據(jù)上,有了清晰準(zhǔn)確的數(shù)據(jù)集,才能進(jìn)入分析階段,過不了這一關(guān),后面的建模就無法實(shí)現(xiàn)。

1.文章解讀
案例文獻(xiàn)是一篇基于SEER公共數(shù)據(jù)庫的一項回顧性研究,旨在開發(fā)和驗(yàn)證列線圖以預(yù)測腦轉(zhuǎn)移的非小細(xì)胞肺癌患者早期死亡。

案例文獻(xiàn)

背景:在非小細(xì)胞肺癌(NSCLC)的整個病程中,很多患者會出現(xiàn)預(yù)后差、死亡率高的腦轉(zhuǎn)移(BM)。然而,很少有模型能預(yù)測有腦轉(zhuǎn)移的NSCLC患者的早期死亡(ED)。我們旨在開發(fā)列線圖來預(yù)測NSCLC腦轉(zhuǎn)移患者ED。

方法:從監(jiān)測、流行病學(xué)和最終結(jié)果(SEER)數(shù)據(jù)庫中選取了2010年至2015年間患有BM的NSCLC患者。納入標(biāo)準(zhǔn)如下:(I)患者經(jīng)病理診斷為NSCLC;(II)患者患有BM?;颊甙?:3的比例隨機(jī)分為兩組,分別為訓(xùn)練組和驗(yàn)證組。采用單因素和多因素Logistic回歸方法來確定伴有BM的NSCLC患者發(fā)生ED的危險因素。建立了兩個列線圖,并通過校準(zhǔn)曲線、ROC曲線和決策曲線分析(DCA)進(jìn)行了驗(yàn)證。隨訪數(shù)據(jù)包括生存月數(shù)、死因和生命狀態(tài)。初次診斷后3個月內(nèi)的死亡定義為ED,終點(diǎn)為全因ED和癌癥特異性ED。

結(jié)果:共納入了4,920名患有BM的NSCLC患者,并隨機(jī)分為兩個隊列(7:3),包括訓(xùn)練隊列(n=3,444)和驗(yàn)證隊列(n=1,476)。全因ED和癌癥特異性ED的獨(dú)立預(yù)后因素包括年齡、性別、種族、腫瘤大小、組織學(xué)、T分期、N分期、分級、手術(shù)、放療、化療、骨轉(zhuǎn)移和肝轉(zhuǎn)移。所有這些變量都用于建立列線圖。在全因ED和癌癥特異性ED的列線圖中,訓(xùn)練數(shù)據(jù)集的ROC曲線下面積分別為0.813(95% CI:0.799-0.837)和0.808(95% CI:0.791-0.830),驗(yàn)證數(shù)據(jù)集的ROC曲線下面積分別為0.835(95% CI:0.805-0.862)和0.824(95% CI:0.790-0.849)。此外,校準(zhǔn)曲線證明預(yù)測的ED與實(shí)際值一致。DCA臨床應(yīng)用前景良好。

結(jié)論:列線圖可用來預(yù)測患者死亡的具體概率,有助于治療決策和重點(diǎn)護(hù)理,以及醫(yī)患溝通。

本文構(gòu)建logistic預(yù)測模型并做內(nèi)部驗(yàn)證,思路框架清晰,案例十分典型。今天我們對本文的數(shù)據(jù)整理展開復(fù)現(xiàn)。本文所研究的影響因素均為定性數(shù)據(jù),我們需要將下載的數(shù)據(jù)進(jìn)行整理分組,下表可見本文所研究的影響因素基線分組情況。

基線情況

2.R語言復(fù)現(xiàn)
根據(jù)文章的納排標(biāo)準(zhǔn),從SEER數(shù)據(jù)庫提取數(shù)據(jù),并通過篩選得到數(shù)據(jù)集lung,本文重點(diǎn)復(fù)現(xiàn)文章的數(shù)據(jù)整理過程。

觀察表格可以看到影響因素包括"Age.years" , "Sex" , "Race" , "Marital" , "Grade" , "Tumor.size.mm" , "Histology" , "T_stage" , "N_stage" , "Surgery" , "Radiation" , "Chemotherapy" , "Bone.metastasis" , "Liver.metastasis",均為定性數(shù)據(jù),有二分類數(shù)據(jù)也有多分類數(shù)據(jù),并且多分類數(shù)據(jù)需要設(shè)置啞變量。

下面我們不一一列舉,針對整理數(shù)據(jù)所用到的不同代碼函數(shù),舉例說明!

2.1定量數(shù)據(jù)按一定標(biāo)準(zhǔn)分組

2.2定量數(shù)據(jù)因子化

2.3將字符串?dāng)?shù)據(jù)數(shù)值化
繪制曲線時,如繪制校準(zhǔn)曲線時,會要求結(jié)局變量需為數(shù)值類型;做HL檢驗(yàn)時,結(jié)局變量必需是數(shù)值型,且變量值只能是二分類0,1。

如上,數(shù)據(jù)整理用到的代碼大概就這幾個!但是R語言的操作屬實(shí)還是比較麻煩的,變量少一點(diǎn)還好,變量多了很容易混,下面為大家展示一下另一種傻瓜式整理數(shù)據(jù)的操作,不過它也是以R語言為基礎(chǔ)的,只不過不用我們自己敲代碼!

3.“傻瓜式”整理數(shù)據(jù)
用它,鼠標(biāo)點(diǎn)點(diǎn)就能整理數(shù)據(jù),相比于R語言算不算“傻瓜式”呢?

風(fēng)暴統(tǒng)計

3.1電腦端打開風(fēng)暴統(tǒng)計平臺——“風(fēng)暴智能統(tǒng)計”模塊,點(diǎn)擊“臨床預(yù)測模型(最新)”,進(jìn)入“臨床預(yù)測模型:內(nèi)部驗(yàn)證”頁面

臨床預(yù)測模型:內(nèi)部驗(yàn)證

3.2導(dǎo)入數(shù)據(jù)

導(dǎo)入數(shù)據(jù)

3.3數(shù)據(jù)整理轉(zhuǎn)換

3.3.1定量變量轉(zhuǎn)分類數(shù)據(jù)
首先點(diǎn)擊“數(shù)據(jù)整理轉(zhuǎn)換”模塊,選擇定量變量(以年齡為例),選擇“自定義分組”,輸入分組臨界值,點(diǎn)擊開始分組,即可產(chǎn)生一個新變量“age_group”.(如遇顯示不全,可下載新數(shù)據(jù)查看)

定量數(shù)據(jù)轉(zhuǎn)分類數(shù)據(jù)

注意:網(wǎng)站分組按照輸入的分組臨界值,分組區(qū)間為左閉右合,所以將年齡分為"<=65", "66-71", ">71"的臨界值為66和72,即[0,66),[66,72),[72,∞)。

3.3.2分類變量值標(biāo)簽設(shè)置
以上一步分組的年齡為例,選擇變量“age_group”,對應(yīng)分組類別添加值標(biāo)簽,可以在原變量基礎(chǔ)上修改,也可生成新的變量,切記一定要點(diǎn)“保存”!

分類變量值標(biāo)簽設(shè)置

3.3.3重新定義變量值順序(啞變量設(shè)置)
只需要勾選“重新定義變量值順序(啞變量設(shè)置)”,將變量值按自己的需要排序,同樣排在第一位的為對照,切記“保存”。

注意:第二步和第三步最好分開進(jìn)行,否則會混亂。

重新定義變量值順序(啞變量設(shè)置)

3.3.4產(chǎn)生新變量
可以通過計算產(chǎn)生新變量,但本文不需要此功能,可做了解。

產(chǎn)生新變量

3.3.5變量重命名

變量重命名

3.3.6整理好的數(shù)據(jù)集可以直接下載

下載新數(shù)據(jù)

從頭到尾鼠標(biāo)點(diǎn)點(diǎn),沒有我們看不懂的代碼,沒有想破腦袋的邏輯關(guān)系,真正意義上的“傻瓜式”整理數(shù)據(jù),快來試試吧??!

Logistic構(gòu)建預(yù)測模型(2):如何用R語言整理數(shù)據(jù)?(附全套代碼)的評論 (共 條)

分享到微博請遵守國家法律
平泉县| 肇庆市| 乌鲁木齐市| 池州市| 麻栗坡县| 常州市| 万山特区| 定兴县| 安乡县| 芦溪县| 阳朔县| 丽水市| 保康县| 图们市| 濉溪县| 六安市| 泸溪县| 松溪县| 芦溪县| 电白县| 灵丘县| 化德县| 大宁县| 二手房| 合作市| 安龙县| 江永县| 巩留县| 贵州省| 邵阳县| 和政县| 静宁县| 阳春市| 印江| 遵义县| 青州市| 太原市| 灵台县| 西贡区| 通许县| 常宁市|