R語(yǔ)言、SAS潛類別(分類)軌跡模型LCTM分析體重指數(shù) (BMI)數(shù)據(jù)可視化
原文鏈接:http://tecdat.cn/?p=26105?
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
潛類別軌跡建模 (LCTM) 是流行病學(xué)中一種相對(duì)較新的方法,用于描述生命過(guò)程中的暴露,它將異質(zhì)人群簡(jiǎn)化為同質(zhì)模式或類別。然而,對(duì)于給定的數(shù)據(jù)集,可以根據(jù)類的數(shù)量、模型結(jié)構(gòu)和軌跡屬性得出不同模型的分?jǐn)?shù)。
本文說(shuō)明了LCTM的基本用法,用于匯總擬合的潛在類軌跡模型對(duì)象的輸出。要安裝 R 包,請(qǐng)?jiān)?R 控制臺(tái)中使用命令
例子
目的:通過(guò)將 BMI 建模為年齡函數(shù),識(shí)別具有不同軌跡的參與者亞組。根據(jù)迄今為止可用的文獻(xiàn),我們假設(shè)初始 K=5 類 BMI 軌跡。
我們使用體重指數(shù) (BMI) 重復(fù)測(cè)量 10,000 個(gè)人的長(zhǎng)格式數(shù)據(jù)框。
提供了一個(gè)示例(模擬)數(shù)據(jù)集?bmi?來(lái)描述整個(gè)步驟,??bmi_long?是長(zhǎng)格式版本。
包含的變量有:
id - 個(gè)人 ID
年齡 - BMI 測(cè)量的年齡,以年為單位
bmi - 個(gè)人在 T1、T2、T3 和 T4 時(shí)間的體重指數(shù),以 kg/m^2 為單位 true_class - 用于識(shí)別模擬個(gè)人 BMI 數(shù)據(jù)的類別的標(biāo)簽從
加載數(shù)據(jù)
繪制數(shù)據(jù)

潛在類軌跡建模的八步示例
為了對(duì)縱向結(jié)果 yijk 進(jìn)行建模,對(duì)于 k=1:K,類,對(duì)于個(gè)體 i,在時(shí)間點(diǎn) j,tj可以使用許多建模選擇。我們?cè)谶@里給出方程來(lái)說(shuō)明這些,并按照復(fù)雜度增加的順序?qū)⑺鼈兠麨槟P?A 到 G。
模型 A:無(wú)隨機(jī)效應(yīng)模型 | 固定效應(yīng)同方差 | - 解釋個(gè)人軌跡與其平均類軌跡的任何偏差僅是由于隨機(jī)誤差

其中假設(shè)所有類的殘差方差相等,

模型 B:具有特定類別殘差的固定效應(yīng)模型 | 異方差 | 與模型 A 相同的解釋,隨機(jī)誤差在不同的類別中可能更大或更小。

其中假設(shè)殘差方差不同

模型 C:隨機(jī)截距 解釋是允許個(gè)體的初始體重不同,但假設(shè)每個(gè)班級(jí)成員遵循平均軌跡的相同形狀和大小
對(duì)于 k=1:K, classes, 對(duì)于個(gè)體 i, 在時(shí)間點(diǎn) j, tj,

?其中隨機(jī)效應(yīng)分布

模型 D:隨機(jī)斜率 允許個(gè)體在初始權(quán)重和平均軌跡的斜率上有所不同,但曲率與軌跡
對(duì)于 k=1:K,類,對(duì)于個(gè)體 i,在時(shí)間點(diǎn) j?, tj,

其中假設(shè)隨機(jī)效應(yīng)分布為

模型 E:隨機(jī)二次 - 跨類的共同方差結(jié)構(gòu) 允許個(gè)體在類內(nèi)通過(guò)初始權(quán)重、形狀和大小變化的額外自由,但是假設(shè)每個(gè)類具有相同的變異量 R lcmm hlme/lcmm 對(duì)于 k=1: K, 類, 對(duì)于個(gè)體 i, 在時(shí)間點(diǎn) j, tj,

其中假設(shè)隨機(jī)效應(yīng)分布為?

模型 F 和 G:隨機(jī)二次 - 允許方差結(jié)構(gòu)跨類變化的比例約束 增加模型 E 的靈活性,因?yàn)樵试S方差結(jié)構(gòu)相差一個(gè)乘法因子,以允許某些類具有更大或更小的類內(nèi)方差。該模型可以被認(rèn)為是模型 G 的更簡(jiǎn)潔版本(將要估計(jì)的方差-協(xié)方差參數(shù)的數(shù)量從 6xK 參數(shù)減少到 6+(K-1)個(gè)參數(shù)。
對(duì)于 k=1:K, classes, 對(duì)于個(gè)體 i, 在時(shí)間點(diǎn) j, tj,

其中假設(shè)隨機(jī)效應(yīng)分布為?

第一步:選擇隨機(jī)效應(yīng)結(jié)構(gòu)的形式
為了確定隨機(jī)效應(yīng)的初始工作模型結(jié)構(gòu),可以遵循 Verbeke 和 Molenbergh 的基本原理來(lái)檢查沒(méi)有隨機(jī)效應(yīng)的模型中每個(gè) K?類的標(biāo)準(zhǔn)化殘差圖的形狀。
如果殘差輪廓可以近似為平坦、直線或曲線,則分別考慮隨機(jī)截距、斜率或二次項(xiàng)。
為了擬合沒(méi)有隨機(jī)效應(yīng)的潛在類模型。


然后,我們將擬合模型輸入 LCTM中的 step1 函數(shù),以檢查特定類別的殘差。
第2步
優(yōu)化步驟 1 中的初步工作模型以確定最佳類數(shù),測(cè)試 K=1,...7??梢愿鶕?jù)最低貝葉斯信息標(biāo)準(zhǔn) (BIC) 來(lái)選擇所選類別的數(shù)量。

第 3 步
使用步驟 2 中推導(dǎo)出的偏好 K 進(jìn)一步細(xì)化模型,測(cè)試最優(yōu)模型結(jié)構(gòu)。我們測(cè)試了七個(gè)模型,從簡(jiǎn)單的固定效應(yīng)模型(模型 A)到允許殘差在類別之間變化的基本方法(模型 B)到一組具有不同方差結(jié)構(gòu)的五個(gè)隨機(jī)效應(yīng)模型(模型 CG)。 ?
?
A(SAS、PROC TRAJ)

?
?
B型(R,mmlcr)
調(diào)用 source() 命令。
?
?
C (SAS、PROC TRAJ)

D 型(SAS、PROC TRAJ)

E型 (R, lcmm)
?

F型 (R, lcmm)
?
G (SAS、PROC TRAJ)
第四步
執(zhí)行一些模型充分性評(píng)估。首先,對(duì)于每個(gè)參與者,計(jì)算被分配到每個(gè)軌跡類的后驗(yàn)概率,并將個(gè)體分配到概率最高的類。在所有類別中,這些最大后驗(yàn)分配概率 (APPA) 的平均值高于 70% 被認(rèn)為是可以接受的。使用正確分類、不匹配的幾率進(jìn)一步評(píng)估模型的充分性。
第 5 步
圖形表示方法;
繪制包含每個(gè)類的時(shí)間平均軌跡
每個(gè)類具有 95% 預(yù)測(cè)區(qū)間的平均軌跡圖,顯示每個(gè)類內(nèi)預(yù)測(cè)的隨機(jī)變化
個(gè)人水平的“面條圖”隨時(shí)間變化,取決于樣本量,可能使用參與者的隨機(jī)樣本
第 6 步
評(píng)估模型辨別。
第 7 步
使用四種方法評(píng)估臨床特征和合理性;
1.?評(píng)估軌跡模式的臨床意義,旨在包括至少 1% 的人群的類別
2.?評(píng)估軌跡類別的臨床合理性
使用?6.2中生成的圖?來(lái)評(píng)估預(yù)測(cè)的趨勢(shì)對(duì)于正在研究的組是否現(xiàn)實(shí)。例如,對(duì)于研究 BMI,顯示下降到 <5 kg/m2 的預(yù)測(cè)趨勢(shì)是不現(xiàn)實(shí)的。 ?
?
3.?潛在類別與傳統(tǒng)分類的特征列表
使用從所選模型中提取類分配;
然后用描述性變量反饋到主數(shù)據(jù)集中。
然后可以根據(jù)需要將這些制成表格。
等等。
4.?使用 kAPPa 統(tǒng)計(jì)的類成員與傳統(tǒng) BMI 類別成員的一致性
第 8 步
酌情進(jìn)行敏感性分析。
最受歡迎的見(jiàn)解
1.R語(yǔ)言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語(yǔ)言泊松Poisson回歸模型分析案例
5.R語(yǔ)言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語(yǔ)言中對(duì)LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.R語(yǔ)言邏輯回歸、Naive Bayes貝葉斯、決策樹(shù)、隨機(jī)森林算法預(yù)測(cè)心臟病
8.python用線性回歸預(yù)測(cè)股票價(jià)格
9.R語(yǔ)言用邏輯回歸、決策樹(shù)和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)