縱向數(shù)據(jù)分析—組軌跡模型(GBTM): (一)模型介紹
? 公眾號正式營業(yè)3天,得到很多小伙伴的關注、轉發(fā),筆者在這里非常感謝大家捧場,后續(xù)將繼續(xù)為大家輸出干貨,提供統(tǒng)計幫助,助力大家發(fā)得高分文章。
? 后臺私信均會一一回復,為方便大家交流,分享統(tǒng)計知識,筆者以互助為原則建立“統(tǒng)計分析咨詢互助群”,幫助大家解決統(tǒng)計上的困擾,需要的童鞋趕緊進群啦!
進入今天主題:
縱向數(shù)據(jù)分析—組軌跡模型(GBTM):(一)模型介紹


?
一、傳統(tǒng)縱向數(shù)據(jù)分析方法介紹
—Why GBTM?
縱向數(shù)據(jù)(Longitudinal Data, LD)
縱向數(shù)據(jù)是指對同一組受試個體或者受試單元在不同時間點上的重復觀測若干次,得到由截面和時間序列融合在一起的數(shù)據(jù)。(縱向數(shù)據(jù)發(fā)得高分文章的概率會更大哦)
由于縱向數(shù)據(jù)具有自相關性、生態(tài)單位聚集性、測量次數(shù)與測量時間間隔的非均衡性等特點,傳統(tǒng)的統(tǒng)計分析方法往往只能望而卻步。
目前,可以較好的處理縱向數(shù)據(jù)的統(tǒng)計分析方法包括:
(1)MANOVA和RM-ANOVA
廣義估計方程(GEE)
(2)線性混合效應模型(LMRM)
(3)廣義線性混合效應模型(GLMEM)
(4)非線性混合效應模型(NLMRM)
(5)潛變量增長曲線模型(LGCM)
(6)多水平模型
(7)……
可解決問題:上述模型可以對所研究特征的總體發(fā)展趨勢進行分析,或者探討個體的特征隨時間變化的特點以及個體間發(fā)展變化趨勢是否存在差異。
共同的局限性:模型均假設研究對象具有相同的發(fā)展趨勢,然而這一假設往往并非總能滿足,特別是以人為研究中心,其重點研究隨時間推移個人行為、生物標志物或其他一些感興趣現(xiàn)象的變化軌跡,總體往往具有較大的異質性(Heterogeneity)。
為解決這一問題(☆☆☆):有學者開發(fā)了將變量分析和以人為中心分析相結合的方法,統(tǒng)稱為潛在類模型(Latent class model, LCM),其可以在更大的異質性的群體中識別同質性的群體,根據(jù)群體中存在的異質性的軌跡將總體劃分為不同的潛在類別,為進一步研究群體內(nèi)部的發(fā)展規(guī)律提供新的思路。(詳見參考文獻2)


(上述方法會在后續(xù)教程一一更新)
?
二、組軌跡模型介紹
組軌跡模型(Group-based trajectory modelling, GBTM)
又叫潛類別增長模型(LCGM)。Nagin于1999年對該方法進行了介紹,并隨后將其定義為:有限混合模型的應用,使用軌跡組作為統(tǒng)計工具,用于近似人口成員的未知軌跡。軌跡組被定義為:隨著時間的推移,在結果上遵循相似軌跡的個體組成的群。(模型詳細介紹見參考文獻3)

模型用途:用于識別群體中具有相似發(fā)展軌跡的研究對象,將其分到特定的群/類。(筆者認為可以理解為一個縱向聚類的過程)。
模型適用性:①資料類型:刪失正態(tài)分布(Censored normal)、二項分布(Binomial)、泊松(Poisson)、零膨脹泊松(Zero-inflated Poisson)分布。②測量時點要求:為了滿足模型擬合,一般要求3個測量時點及以上,不要求測量時點間隔嚴格一致性。
建模過程(☆☆☆):為了得到研究對象的發(fā)展軌跡,需要確定軌跡組的數(shù)量和軌跡形態(tài)。秉持模型簡約性和可解釋性這一目標,一般會構建2~6組軌跡模型,每個模型分別擬合線性、平方和立方,通過比較不同模型的擬合指標和軌跡組形態(tài)的專業(yè)可解釋性,選擇最適的模型。為了進一步驗證軌跡模型選擇的可靠性,通常將選擇的軌跡組代入原始數(shù)據(jù),查看原始數(shù)據(jù)的分離程度。

三、組軌跡模型擬合評價指標(☆☆☆)
?
(1)BIC:貝葉斯信息準則(Bayesian information criterion),BIC越接近于0,模型擬合越好。
(2)△BIC:兩個不同模型的BIC的差值,越高越好。
(3)AvePP:平均后驗概率( Average posterior probability)。每個個體被分到相應軌跡的組成員后驗概率(Posterior Probabilities of Group Membership)計算得到,反映了根據(jù)軌跡分組后的類內(nèi)成員與該軌跡的符合程度,通常>0.7為可接受標準。
(4)每個軌跡組的比例(Proportions per class%):一般不低于5%,需要根據(jù)總樣本含量結合該組軌跡形態(tài)判定。
(5)相對熵值(Relative entropy):熵值越接近1表示分類的確定性越高。
(6)OCC:正確分類的優(yōu)勢(Odds of Correct Classification),衡量正確分類到每一組的概率之比,一般認為OCC>5,表明該模型具有較高的分類精度。
(7)分布密切程度:基于組成員概率得到的群體分布比例(πj)與組成員后驗概率得到的群體分布比例(Pj)的密切程度,一般認為πj與Pj越接近越說明模型對數(shù)據(jù)的擬合質量較好。
會有小伙伴疑惑:一個模型會有這么多評價指標,筆者認為,GBTM是一種事后分組的方法,得到的軌跡組是統(tǒng)計虛構的組,是基于數(shù)據(jù)驅動得到的組,它更加傾向呈現(xiàn)出數(shù)據(jù)特征,所以會衍生出一些列的模型評價指標。所以,在選擇最優(yōu)模型時,不僅要依據(jù)模型的評價指標,更要注重模型的穩(wěn)定性,模型在現(xiàn)實世界中的可解釋性、有用性。

四、組軌跡模型的實現(xiàn)
?
下一章節(jié)將介紹模型的實現(xiàn)?。。?/strong>
如需《組軌跡模型、縱向數(shù)據(jù)分析模型》學習資料完整PDF版,請私信小編?。?!?
參考文獻
[1] Eisenlohr-Moul TA, Kaiser G, Weise C, Schmalenberger KM, Kiesner J, Ditzen B, Kleinst?uber M. Are there temporal subtypes of premenstrual dysphoric disorder?: using group-based trajectory modeling to identify individual differences in symptom change. Psychol Med. 2020 Apr;50(6):964-972. doi: 10.1017/S0033291719000849. Epub 2019 Apr 23. PMID: 31010447; PMCID: PMC8168625.
[2]Muthén B, Muthén L K. Integrating person‐centered and variable‐centered analyses: Growth mixture modeling with latent trajectory classes[J]. Alcoholism: Clinical and experimental research, 2000, 24(6): 882-891.
[3] Nagin D. Group-based modeling of development[M]. Harvard University Press, 2005.
關注微信公眾號,獲取更多相關內(nèi)容!

?
程序編寫:想不出吸睛好名字、天涯二毛君
文字編輯:想不出吸睛好名字
審閱:老陳
注:以上內(nèi)容均為個人學習心得,如有理解錯誤、不到位的地方,請批評指教!
?