16種常用的數(shù)據(jù)分析方法-生存分析
探究變量之間的關(guān)系是數(shù)據(jù)挖掘中的一個基本分析內(nèi)容,對于常規(guī)的離散型或者連續(xù)型變量,有很多的方法可以用于挖掘其中的關(guān)系,比如線性回歸,邏輯回歸等等。然而有一類數(shù)據(jù)非常的特殊,用回歸分析等常用手段出處理這類數(shù)據(jù)并不合適,這類數(shù)據(jù)就是生存數(shù)據(jù)。
常規(guī)數(shù)據(jù)在表示時,只需要一個值,比如患者的血壓,性別等數(shù)據(jù),不是連續(xù)型就是離散型;生存數(shù)據(jù)則有兩個值,第一個是生存時間,可以看做是一個連續(xù)型的變量,第二個是生存事件,可以看做是離散型的變量。
比如分析治療后的患者生存情況,在觀測期間,可以看到不同患者的存活時間,這個值就是生存時間,而有些患者可能在觀察期內(nèi)出現(xiàn)死亡,復(fù)發(fā)等情況,死亡或者復(fù)發(fā)則稱之為事件。
生存分析是既考慮結(jié)果又考慮生存時間的一種統(tǒng)計方法,并可充分利用截尾數(shù)據(jù)所提供的不完全信息,對生存時間的分布特征進行描述,對影響生存時間的主要因素進行分析。
生存資料分析
生存分析就是針對生存資料的分析。所謂生存資料就是描述壽命或者一個發(fā)生時間的數(shù)據(jù)。更詳細的說一個人的生存時間的長短與許多因素有聯(lián)系的,研究因素與生存時間的聯(lián)系有無及程度大小,就是生存分析。
生存資料不同于其它分析資料,有一個特殊的地方就是缺失值的處理,對于常規(guī)數(shù)據(jù),缺失值很多時可以直接丟掉,只有少量缺失值時可以用算法進行填補,而生存數(shù)據(jù)中的缺失值則不同。
在觀測期間,患者可能出現(xiàn)了其他的事件導(dǎo)致后續(xù)得不到對應(yīng)的生存數(shù)據(jù),比如患者出現(xiàn)意外事故身亡了,后續(xù)的生存數(shù)據(jù)就會缺失,很顯然生存數(shù)據(jù)是不能用算法填補的,一定要是實際觀測的結(jié)果。
但是這個數(shù)據(jù)也不能直接丟掉,因為從觀測開始到患者意外身亡的這段時間內(nèi)的生存數(shù)據(jù)是有意義的,在進行生存分析時,這部分數(shù)據(jù)也可以利用起來。
應(yīng)用場景
生存可以指人或動物的存活(相對于死亡),可以是患者的病情正處于緩解狀態(tài)(相對于再次復(fù)發(fā)或惡化),還可以是某個系統(tǒng)或產(chǎn)品正常工作(相對于失效或故障),甚至可是是客戶的流失與否等。
在生存分析中,研究的主要對象是壽命超過某一時間的概率。還可以描述其他一些事情發(fā)生的概率,例如產(chǎn)品的失效、出獄犯人第一次犯罪、失業(yè)人員第一次找到工作等等。
在某些領(lǐng)域的分析中,常常用追蹤的方式來研究事物的發(fā)展規(guī)律,比如研究某種藥物的療效,手術(shù)后的存活時間,某件機器的使用壽命等。
在醫(yī)學(xué)研究中,常常用追蹤的方式來研究事物發(fā)展的規(guī)律。如,了解某藥物的療效,了解手術(shù)的存活時間,了解某醫(yī)療儀器設(shè)備使用壽命等等。
生存分析主要內(nèi)容
生存分析的主要內(nèi)容包括:
l描述生存過程,即研究生存時間的分布規(guī)律
l比較生存過程,即研究兩組或多組生存時間的分布規(guī)律,并進行比較
l分析危險因素,即研究危險因素對生存過程的影響
l建立數(shù)學(xué)模型,即將生存時間與相關(guān)危險因素的依存關(guān)系用一個數(shù)學(xué)式子表示出來。
生存分析主要方法
生存分析方法可以分為描述法、參數(shù)法、半?yún)?shù)法和非參數(shù)法。
1.描述法
根據(jù)樣本觀測值提供的信息,直接用公式計算出每一個時間點或每一個時間區(qū)間上的生存函數(shù)、死亡函數(shù)、風險函數(shù)等,并采用列表或繪圖的形式顯示生存時間的分布規(guī)律。
優(yōu)點:方法簡單且對數(shù)據(jù)分布無要求
缺點:不能比較兩組或多組生存時間分布函數(shù)的區(qū)別,不能分析危險因素,不能建立生存時間與危險因素之間的關(guān)系模型。
2.非參數(shù)法
估計生存函數(shù)時對生存時間的分布沒有要求,并且檢驗危險因素對生存時間的影響時采用的是非參數(shù)檢驗方法。
常用方法:乘積極限法、壽命表法
優(yōu)點:可以估計生存函數(shù),可以比較兩組或多組生存分布函數(shù)??梢苑治鑫kU因素對生存時間的影響,對生存時間的分布沒有要求。
缺點:不能建立生存時間與危險因素之間的關(guān)系模型。
3.參數(shù)法
根據(jù)樣本觀測值來估計假定的分布模型中的參數(shù),獲得生存時間的概率分布模型。
生存時間經(jīng)常服從的分布有:指數(shù)分布、Weibull分布、對數(shù)正態(tài)分布、對數(shù)Logistic分布、Gamma分布。
優(yōu)點:可以估計生存函數(shù),可以比較兩組或多組生存分布函數(shù)??梢苑治鑫kU因素對生存時間的影響,可以建立生存時間與危險因素之間的關(guān)系模型。
缺點:需要事先知道生存時間的分布
4.半?yún)?shù)法
不需要對生存時間的分布做出假定,但是卻可以通過一個模型來分析生存時間的分布規(guī)律,以及危險因素對生存時間的影響,最著名的就是COX回歸。
優(yōu)點:可以估計生存函數(shù),可以比較兩組或多組生存分布函數(shù)??梢苑治鑫kU因素對生存時間的影響,可以建立生存時間與危險因素之間的關(guān)系模型,不需要事先知道生存時間的分布。
生存分析案例
研究性別對于肺病生存率有無區(qū)別,收集數(shù)據(jù)下列信息
time:生存時間(單位天)
status:0=存活,1=死亡
sex:1=男,2=女
??▋?操作步驟??
1)按步驟將數(shù)據(jù)導(dǎo)入
2)選定壽命表分析方法
3)對各選項進行設(shè)置
其中注意狀態(tài)設(shè)置:選取表示事件已發(fā)生的值
4)設(shè)置完所有選項后確認,得到結(jié)果
存活表:該表給出了男女對應(yīng)時間內(nèi)存活和死亡人數(shù),并計算了存活率、風險比等統(tǒng)計量
中位數(shù)生存時間:即生存率為50%時,生存時間的平均水平;
由此可知:生存時間的平均水平女士高于男士
生存函數(shù):男士較女士累計生存率下降快