刪失數(shù)據(jù)處理中的陷阱與正確應(yīng)對(duì)

在上篇文章中,我們介紹了刪失基本概念,什么時(shí)候會(huì)出現(xiàn)刪失,刪失數(shù)據(jù)的類(lèi)型有哪些等基礎(chǔ)知識(shí)。那么,當(dāng)刪失發(fā)生時(shí),我們應(yīng)該如何正確處理?如果忽略了刪失,會(huì)發(fā)生什么?今天,我們就兩個(gè)案例來(lái)繼續(xù)說(shuō)說(shuō)刪失數(shù)據(jù)處理中的那些陷阱及應(yīng)對(duì)方法。
?
案例1 處理刪失的陷阱-如果忽略刪失數(shù)據(jù)會(huì)發(fā)生什么?
借助JMP軟件,我們可以很輕松地模擬出一組服從特定分布的數(shù)據(jù)。比如我們用μ=5.6, σ=2.3, 模擬一組對(duì)數(shù)正態(tài)分布數(shù)據(jù)。因?yàn)橛^測(cè)是模擬的,假設(shè)我們知道所有的真實(shí)值(True Y),但實(shí)際研究在1900這個(gè)事件時(shí)間點(diǎn)結(jié)束,1900之后的結(jié)果未知,即右刪失。所以根據(jù)這一信息得到觀測(cè)情況(Observed Y)和刪失狀態(tài)(Censored,失效為0刪失為1),數(shù)據(jù)如下。

我們來(lái)分別看看針對(duì)刪失數(shù)據(jù)三種不同的處理方法,分析結(jié)果將會(huì)有怎樣的變化。
情況1:不做任何特殊處理
當(dāng)研究結(jié)束時(shí)直接把1900作為結(jié)果(即超過(guò)1900的數(shù)據(jù)全按1900處理),對(duì)這樣處理后的Observed Y列擬合對(duì)數(shù)正態(tài)分布。這時(shí)的對(duì)數(shù)正態(tài)分布μ≈5.4, σ≈1.9(見(jiàn)圖7中間報(bào)表),可見(jiàn)與真實(shí)的μ=5.6, σ=2.3相比,不納入刪失信息的處理方法會(huì)導(dǎo)致擬合參數(shù)與實(shí)際參數(shù)不符,從而在右刪失的情況下低估了平均失效時(shí)間(mean failure time)。

情況2:將刪失數(shù)據(jù)作為缺失
在Missing Y這一列中,超過(guò)1900的數(shù)據(jù)全部替換為了缺失,而這樣擬合出來(lái)的對(duì)數(shù)正態(tài)分布μ≈4.8, σ≈1.7與實(shí)際情況μ=5.6, σ=2.3相差甚遠(yuǎn)(見(jiàn)圖7最右報(bào)表)。
情況3:使用刪失信息
指示當(dāng)前Observed Y中1900并非實(shí)際失效,僅僅是最后的觀測(cè)時(shí)間而已,從而將研究中的所有信息都包含在分析中。這時(shí)擬合對(duì)數(shù)正態(tài)分布得到的結(jié)果與真實(shí)值μ=5.6, σ=2.3已經(jīng)非常接近(見(jiàn)圖8)。

案例2 檢測(cè)限制 Limit of Detection
假如我們想預(yù)測(cè)某款殺蟲(chóng)劑Metacrate的產(chǎn)量,已知溶劑配比對(duì)產(chǎn)量有影響,通過(guò)實(shí)驗(yàn)設(shè)計(jì)DOE后得到了不同配方和劑量條件下的產(chǎn)量數(shù)據(jù)。但測(cè)量系統(tǒng)的范圍有檢測(cè)限制,無(wú)法檢測(cè)出低于1%的產(chǎn)出值。如下圖的數(shù)據(jù),假設(shè)Metacrate Original Reading這一列是真實(shí)的產(chǎn)出情況;而圖中標(biāo)記為灰色的幾行數(shù)據(jù)說(shuō)明,由于量具的檢測(cè)限制原因,最終觀測(cè)到的產(chǎn)量為1(觀測(cè)結(jié)果為Observed Metacrate列):

此外,因?yàn)檫@個(gè)場(chǎng)景下的產(chǎn)出量不會(huì)為負(fù)數(shù),所以我們用廣義回歸的方法,在設(shè)定對(duì)數(shù)正態(tài)分布(因?yàn)闃?biāo)準(zhǔn)最小二乘法基于正態(tài)分布,而觀測(cè)數(shù)值較小,預(yù)測(cè)結(jié)果可能出現(xiàn)負(fù)數(shù),所以使用廣義線(xiàn)性回歸和對(duì)數(shù)正態(tài)模型,可以保證預(yù)測(cè)結(jié)果為非負(fù)數(shù))的前提下擬合預(yù)測(cè)模型。
?
擬合模型結(jié)果見(jiàn)圖10:
1:只用觀測(cè)情況Observed Metacrate擬合模型:
“預(yù)測(cè)值-實(shí)際值”診斷圖:有部分因檢驗(yàn)限制問(wèn)題被測(cè)為1的數(shù)據(jù)點(diǎn)橫向集中在左下角;
模型匯總報(bào)表:廣義R方為0.76,模型表現(xiàn)中等。
模型2:如果我們將檢驗(yàn)限制的情況(即圖中的Metacrate(Lo)這一列,反映左刪失信息)和觀測(cè)結(jié)果Observed Metacrate一起納入建模同時(shí)考量,這時(shí)JMP軟件就會(huì)將兩個(gè)響應(yīng)識(shí)別為區(qū)間刪失情況,納入刪失信息后模型表現(xiàn)就會(huì)提升很多:
“預(yù)測(cè)值-實(shí)際值”診斷圖中左下角的點(diǎn)逐漸變?yōu)檠?5°線(xiàn)分布,表明比起模型1的結(jié)果,模型2預(yù)測(cè)值和實(shí)際值更貼近;
模型匯總報(bào)表廣義R方為0.91>0.76,AIC和BIC也比不納入檢測(cè)限值的模型更小。

可見(jiàn),添加刪失信息后所得的預(yù)測(cè)模型能解釋產(chǎn)出量更多的變異。另外,在JMP也可以通過(guò)“列屬性-檢驗(yàn)限值”的功能將因測(cè)量系統(tǒng)導(dǎo)致的刪失情況附加到列屬性,從而應(yīng)用到廣義回歸分析中(見(jiàn)圖11),所得分析結(jié)果與上述相同。

通過(guò)以上2個(gè)案例,我們可以很清晰地看出,當(dāng)出現(xiàn)刪失數(shù)據(jù)時(shí),最好將其納入分析當(dāng)中,因?yàn)閯h失數(shù)據(jù)本身包含觀測(cè)單元的生存信息。忽略了刪失,將導(dǎo)致分析結(jié)果的偏差。此外,兩篇系列文章也為大家詳細(xì)介紹了如何在JMP中表明刪失,如使用兩列時(shí)間法表達(dá)左、右、區(qū)間刪失;以及通過(guò)一列事件時(shí)間作為響應(yīng)+刪失狀態(tài)列的方法來(lái)表達(dá)右刪失。
最后仍需要說(shuō)明的一點(diǎn)是,關(guān)于刪失的分析并不局限于可靠性領(lǐng)域,雖然刪失數(shù)據(jù)一般出現(xiàn)在將時(shí)間作為響應(yīng)的分析情況中,但也可能出現(xiàn)在其他場(chǎng)景中,例如第2個(gè)案例提到的檢測(cè)限值。因此,希望大家可以活學(xué)活用,在處理刪失數(shù)據(jù)時(shí)更得心應(yīng)手,游刃有余。
?
參考資料
? Meeker, W. Q., and Escobar, L. A. (1998) Statistical Methods for Reliability Data. New York: John Wiley & Sons.
? SAS Institute Inc. (2017). JMP? 14 Reliability and Survival Methods. Cary, NC: SAS Institute Inc
?
想要在JMP中跟著實(shí)戰(zhàn)操作的話(huà),歡迎下載最新版的 JMP 17 免費(fèi)試用。
可以復(fù)制以下鏈接到瀏覽器下載:
https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002DxWTQA0&utm_source=bilibili&utm_medium=social

?