最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

刪失數(shù)據(jù)處理中的陷阱與正確應(yīng)對(duì)

2023-03-28 14:31 作者:JMP數(shù)據(jù)分析  | 我要投稿

在上篇文章中,我們介紹了刪失基本概念,什么時(shí)候會(huì)出現(xiàn)刪失,刪失數(shù)據(jù)的類(lèi)型有哪些等基礎(chǔ)知識(shí)。那么,當(dāng)刪失發(fā)生時(shí),我們應(yīng)該如何正確處理?如果忽略了刪失,會(huì)發(fā)生什么?今天,我們就兩個(gè)案例來(lái)繼續(xù)說(shuō)說(shuō)刪失數(shù)據(jù)處理中的那些陷阱及應(yīng)對(duì)方法。

?

案例1 處理刪失的陷阱-如果忽略刪失數(shù)據(jù)會(huì)發(fā)生什么?

借助JMP軟件,我們可以很輕松地模擬出一組服從特定分布的數(shù)據(jù)。比如我們用μ=5.6, σ=2.3, 模擬一組對(duì)數(shù)正態(tài)分布數(shù)據(jù)。因?yàn)橛^測(cè)是模擬的,假設(shè)我們知道所有的真實(shí)值(True Y),但實(shí)際研究在1900這個(gè)事件時(shí)間點(diǎn)結(jié)束,1900之后的結(jié)果未知,即右刪失。所以根據(jù)這一信息得到觀測(cè)情況(Observed Y)和刪失狀態(tài)(Censored,失效為0刪失為1),數(shù)據(jù)如下。

圖6. 模擬Lognormal(μ=5.6, σ=2.3)數(shù)據(jù)

我們來(lái)分別看看針對(duì)刪失數(shù)據(jù)三種不同的處理方法,分析結(jié)果將會(huì)有怎樣的變化。


情況1:不做任何特殊處理

當(dāng)研究結(jié)束時(shí)直接把1900作為結(jié)果(即超過(guò)1900的數(shù)據(jù)全按1900處理),對(duì)這樣處理后的Observed Y列擬合對(duì)數(shù)正態(tài)分布。這時(shí)的對(duì)數(shù)正態(tài)分布μ≈5.4, σ≈1.9(見(jiàn)圖7中間報(bào)表),可見(jiàn)與真實(shí)的μ=5.6, σ=2.3相比,不納入刪失信息的處理方法會(huì)導(dǎo)致擬合參數(shù)與實(shí)際參數(shù)不符,從而在右刪失的情況下低估了平均失效時(shí)間(mean failure time)。

圖7. 對(duì)比真實(shí)情況、不處理刪失和將刪失作為缺失

情況2:將刪失數(shù)據(jù)作為缺失
在Missing Y這一列中,超過(guò)1900的數(shù)據(jù)全部替換為了缺失,而這樣擬合出來(lái)的對(duì)數(shù)正態(tài)分布μ≈4.8, σ≈1.7與實(shí)際情況μ=5.6, σ=2.3相差甚遠(yuǎn)(見(jiàn)圖7最右報(bào)表)。

情況3:使用刪失信息
指示當(dāng)前Observed Y中1900并非實(shí)際失效,僅僅是最后的觀測(cè)時(shí)間而已,從而將研究中的所有信息都包含在分析中。這時(shí)擬合對(duì)數(shù)正態(tài)分布得到的結(jié)果與真實(shí)值μ=5.6, σ=2.3已經(jīng)非常接近(見(jiàn)圖8)。

圖8. 將刪失信息納入擬合分布分析

案例2 檢測(cè)限制 Limit of Detection

假如我們想預(yù)測(cè)某款殺蟲(chóng)劑Metacrate的產(chǎn)量,已知溶劑配比對(duì)產(chǎn)量有影響,通過(guò)實(shí)驗(yàn)設(shè)計(jì)DOE后得到了不同配方和劑量條件下的產(chǎn)量數(shù)據(jù)。但測(cè)量系統(tǒng)的范圍有檢測(cè)限制,無(wú)法檢測(cè)出低于1%的產(chǎn)出值。如下圖的數(shù)據(jù),假設(shè)Metacrate Original Reading這一列是真實(shí)的產(chǎn)出情況;而圖中標(biāo)記為灰色的幾行數(shù)據(jù)說(shuō)明,由于量具的檢測(cè)限制原因,最終觀測(cè)到的產(chǎn)量為1(觀測(cè)結(jié)果為Observed Metacrate列):

圖9. Metacrate實(shí)驗(yàn)設(shè)計(jì)結(jié)果數(shù)據(jù)

此外,因?yàn)檫@個(gè)場(chǎng)景下的產(chǎn)出量不會(huì)為負(fù)數(shù),所以我們用廣義回歸的方法,在設(shè)定對(duì)數(shù)正態(tài)分布(因?yàn)闃?biāo)準(zhǔn)最小二乘法基于正態(tài)分布,而觀測(cè)數(shù)值較小,預(yù)測(cè)結(jié)果可能出現(xiàn)負(fù)數(shù),所以使用廣義線(xiàn)性回歸和對(duì)數(shù)正態(tài)模型,可以保證預(yù)測(cè)結(jié)果為非負(fù)數(shù))的前提下擬合預(yù)測(cè)模型。

?

擬合模型結(jié)果見(jiàn)圖10:

1:只用觀測(cè)情況Observed Metacrate擬合模型:

  • “預(yù)測(cè)值-實(shí)際值”診斷圖:有部分因檢驗(yàn)限制問(wèn)題被測(cè)為1的數(shù)據(jù)點(diǎn)橫向集中在左下角;

  • 模型匯總報(bào)表:廣義R方為0.76,模型表現(xiàn)中等。

模型2:如果我們將檢驗(yàn)限制的情況(即圖中的Metacrate(Lo)這一列,反映左刪失信息)和觀測(cè)結(jié)果Observed Metacrate一起納入建模同時(shí)考量,這時(shí)JMP軟件就會(huì)將兩個(gè)響應(yīng)識(shí)別為區(qū)間刪失情況,納入刪失信息后模型表現(xiàn)就會(huì)提升很多:

  • “預(yù)測(cè)值-實(shí)際值”診斷圖中左下角的點(diǎn)逐漸變?yōu)檠?5°線(xiàn)分布,表明比起模型1的結(jié)果,模型2預(yù)測(cè)值和實(shí)際值更貼近;

  • 模型匯總報(bào)表廣義R方為0.91>0.76,AIC和BIC也比不納入檢測(cè)限值的模型更小。

圖10. 廣義回歸模型對(duì)比(左:不考慮檢測(cè)限值,右:考慮限值LOB)

可見(jiàn),添加刪失信息后所得的預(yù)測(cè)模型能解釋產(chǎn)出量更多的變異。另外,在JMP也可以通過(guò)“列屬性-檢驗(yàn)限值”的功能將因測(cè)量系統(tǒng)導(dǎo)致的刪失情況附加到列屬性,從而應(yīng)用到廣義回歸分析中(見(jiàn)圖11),所得分析結(jié)果與上述相同。

圖11. 列屬性-檢測(cè)限值功能

通過(guò)以上2個(gè)案例,我們可以很清晰地看出,當(dāng)出現(xiàn)刪失數(shù)據(jù)時(shí),最好將其納入分析當(dāng)中,因?yàn)閯h失數(shù)據(jù)本身包含觀測(cè)單元的生存信息。忽略了刪失,將導(dǎo)致分析結(jié)果的偏差。此外,兩篇系列文章也為大家詳細(xì)介紹了如何在JMP中表明刪失,如使用兩列時(shí)間法表達(dá)左、右、區(qū)間刪失;以及通過(guò)一列事件時(shí)間作為響應(yīng)+刪失狀態(tài)列的方法來(lái)表達(dá)右刪失。

最后仍需要說(shuō)明的一點(diǎn)是,關(guān)于刪失的分析并不局限于可靠性領(lǐng)域,雖然刪失數(shù)據(jù)一般出現(xiàn)在將時(shí)間作為響應(yīng)的分析情況中,但也可能出現(xiàn)在其他場(chǎng)景中,例如第2個(gè)案例提到的檢測(cè)限值。因此,希望大家可以活學(xué)活用,在處理刪失數(shù)據(jù)時(shí)更得心應(yīng)手,游刃有余。

?

參考資料
? Meeker, W. Q., and Escobar, L. A. (1998) Statistical Methods for Reliability Data. New York: John Wiley & Sons.
? SAS Institute Inc. (2017). JMP? 14 Reliability and Survival Methods. Cary, NC: SAS Institute Inc

?

想要在JMP中跟著實(shí)戰(zhàn)操作的話(huà),歡迎下載最新版的 JMP 17 免費(fèi)試用。

可以復(fù)制以下鏈接到瀏覽器下載:

https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002DxWTQA0&utm_source=bilibili&utm_medium=social


掃描二維碼,下載JMP試用

?


刪失數(shù)據(jù)處理中的陷阱與正確應(yīng)對(duì)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
丹阳市| 明水县| 萨迦县| 通海县| 海原县| 郁南县| 息烽县| 安化县| 望都县| 陆良县| 邹城市| 泽州县| 长乐市| 巴林右旗| 峨边| 石景山区| 永年县| 威宁| 徐州市| 富阳市| 湖南省| 义乌市| 深泽县| 灵宝市| 墨竹工卡县| 克山县| 湖南省| 南川市| 区。| 秀山| 彭泽县| 武隆县| 隆德县| 丘北县| 丰县| 文成县| 南宁市| 陈巴尔虎旗| 西安市| 正安县| 佛冈县|