數(shù)據(jù)的缺失值處理說明
缺失值說明
缺失值產(chǎn)生的原因
缺失值處理
缺失值說明
缺失數(shù)據(jù)是指粗糙數(shù)據(jù)中由于缺少信息而造成的數(shù)據(jù)的聚類、分組、刪失或截斷 。缺失數(shù)據(jù)的處理在數(shù)據(jù)分析中屬于預(yù)處理,數(shù)據(jù)在收集過程中的不完整 、不一致等情況,會影響數(shù)據(jù)分析的質(zhì)量和結(jié)果的穩(wěn)健性,所以對原始數(shù)據(jù)的預(yù)處理也非常重要。
缺失值產(chǎn)生的原因
缺失數(shù)據(jù)產(chǎn)生的原因有很多,不同的研究領(lǐng)域各不相同,但是大多分主觀因素和客觀因素,客觀因素比如機器故障,數(shù)據(jù)儲存失敗等;主觀則是由于人為因素,比如調(diào)查文問卷時,問題無效,或者被調(diào)查者拒絕回答等。
缺失值處理
數(shù)據(jù)缺失的現(xiàn)象普遍存在,解決統(tǒng)計調(diào)查中的缺失值問題,是提高數(shù)據(jù)質(zhì)量的重要一步,利用SPSSAU進行對缺失值的處理,缺失值處理大致可以分成以下幾類:
(1)刪除數(shù)據(jù)(處理成null)
利用SPSSAU中數(shù)據(jù)處理的異常值處理可以將缺失數(shù)據(jù)設(shè)置為null。如果這些缺失數(shù)目占的比例不是很大,那么可以考慮直接刪去,如果缺失數(shù)據(jù)占比較大,不建議此處理,可能會對最后的結(jié)果造成嚴重的影響。
(2)填補數(shù)據(jù)
如果異常值非常多時,則可能需要進行填補設(shè)置,SPSSAU共提供平均值,中位數(shù),眾數(shù)、隨機數(shù)、數(shù)字0和自定義數(shù)字共六種填補方式。建議使用平均值填補方式。
(3)插值法
插值法的思想是用最可能的值來插補缺失值要比刪除不完全樣本或變量丟失的信息少。SPSSAU提供線性插值,該點線性趨勢插值。
操作: