常用SPSS數(shù)據(jù)處理方法,你都會嗎?
數(shù)據(jù)處理和數(shù)據(jù)管理是數(shù)據(jù)錄入后緊接著需要做的事情。尤其是當(dāng)面對大量數(shù)據(jù)時,數(shù)據(jù)處理可以幫助我們從大量數(shù)據(jù)中抽取出有價值的信息,達到提高處理效率及精度的目的。
為配合進行更好的分析,可能涉及到以下數(shù)據(jù)處理工作:定義變量名;制定數(shù)據(jù)標(biāo)簽;數(shù)據(jù)編碼;計算變量;無效樣本處理;特殊值處理等。
定義變量
定義變量,就是給每個指標(biāo)起名字。每個變量都需要有對應(yīng)的變量名,以便得到更規(guī)范的表格呈現(xiàn)和操作體驗,spssau中通過“標(biāo)題修改”定義變量名,一般用于以下情況:
上傳數(shù)據(jù)后,對不規(guī)范標(biāo)題修改
完成數(shù)據(jù)編碼后,進行標(biāo)題修改
完成生成變量后,進行標(biāo)題修改
有多余無意義的標(biāo)題,進行刪除標(biāo)題(一次只能刪除一個標(biāo)題)
數(shù)據(jù)標(biāo)簽
除了標(biāo)題名需要定義,數(shù)據(jù)標(biāo)簽也是一個重要的屬性。數(shù)據(jù)標(biāo)簽用于標(biāo)識數(shù)據(jù)中的數(shù)字代表的意義,對數(shù)據(jù)的含義進行解釋說明,比如用1表示男,用2表示女。數(shù)據(jù)標(biāo)簽僅影響表格展示,完全不影響分析結(jié)果。
數(shù)據(jù)編碼
量表問卷中經(jīng)常會使用到反向計分,反項題得到數(shù)據(jù)在分析以前,要先進行重新編碼。
數(shù)據(jù)編碼通常除了用于處理反項題,還會用于數(shù)據(jù)組合。
比如1代表高中,2代表大專,3代表本科,4代表碩士,5代表博士。希望組合成三組分別是:本科以下,本科,碩士及以上.則可處理為:1->1,2->1,3->2,4->3,5->3,最終數(shù)字1代表本科以下,2代表本科,3代表碩士及以上
無效樣本
在數(shù)據(jù)分析之前,首先需要進行數(shù)據(jù)查看,包括數(shù)據(jù)中是否有異常值,無效樣本等。如果有無效樣本則需要進行處理,然后再進行分析。另外如果數(shù)據(jù)中有異常值也需要進行處理后再進行分析。無效樣本會干擾分析研究,扭曲數(shù)據(jù)結(jié)論等,因而在分析前先對無效樣本進行標(biāo)識顯示尤其必要。
如果數(shù)據(jù)來源為問卷,則很可能出現(xiàn)無效樣本,因為填寫問卷的樣本是否真實填寫無從判定;如果數(shù)據(jù)庫下載或者使用二手?jǐn)?shù)據(jù)等,也可能出現(xiàn)大量缺失數(shù)據(jù)等無效樣本。
無效樣本的常見使用場景:
1. 問卷研究中亂填問卷的樣本;
2. 數(shù)據(jù)庫下載的數(shù)據(jù)中有大量缺失數(shù)據(jù);
3. 二手?jǐn)?shù)據(jù)中包括無效或缺失數(shù)據(jù);
4. 其它收集數(shù)據(jù)中有無效樣本時。
異常值
缺失值或異常值是一個重要但容易被忽略的問題。不論什么研究數(shù)據(jù),如果數(shù)據(jù)中存在可能的異常值,均應(yīng)在分析之前處理,防止異常值帶來的干擾,比如異常值會扭曲X和Y之間的相關(guān)關(guān)系,回歸關(guān)系等,異常錯誤的結(jié)論;當(dāng)然其它研究方法基本均會受到異常值的干擾,異常值較多或者異常稍大時,此時會直接扭曲結(jié)論。
計算變量
上傳數(shù)據(jù),并修改好各標(biāo)題名、數(shù)據(jù)標(biāo)簽后,我們就已經(jīng)得到了原始的數(shù)據(jù)庫,可以開始進行數(shù)據(jù)分析了。
不過實際情況中,往往不能直接使用原始數(shù)據(jù)進行統(tǒng)計分析,原因是數(shù)據(jù)中可能存在因錄入錯誤或原始問卷記錄錯誤導(dǎo)致的不正確的數(shù)據(jù)?;蛘卟煌芯磕康?,需要結(jié)合不同分析方法進行分析,而不同的統(tǒng)計方法對變量的需求也不盡相同,因此需要對數(shù)據(jù)重新調(diào)整或轉(zhuǎn)換。
計算變量功能是指對問卷某題項或者多個題項進行處理的一種數(shù)學(xué)變換。通常情況下,問卷研究中共有兩種情況會使用此功能,分別是變量生成和變量處理。
多數(shù)情況下,一個變量由多個題項表示,而最終進行相關(guān)、回歸等分析時僅能使用一個變量,此時則需要將多個題項進行計算平均值處理,多個題項的綜合平均值代表此變量。另外,如果需要對數(shù)據(jù)取對數(shù),或者進行題項或者變量之間的加減計算時,均需要使用計算變量功能實現(xiàn)。計算變量功能僅適用于定量數(shù)據(jù),分類數(shù)據(jù)不需要進行加減或者取平均值處理等。
比如網(wǎng)購滿意度由4項表示,希望將4項處理成一個整體(網(wǎng)購滿意度),則將此4項進行選中,并且告訴SPSSAU‘變量名字’。生成變量可做以下功能:
平均值、求和、中位數(shù)、乘積
標(biāo)準(zhǔn)化、中心化、最大最小歸一化
虛擬變量
平方、根號
自然對數(shù)、10為底對數(shù)
絕對值
正向化、逆向化
總結(jié)來說,數(shù)據(jù)處理是很容易被輕視的工作,但往往數(shù)據(jù)處理的好壞會決定之后工作的難度,并直接影響到數(shù)據(jù)分析的結(jié)果,因此把數(shù)據(jù)處理重視起來!