幾種常見的數(shù)據(jù)標(biāo)準(zhǔn)化的方法總結(jié)!
一、標(biāo)準(zhǔn)化
在進行數(shù)據(jù)分析時,數(shù)據(jù)具有單位是非常常見的,比如說GDP可以以億作為單元,也可以以百萬作為單位,那么此時就會出現(xiàn)由于單位問題導(dǎo)致的數(shù)字大小問題;這種情況對于分析可能產(chǎn)生影響,因此需要對其進行處理,但是處理的前提是不能失去數(shù)字的相對意義,即之前數(shù)字越大代表GDP越高,處理后的數(shù)據(jù)也不能失去這個特性。
也或者計算距離,數(shù)字1和2的距離可以直接相減得到距離值為1; 另外一組數(shù)據(jù)為10000和20000,兩個數(shù)字直接相減得到距離值為10000。如果說距離數(shù)字越大代表距離越遠,那么明顯的10000大于1,但這種情況僅僅是由于數(shù)據(jù)單位導(dǎo)致的,而并非實際希望如何。類似這些情況要進行數(shù)據(jù)分析之前,有時候需要先將數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)的標(biāo)準(zhǔn)化就是通過一定的數(shù)學(xué)變換方式,對原始數(shù)據(jù)進行一定的轉(zhuǎn)換,使原始數(shù)據(jù)轉(zhuǎn)換為無量綱化指標(biāo)測評值,即各指標(biāo)值都處于同一個數(shù)量級別上,這樣可以進行綜合分析和比較。
二、幾種數(shù)據(jù)標(biāo)準(zhǔn)化的方法
(1)標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化是一種最為常見的量綱化處理方式。其計算公式為:

此種處理方式會讓數(shù)據(jù)呈現(xiàn)出一種特征,即數(shù)據(jù)的平均值一定為0,標(biāo)準(zhǔn)差一定是1。針對數(shù)據(jù)進行了壓縮大小處理,同時還讓數(shù)據(jù)具有特殊特征(平均值為0標(biāo)準(zhǔn)差為1)。
在很多研究算法中均有使用此種處理,比如聚類分析前一般需要進行標(biāo)準(zhǔn)化處理,也或者因子分析時默認會對數(shù)據(jù)標(biāo)準(zhǔn)化處理。
比如聚類分析時,其內(nèi)部算法原理在于距離大小來衡量數(shù)據(jù)間的聚集關(guān)系,因此默認SPSSAU會選中進行標(biāo)準(zhǔn)化處理。
除此之外,還有一些特殊的研究方法,比如社會學(xué)類進行中介作用,或者調(diào)節(jié)作用研究時,也可能會對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。
(2)?歸一化
歸一化的目的是讓數(shù)據(jù)壓縮在【0,1】范圍內(nèi),包括兩個邊界數(shù)字0和數(shù)字1;其計算公式為:

當(dāng)某數(shù)據(jù)剛好為最小值時,則歸一化后為0;如果數(shù)據(jù)剛好為最大值時,則歸一化后為1。
歸一化也是一種常見的量綱處理方式,可以讓所有的數(shù)據(jù)均壓縮在【0,1】范圍內(nèi),讓數(shù)據(jù)之間的數(shù)理單位保持一致。
(3)中心化
中心化這種量綱處理方式可能在社會科學(xué)類研究中使用較多,比如進行中介作用,或者調(diào)節(jié)作用研究。其計算公式為:x-μ。
此種處理方式會讓數(shù)據(jù)呈現(xiàn)出一種特征,即數(shù)據(jù)的平均值一定為0。針對數(shù)據(jù)進行了壓縮大小處理,同時還讓數(shù)據(jù)具有特殊特征(平均值為0)。
平均值為0是一種特殊情況,比如在社會學(xué)研究中就偏好此種量綱處理方式,調(diào)節(jié)作用研究時可能會進行簡單斜率分析,那么平均值為0表示中間狀態(tài),平均值加上一個標(biāo)準(zhǔn)差表示高水平狀態(tài);也或者平均值減一個標(biāo)準(zhǔn)差表示低水平狀態(tài)。
三、使用SPSSAU進行標(biāo)準(zhǔn)化操作
以上提到的幾種數(shù)據(jù)標(biāo)準(zhǔn)化處理的方法,在SPSSAU中的【數(shù)據(jù)處理】->【生成變量】都有提供,如圖所示:

不同的數(shù)據(jù)標(biāo)準(zhǔn)化的操作過程都是一樣的,以下以最常用的Z標(biāo)準(zhǔn)化來說明如何對數(shù)據(jù)進行標(biāo)準(zhǔn)化。
(1)案例數(shù)據(jù)
下圖是部分案例數(shù)據(jù),希望對X變量和Y變量的數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。

(2)上傳數(shù)據(jù)到SPSSAU



(3)標(biāo)準(zhǔn)化處理步驟
1、選中SPSSAU【數(shù)據(jù)處理】-【生成變量】

2、右側(cè)選項卡選擇標(biāo)準(zhǔn)化(S)

選中想要進行標(biāo)準(zhǔn)化的數(shù)據(jù):

點擊【確認處理】,SPSSAU會生成新的進行標(biāo)準(zhǔn)化處理后的兩個變量,而非原始數(shù)據(jù)基礎(chǔ)上修改。

這樣就完成了對數(shù)據(jù)的標(biāo)準(zhǔn)化處理,得出標(biāo)準(zhǔn)化的數(shù)據(jù)后,就可以進行后續(xù)的分析了。
在實際研究時具體應(yīng)該使用那一種處理方式,其實并沒有固定的要求,而是結(jié)合實際情況或者實際研究進行。比如社會學(xué)類的中介作用和調(diào)節(jié)作用偏好于使用中心化或標(biāo)準(zhǔn)化這種處理方式;聚類分析或者因子分析等使用默認會使用標(biāo)準(zhǔn)化。
如果單獨的就是想對數(shù)據(jù)量綱進行處理(且沒有分析方法上的常用習(xí)慣),那么通常默認是使用標(biāo)準(zhǔn)化或者歸一化最多,標(biāo)準(zhǔn)化直接把數(shù)據(jù)壓縮且數(shù)據(jù)有一種特質(zhì)即平均值為0標(biāo)準(zhǔn)差為1的特質(zhì);歸一化把數(shù)據(jù)壓縮在【0,1】之間。也或者使用中心化讓數(shù)據(jù)有一種特質(zhì)即平均值為0。