數(shù)據(jù)處理——17種無量綱化處理方法說明
針對小伙伴們有關(guān)無量綱化處理的提問,今天將常用的無量綱化處理方法進(jìn)行一個匯總說明,SPSSAU提供17種數(shù)據(jù)無量綱化處理方法,如下圖:
一、無量綱化
?1、定義
無量綱化,也稱為數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化,是指不同指標(biāo)之間由于量綱不同導(dǎo)致的不具有可比性,所以需要先進(jìn)行無量綱化處理;它是通過數(shù)據(jù)變換來消除原始變量的量綱影響的方法;消除量綱影響后再進(jìn)行后續(xù)分析。
?2、解釋說明
例如:某市醫(yī)院建設(shè)投入金額為5千萬,最終出院率為92%。那么在同時使用這兩個指標(biāo)比如根據(jù)距離計算優(yōu)劣時,會出現(xiàn)兩個問題——單位問題和方向問題。
單位問題:從數(shù)量級上來看,5千萬與92%二者之間相差很大。
方向問題:從數(shù)據(jù)方向來看,希望投入越低越好,出院率越高越好,二者方向不一致。
如果不解決數(shù)據(jù)的單位問題和方向問題,那么數(shù)據(jù)之間是不具有可比性的。故需要將指標(biāo)進(jìn)行無量綱化處理后,再進(jìn)行接下來的分析。
17種無量綱化處理方法,對于單位問題和方向問題處理有所差異。例如標(biāo)準(zhǔn)化能夠解決單位問題,不能夠解決方向問題;各類處理方式對比如下表:
二、無量綱化方法選擇
在研究時具體應(yīng)該使用哪一種處理方式呢,其實(shí)并沒有固定的要求,而是結(jié)合實(shí)際情況或者實(shí)際研究進(jìn)行。
比如熵值法計算權(quán)重時,通常需要處理數(shù)據(jù)的方向問題,可以使用正向化、逆向化處理方式;但對于數(shù)據(jù)的單位問題,可以處理也可以不處理,對于分析并沒有太大影響,如果要處理可以選擇歸一化處理方式。
常用分析方法的無量綱化處理方式對比如下表:
如果單獨(dú)想對數(shù)據(jù)量綱進(jìn)行處理,那么通常默認(rèn)是使用標(biāo)準(zhǔn)化或者歸一化最多,標(biāo)準(zhǔn)化直接把數(shù)據(jù)壓縮且數(shù)據(jù)有一種特質(zhì)即平均值為0標(biāo)準(zhǔn)差為1的特質(zhì);歸一化把數(shù)據(jù)壓縮在?[0,1]?之間。也或者使用中心化讓數(shù)據(jù)有一種特質(zhì)即平均值為0。
三、SPSSAU無量綱化處理
使用SPSSAU進(jìn)行無量綱化處理,位于SPSSAU數(shù)據(jù)處理->【生成變量】
可批量選中需要進(jìn)行無量綱化處理的指標(biāo),選擇相應(yīng)無量綱化處理方法,確認(rèn)處理即可完成。
四、17種無量綱處理方法說明
SPSSAU共提供17種無量綱化處理方法,其中比較常用的比如:標(biāo)準(zhǔn)化、中心化、歸一化、均值化、正向化、逆向化等等;匯總說明如下表:
備注:表格中,X表示某數(shù)據(jù),Mean表示平均值,Std表示標(biāo)準(zhǔn)差;Min表示最小值,Max表示最大值,Sum表示求和,Sqrt表示開根號;接下來將逐個進(jìn)行說明。
?1、標(biāo)準(zhǔn)化(S)
計算公式為:(X-Mean)/ Std
標(biāo)準(zhǔn)化是一種最為常見的量綱化處理方式。此種處理方式會讓數(shù)據(jù)呈現(xiàn)出一種特征,即數(shù)據(jù)的平均值一定為0,標(biāo)準(zhǔn)差一定是1。針對數(shù)據(jù)進(jìn)行了壓縮大小處理,同時還讓數(shù)據(jù)具有特殊特征(平均值為0標(biāo)準(zhǔn)差為1)。
在很多研究算法中均有使用此種處理,比如聚類分析前一般需要進(jìn)行標(biāo)準(zhǔn)化處理,也或者因子分析時默認(rèn)會對數(shù)據(jù)標(biāo)準(zhǔn)化處理。
除此之外,還有一些特殊的研究方法,比如社會學(xué)類進(jìn)行中介作用,或者調(diào)節(jié)作用研究時,也可能會對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
2、中心化(C)
計算公式為:X – Mean
中心化這種量綱處理方式可能在社會科學(xué)類研究中使用較多,比如進(jìn)行中介作用,或者調(diào)節(jié)作用研究。此種處理方式會讓數(shù)據(jù)呈現(xiàn)出一種特征,即數(shù)據(jù)的平均值一定為0。針對數(shù)據(jù)進(jìn)行了壓縮大小處理,同時還讓數(shù)據(jù)具有特殊特征(平均值為0)。
平均值為0是一種特殊情況,比如在社會學(xué)研究中就偏好此種量綱處理方式,調(diào)節(jié)作用研究時可能會進(jìn)行簡單斜率分析,那么平均值為0表示中間狀態(tài),平均值加上一個標(biāo)準(zhǔn)差表示高水平狀態(tài);也或者平均值減一個標(biāo)準(zhǔn)差表示低水平狀態(tài)。
3、歸一化(MMS)
計算公式為:(X - Min)/ (Max - Min)
歸一化的目的是讓數(shù)據(jù)壓縮在
[0,1]
范圍內(nèi),包括兩個邊界數(shù)字0和數(shù)字1;當(dāng)某數(shù)據(jù)剛好為最小值時,則歸一化后為0;如果數(shù)據(jù)剛好為最大值時,則歸一化后為1。歸一化也是一種常見的量綱處理方式,可以讓所有的數(shù)據(jù)均壓縮在?[0,1]?范圍內(nèi),讓數(shù)據(jù)之間的數(shù)理單位保持一致。
4、均值化(MC)
計算公式為:X
/
Mean
均值化在綜合評價時有可能使用,比如進(jìn)行灰色關(guān)聯(lián)法研究時就常用此種處理方式;需要特別說明一點(diǎn)是,此種處理方式有個前提,即所有的數(shù)據(jù)均應(yīng)該大于0,否則可能就不適合用此種量綱方式。
?5、正向化(MMS)
計算公式為:(X
- Min)/
(Max - Min)。
正向化的目的是對正向指標(biāo)保持正向且量綱化。比如GDP增長率、科研產(chǎn)出數(shù)量這兩個指標(biāo);GDP增長率、科研產(chǎn)出數(shù)量是數(shù)字越大越好。正向化的目的就是讓數(shù)字越大越好的意思,而且同時其還讓數(shù)據(jù)壓縮在?[0,1]?范圍內(nèi)即進(jìn)行了量綱處理。
當(dāng)某數(shù)據(jù)剛好為最小值時,則歸一化后為0;如果數(shù)據(jù)剛好為最大值時,則歸一化后為1。正向化和歸一化的公式剛好完全相等,但正向化強(qiáng)調(diào)讓數(shù)字保持越大越好的特性且對數(shù)據(jù)單位壓縮,而歸一化僅強(qiáng)調(diào)數(shù)字壓縮在?[0,1]?之間。正向化的使用情況為:當(dāng)指標(biāo)中有正向指標(biāo),又有負(fù)向指標(biāo)時;此時使用正向化讓正向指標(biāo)全部量綱化;也或者指標(biāo)全部都是正向指標(biāo),讓所有正向指標(biāo)都量綱化處理。
?6、逆向化(NMMS)
計算公式為:(Max - X)/ (Max - Min)
逆向化的目的是對逆向指標(biāo)正向且量綱化。比如失業(yè)率這個指標(biāo);失業(yè)率是數(shù)字越小越好。逆向化的目的就是讓數(shù)字越小越好的意思,而且同時其還讓數(shù)據(jù)壓縮在?[0,1]?范圍內(nèi)即進(jìn)行了量綱處理。
從公式就可以看出,分母永遠(yuǎn)是大于0,隨著X的增大,分子會越來越小,那么就對逆向指標(biāo)逆向化處理之后就會得到一個這樣的特征,即數(shù)字越大越好(數(shù)字越大時,其實(shí)X是越?。?/p>
相當(dāng)于將逆向指標(biāo)逆向化后,新的數(shù)據(jù)為數(shù)字越大越好,這樣便于進(jìn)行方向的統(tǒng)一,尤其是在指標(biāo)同時出現(xiàn)正向指標(biāo)和逆向指標(biāo)時,針對逆向指標(biāo)進(jìn)行逆向處理,是非常常見的處理方式。
?7、適度化(M)
其計算公式為:-|X-K|
適度化其目的是讓K適度系數(shù)值作為參考標(biāo)準(zhǔn),比如K=1,其意義為數(shù)字越接近于1,適度化后數(shù)字越大,適度化處理后數(shù)字均小于等于0,但越接近0說明其離K值越近;
?8、區(qū)間化(Interval))
其計算公式為:
區(qū)間化的目的是讓數(shù)據(jù)壓縮在?[a,b]?范圍內(nèi),a和b是自己希望的區(qū)間值,如果a=0,b=1,那么其實(shí)就是一種特殊情況即歸一化;
此公式會讓數(shù)據(jù)永遠(yuǎn)的保持在?[a,b]?之間,SPSSAU默認(rèn)a為1,b為2,即將數(shù)據(jù)壓縮在 [1,2] 之間,當(dāng)然研究者根據(jù)需要進(jìn)行設(shè)置即可。它的目的僅僅是對數(shù)據(jù)進(jìn)行壓縮在固定的區(qū)間,保持?jǐn)?shù)據(jù)數(shù)理單位的一致性。
9、初值化(Init)
計算公式為:X
/ 該列第1個不為空的數(shù)據(jù)
初值化在綜合評價時有可能使用,比如進(jìn)行灰色關(guān)聯(lián)法研究時就常用此種處理方式;即以數(shù)據(jù)中第1個不為空的數(shù)據(jù)作為參照標(biāo)準(zhǔn),其余的數(shù)據(jù)全部去除以該值。
比如說2000,2001,2002,2003,一直到2022共計23年的GDP數(shù)據(jù),第1個數(shù)據(jù)就是2000年的GDP,所有的數(shù)據(jù)都去除以2000年的GDP,相當(dāng)于以2000年GDP作為參照標(biāo)準(zhǔn),所有數(shù)據(jù)全部除以2000年的GDP(包括2000年GDP除以自己得到數(shù)字1)。
一般來說,初值化這種處理方式適用于有著一種趨勢或規(guī)律性的數(shù)據(jù),比如上述2000~2022年的GDP等,而且數(shù)據(jù)正常情況下都是全部大于0,因?yàn)槌霈F(xiàn)負(fù)數(shù),通常會失去其特定意義。
?10、最小值化(MinS)
其計算公式為:X
/ Min
最小值化其目的是讓最小值作為參照標(biāo)準(zhǔn),所有的數(shù)據(jù)全部除以最小值;
需要特別說明一點(diǎn)是,此種處理方式時一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種無量綱化處理方式。
?11、最大值化(MaxS)
計算公式為:X / Max
最大值化其目的是讓最大值作為參照標(biāo)準(zhǔn),所有的數(shù)據(jù)全部除以最大值;即以最大值作為單位,全部數(shù)據(jù)全部去除以最大值。
需要特別說明一點(diǎn)是,此種處理方式時一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種無量綱化處理方式。
?12、求和歸一化(SN)
計算公式為:X
/ Sum(X)
求和歸一化其目的是讓‘求和值’作為參照標(biāo)準(zhǔn),所有的數(shù)據(jù)全部除以求和值,得到的數(shù)據(jù)相當(dāng)于為求和的占比。
需要特別說明一點(diǎn)是,此種處理方式時一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種無量綱化處理方式。TOPSIS法的時候使用此種處理方式較多。
?13、平方和歸一化(SSN)
計算公式為:X
/ Sqrt(Sum(X^2))
平方和歸一化其目的是讓 ‘ 平方和值 ’ 作為參照標(biāo)準(zhǔn),所有的數(shù)據(jù)全部除以平方和值,得到的數(shù)據(jù)相當(dāng)于為平方和的占比。
需要特別說明一點(diǎn)是,此種處理方式時一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種量綱方式。TOPSIS法的時候使用此種處理方式較多。
?14、固定值化(CloseFixedValue)
計算公式為:
固定值化其目的是讓某一固定值FixedValue作為標(biāo)準(zhǔn);比如固定值為10,則分母為一定值——代表所有數(shù)據(jù)離10的最遠(yuǎn)距離。固定值化的實(shí)際意義為離10的相對距離(處理后數(shù)字越大越接近,數(shù)據(jù)越小越遠(yuǎn)離),經(jīng)過固定值化處理,使數(shù)據(jù)壓縮在 [0,1] 之間,0代表遠(yuǎn)離10,1代表剛好為10。固定值化時離固定值FixedValue越近越好。
?15、偏固定值化(OffFixedValue)
計算公式為:
偏固定值化其目的是讓某一固定值FixedValue作為標(biāo)準(zhǔn);比如固定值為10,固定值化的實(shí)際意義為離10的相對距離(處理后數(shù)字越大越遠(yuǎn)離,數(shù)據(jù)越小越接近),經(jīng)過固定值化處理,使數(shù)據(jù)壓縮在 [0,1] 之間,0代表剛好為10,1代表遠(yuǎn)離10。偏固定值化時離固定值FixedValue越遠(yuǎn)越好。
?16、近區(qū)間化(CloseInterval)
計算公式為:
近區(qū)間化其目的是讓某一區(qū)間(p,q)作為標(biāo)準(zhǔn),屬于該區(qū)間的數(shù)值取數(shù)字1,不屬于的進(jìn)行近區(qū)間化處理,近區(qū)間化時離(p,q)區(qū)間越近越好。
?17、偏區(qū)間化(OffInterval)
其計算公式為:
偏區(qū)間化其目的是讓某一區(qū)間(p,q)作為標(biāo)準(zhǔn),屬于該區(qū)間的數(shù)值取數(shù)字1,不屬于的進(jìn)行偏區(qū)間化處理,偏區(qū)間化時離(p,q)區(qū)間越遠(yuǎn)越好。
數(shù)據(jù)無量綱化處理方法相關(guān)內(nèi)容可查看SPSSAU幫助手冊:https://spssau.com/helps/otherdocuments/methodsdatafor?mat.html