最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

「SPSSAU|數(shù)據(jù)分析」:必看!12種量綱化處理方式!

2022-07-04 10:54 作者:SPSSAU官方賬號(hào)  | 我要投稿

在進(jìn)行數(shù)據(jù)分析時(shí),數(shù)據(jù)具有單位是非常常見(jiàn)的,比如說(shuō)GDP可以以?xún)|作為單元,也可以以百萬(wàn)作為單位,那么此時(shí)就會(huì)出現(xiàn)由于單位問(wèn)題導(dǎo)致的數(shù)字大小問(wèn)題;這種情況對(duì)于分析可能產(chǎn)生影響,因此需要對(duì)其進(jìn)行處理,但是處理的前提是不能失去數(shù)字的相對(duì)意義,即之前數(shù)字越大代表GDP越高,處理后的數(shù)據(jù)也不能失去這個(gè)特性,類(lèi)似這樣的處理我們統(tǒng)稱(chēng)為量綱化。

也或者計(jì)算距離,數(shù)字1和2的距離可以直接相減得到距離值為1; 另外一組數(shù)據(jù)為10000和20000,兩個(gè)數(shù)字直接相減得到距離值為10000。如果說(shuō)距離數(shù)字越大代表距離越遠(yuǎn),那么明顯的10000大于1,但這種情況僅僅是由于數(shù)據(jù)單位導(dǎo)致的,而并非實(shí)際希望如何,因此就需要進(jìn)行量綱化處理。

量綱化有很多種方式,但具體應(yīng)該使用那一種方式,并沒(méi)有固定的標(biāo)準(zhǔn),而應(yīng)該結(jié)合數(shù)據(jù)情況或者研究算法,選擇最適合的量綱化處理方式,SPSSAU共提供12種量綱化處理方法,如下圖。

1 量綱化基本說(shuō)明

關(guān)于量綱化,其具體的公式計(jì)算如下,接下來(lái)會(huì)逐一說(shuō)明。

12種量綱化類(lèi)型


備注:表格中,X表示某數(shù)據(jù),Mean表示平均值,Std表示標(biāo)準(zhǔn)差;Min表示最小值,Max表示最大值,Sum表示求和,Sqrt表示開(kāi)根號(hào)。


1) 標(biāo)準(zhǔn)化(S)

標(biāo)準(zhǔn)化是一種最為常見(jiàn)的量綱化處理方式。其計(jì)算公式為:(X-Mean)/ Std。

此種處理方式會(huì)讓數(shù)據(jù)呈現(xiàn)出一種特征,即數(shù)據(jù)的平均值一定為0,標(biāo)準(zhǔn)差一定是1。針對(duì)數(shù)據(jù)進(jìn)行了壓縮大小處理,同時(shí)還讓數(shù)據(jù)具有特殊特征(平均值為0標(biāo)準(zhǔn)差為1)。

在很多研究算法中均有使用此種處理,比如聚類(lèi)分析前一般需要進(jìn)行標(biāo)準(zhǔn)化處理,也或者因子分析時(shí)默認(rèn)會(huì)對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理。

比如聚類(lèi)分析時(shí),其內(nèi)部算法原理在于距離大小來(lái)衡量數(shù)據(jù)間的聚集關(guān)系,因此默認(rèn)SPSSAU會(huì)選中進(jìn)行標(biāo)準(zhǔn)化處理。

除此之外,還有一些特殊的研究方法,比如社會(huì)學(xué)類(lèi)進(jìn)行中介作用,或者調(diào)節(jié)作用研究時(shí),也可能會(huì)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。


2)?中心化(C)

中心化這種量綱處理方式可能在社會(huì)科學(xué)類(lèi)研究中使用較多,比如進(jìn)行中介作用,或者調(diào)節(jié)作用研究。其計(jì)算公式為:X - Mean。

此種處理方式會(huì)讓數(shù)據(jù)呈現(xiàn)出一種特征,即數(shù)據(jù)的平均值一定為0。針對(duì)數(shù)據(jù)進(jìn)行了壓縮大小處理,同時(shí)還讓數(shù)據(jù)具有特殊特征(平均值為0)。

平均值為0是一種特殊情況,比如在社會(huì)學(xué)研究中就偏好此種量綱處理方式,調(diào)節(jié)作用研究時(shí)可能會(huì)進(jìn)行簡(jiǎn)單斜率分析,那么平均值為0表示中間狀態(tài),平均值加上一個(gè)標(biāo)準(zhǔn)差表示高水平狀態(tài);也或者平均值減一個(gè)標(biāo)準(zhǔn)差表示低水平狀態(tài)。


3)?歸一化(MMS)

歸一化的目的是讓數(shù)據(jù)壓縮在【0,1】范圍內(nèi),包括兩個(gè)邊界數(shù)字0和數(shù)字1;其計(jì)算公式為(X - Min)/ (Max - Min)。

當(dāng)某數(shù)據(jù)剛好為最小值時(shí),則歸一化后為0;如果數(shù)據(jù)剛好為最大值時(shí),則歸一化后為1。

歸一化也是一種常見(jiàn)的量綱處理方式,可以讓所有的數(shù)據(jù)均壓縮在【0,1】范圍內(nèi),讓數(shù)據(jù)之間的數(shù)理單位保持一致。


4)?均值化(MC)

均值化在綜合評(píng)價(jià)時(shí)有可能使用,比如進(jìn)行灰色關(guān)聯(lián)法研究時(shí)就常用此種處理方式;其計(jì)算公式為X / Mean,即以平均值作為單位,全部數(shù)據(jù)均去除以平均值。

需要特別說(shuō)明一點(diǎn)是,此種處理方式有個(gè)前提,即所有的數(shù)據(jù)均應(yīng)該大于0,否則可能就不適合用此種量綱方式。


5)?正向化(MMS)

正向化的目的是對(duì)正向指標(biāo)保持正向且量綱化,什么意思呢。比如這樣一些指標(biāo)GDP增長(zhǎng)率、科研產(chǎn)出數(shù)量、失業(yè)率共3個(gè)指標(biāo);明顯的,GDP增長(zhǎng)率、科研產(chǎn)出數(shù)量是數(shù)字越大越好,而失業(yè)率是數(shù)字越小越好。

正向化的目的就是讓數(shù)字越大越好的意思,而且同時(shí)其還讓數(shù)據(jù)壓縮在【0,1】范圍內(nèi)即進(jìn)行了量綱處理。其計(jì)算公式為(X - Min)/ (Max - Min)。

當(dāng)某數(shù)據(jù)剛好為最小值時(shí),則歸一化后為0;如果數(shù)據(jù)剛好為最大值時(shí),則歸一化后為1。

正向化和歸一化的公式剛好完全相等,但正向化強(qiáng)調(diào)讓數(shù)字保持越大越好的特性且對(duì)數(shù)據(jù)單位壓縮,而歸一化僅強(qiáng)調(diào)數(shù)字壓縮在【0,1】之間。

正向化的使用情況為:當(dāng)指標(biāo)中有正向指標(biāo),又有負(fù)向指標(biāo)時(shí);此時(shí)使用正向化讓正向指標(biāo)全部量綱化;也或者指標(biāo)全部都是正向指標(biāo),讓所有正向指標(biāo)都量綱化處理。


6)?逆向化(NMMS)

逆向化的目的是對(duì)逆向指標(biāo)正向且量綱化,什么意思呢。比如這樣一些指標(biāo)GDP增長(zhǎng)率、科研產(chǎn)出數(shù)量、失業(yè)率共3個(gè)指標(biāo);明顯的,GDP增長(zhǎng)率、科研產(chǎn)出數(shù)量是數(shù)字越大越好,而失業(yè)率是數(shù)字越小越好。

逆向化的目的就是讓數(shù)字越小越好的意思,而且同時(shí)其還讓數(shù)據(jù)壓縮在【0,1】范圍內(nèi)即進(jìn)行了量綱處理。其計(jì)算公式為(Max - X)/ (Max - Min)。

從公式就可以看出,分母永遠(yuǎn)是大于0,隨著X的增大,分子會(huì)越來(lái)越小,那么就對(duì)逆向指標(biāo)逆向化處理之后就會(huì)得到一個(gè)這樣的特征,即數(shù)字越大越好(數(shù)字越大時(shí),其實(shí)X是越?。?。

相當(dāng)于將逆向指標(biāo)逆向化后,新的數(shù)據(jù)為數(shù)字越大越好,這樣便于進(jìn)行方向的統(tǒng)一,尤其是在指標(biāo)同時(shí)出現(xiàn)正向指標(biāo)和逆向指標(biāo)時(shí),針對(duì)逆向指標(biāo)進(jìn)行逆向處理,是非常常見(jiàn)的處理方式。


7)?區(qū)間化(Interval)

區(qū)間化的目的是讓數(shù)據(jù)壓縮在【a,b】范圍內(nèi),a和b是自己希望的區(qū)間值,如果a=0,b=1,那么其實(shí)就是一種特殊情況即歸一化;其計(jì)算公式為a + (b - a) * (X - Min)/(Max - Min)。

此公式會(huì)讓數(shù)據(jù)永遠(yuǎn)的保持在【a,b】之間,SPSSAU默認(rèn)a為1,b為2,即將數(shù)據(jù)壓縮在【1,2】之間,當(dāng)然研究者根據(jù)需要進(jìn)行設(shè)置即可。它的目的僅僅是對(duì)數(shù)據(jù)進(jìn)行壓縮在固定的區(qū)間,保持?jǐn)?shù)據(jù)數(shù)理單位的一致性。


8)?初值化(Init)

初值化在綜合評(píng)價(jià)時(shí)有可能使用,比如進(jìn)行灰色關(guān)聯(lián)法研究時(shí)就常用此種處理方式;其計(jì)算公式為X / 該列第1個(gè)不為空的數(shù)據(jù),即以數(shù)據(jù)中第1個(gè)不為空的數(shù)據(jù)作為參照標(biāo)準(zhǔn),其余的數(shù)據(jù)全部去除以該值。

比如說(shuō)2000,2001,2002,2003,一直到2020共計(jì)21年的GDP數(shù)據(jù),第1個(gè)數(shù)據(jù)就是2000年的GDP,所有的數(shù)據(jù)都去除以2000年的GDP,相當(dāng)于以2000年GDP作為參照標(biāo)準(zhǔn),所有數(shù)據(jù)全部除以2000年的GDP(包括2000年GDP除以自己得到數(shù)字1)。

一般來(lái)說(shuō),初值化這種處理方式適用于有著一種趨勢(shì)或規(guī)律性的數(shù)據(jù),比如上述2000~2020年的GDP等,而且數(shù)據(jù)正常情況下都是全部大于0,因?yàn)槌霈F(xiàn)負(fù)數(shù),通常會(huì)失去其特定意義。


9)?最小值化(MinS)

最小值化,其目的是讓最小值作為參照標(biāo)準(zhǔn),所有的數(shù)據(jù)全部除以最小值;其計(jì)算公式為X / Min,即以最小值作為單位,全部數(shù)據(jù)全部去除以最小值。需要特別說(shuō)明一點(diǎn)是,此種處理方式時(shí)一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種量綱方式。


10)?最大值化(MaxS)

最大值化,其目的是讓最大值作為參照標(biāo)準(zhǔn),所有的數(shù)據(jù)全部除以最大值;其計(jì)算公式為X / Max,即以最大值作為單位,全部數(shù)據(jù)全部去除以最大值。需要特別說(shuō)明一點(diǎn)是,此種處理方式時(shí)一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種量綱方式。


11)?求和歸一化(SN)

求和歸一化,其目的是讓‘求和值’作為參照標(biāo)準(zhǔn),所有的數(shù)據(jù)全部除以求和值,得到的數(shù)據(jù)相當(dāng)于為求和的占比;其計(jì)算公式為X / Sum(X),即以所有數(shù)據(jù)的‘求和值’作為單位,全部數(shù)據(jù)全部去除以‘求和值’。

需要特別說(shuō)明一點(diǎn)是,此種處理方式時(shí)一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種量綱方式。TOPSIS法的時(shí)候使用此種處理方式較多。


12)?平方和歸一化(SSN)

平方和歸一化,其目的是讓‘平方和值’作為參照標(biāo)準(zhǔn),所有的數(shù)據(jù)全部除以平方和值,得到的數(shù)據(jù)相當(dāng)于為平方和的占比;其計(jì)算公式為X / Sqrt(Sum(X^2)),即以所有數(shù)據(jù)的‘平方和值’作為單位,全部數(shù)據(jù)全部去除以‘平方和值’。

需要特別說(shuō)明一點(diǎn)是,此種處理方式時(shí)一般都是要求數(shù)據(jù)全部大于0,否則可能就不適合用此種量綱方式。TOPSIS法的時(shí)候使用此種處理方式較多。

2 如何使用SPSSAU進(jìn)行量綱化操作

關(guān)于使用SPSSAU進(jìn)行量綱化相關(guān)操作上,其位置在SPSSAU儀表盤(pán)->數(shù)據(jù)處理->生成變量中,截圖如下:

SPSSAU可批量進(jìn)行某種類(lèi)型的量綱化操作,默認(rèn)SPSSAU會(huì)在處理的名稱(chēng)前加上字母進(jìn)行標(biāo)識(shí),比如名稱(chēng)為“A”的標(biāo)題進(jìn)行標(biāo)準(zhǔn)化操作,那么SPSSAU會(huì)輸出“S_A”。“S”表示進(jìn)行了標(biāo)準(zhǔn)化處理。

3 量綱化如何使用

量綱化按是否具有實(shí)際意義可分為兩類(lèi),一類(lèi)是量綱處理方式有著一定的實(shí)際意義,另一類(lèi)是僅數(shù)理角度的量綱處理方式;如下圖:

量綱化的目的是將數(shù)據(jù)進(jìn)行量綱單位統(tǒng)一化,有的量綱化具有實(shí)際意義,比如均值化,初值化,最小值化,最大值化,和求和歸一化,平方和歸一化共6種。分別代表數(shù)據(jù)除以平均值,數(shù)據(jù)除以第1個(gè)數(shù),數(shù)據(jù)除以最小值,數(shù)據(jù)除以最大值,數(shù)據(jù)除以求和值,數(shù)據(jù)除以平方和值。相當(dāng)于說(shuō),它們都找到一個(gè)參照標(biāo)準(zhǔn)項(xiàng),然后所有數(shù)據(jù)去除以參照標(biāo)準(zhǔn)項(xiàng)。此6種方式的特點(diǎn)在于,一般要求數(shù)據(jù)全部都大于0,如果出現(xiàn)小于0或者等于0就有可能出問(wèn)題,比如剛好分母為0,那么就出現(xiàn)無(wú)法相除。

除此之外,僅數(shù)理化的量綱處理,包括標(biāo)準(zhǔn)化,中心化,歸一化,正向化,逆向化,區(qū)間化,均在于讓數(shù)據(jù)保持在一定的區(qū)間范圍內(nèi),而且處理后帶有一定的數(shù)理特征,比如標(biāo)準(zhǔn)化后數(shù)據(jù)的平均值為0標(biāo)準(zhǔn)差為1;中心化后數(shù)據(jù)平均值為0;歸一化后數(shù)據(jù)最小為0最大為1;正向化后數(shù)據(jù)最小為0最大為1;逆向化后數(shù)據(jù)最小為0最大為1;區(qū)間化是研究者自行設(shè)定處理后數(shù)據(jù)壓縮在對(duì)應(yīng)的范圍內(nèi)。

在研究時(shí)具體應(yīng)該使用那一種處理方式呢,其實(shí)并沒(méi)有固定的要求,而是結(jié)合實(shí)際情況或者實(shí)際研究進(jìn)行。比如社會(huì)學(xué)類(lèi)的中介作用和調(diào)節(jié)作用偏好于使用中心化或標(biāo)準(zhǔn)化這種處理方式;聚類(lèi)分析或者因子分析等使用默認(rèn)會(huì)使用標(biāo)準(zhǔn)化;綜合評(píng)價(jià)時(shí)比如灰色關(guān)聯(lián)法偏好于使用均值化或初值化;TOPSIS法時(shí)偏好于使用求和歸一化或者平方和歸一化。如果想對(duì)數(shù)據(jù)的指標(biāo)方向進(jìn)行統(tǒng)一,那么就會(huì)使用正向化或者逆向化。

如果單獨(dú)想對(duì)數(shù)據(jù)量綱進(jìn)行處理(且沒(méi)有分析方法上的常用習(xí)慣),那么通常默認(rèn)是使用標(biāo)準(zhǔn)化或者歸一化最多,標(biāo)準(zhǔn)化直接把數(shù)據(jù)壓縮且數(shù)據(jù)有一種特質(zhì)即平均值為0標(biāo)準(zhǔn)差為1的特質(zhì);歸一化把數(shù)據(jù)壓縮在【0,1】之間。也或者使用中心化讓數(shù)據(jù)有一種特質(zhì)即平均值為0。

如果數(shù)據(jù)中有負(fù)數(shù),正常情況下不能使用‘有實(shí)際意義的量綱處理’即均值化,初值化,最小值化,最大值化,求和歸一化,平方和歸一化。

特別說(shuō)明,正向化和逆向化這兩種處理方式,其目的有2個(gè),一是對(duì)數(shù)據(jù)進(jìn)行量綱單位處理,最終讓數(shù)據(jù)壓縮在【0,1】之間。除此之外,其還可以對(duì)正向或負(fù)向指標(biāo)進(jìn)行方向上的統(tǒng)一;如果數(shù)據(jù)包括正向和逆向指標(biāo),那么正向指標(biāo)進(jìn)行正向化處理,負(fù)向指標(biāo)進(jìn)行負(fù)向化處理,最終讓所有的指標(biāo)都?jí)嚎s在【0,1】之間,而且都讓指標(biāo)有一個(gè)物質(zhì)即數(shù)字越大越好。如果說(shuō)指標(biāo)全部都是正向指標(biāo)那么全部正向化即可,正向化后數(shù)字還是越大越好;如果說(shuō)指標(biāo)全部都是逆向指標(biāo)那么全部逆向化即可,逆向化后數(shù)字就代表越大越好。


「SPSSAU|數(shù)據(jù)分析」:必看!12種量綱化處理方式!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
娄底市| 博客| 岱山县| 新津县| 麻江县| 沅陵县| 平和县| 金坛市| 太仆寺旗| 九台市| 上高县| 长子县| 巴林左旗| 西丰县| 通化市| 黄浦区| 延安市| 横峰县| 银川市| 博爱县| 黔南| 彭泽县| 寻甸| 交口县| 屏边| 奇台县| 岱山县| 嘉兴市| 东源县| 深泽县| 赤水市| 太保市| 拜泉县| 资兴市| 织金县| 宕昌县| 礼泉县| 科尔| 涿鹿县| 繁峙县| 江门市|