手把手教你用SPSSAU做主成分分析
目錄
1.主成分分析能做什么 2
2.案例數(shù)據(jù)探索 2
2.1 瀏覽數(shù)據(jù)與變量 2
2.2 相關(guān)系數(shù)矩陣初探關(guān)系 3
3.主成分分析操作過程 3
3.1 主成分分析對數(shù)據(jù)的要求 3
3.2 SPSSAU主成分分析操作 4
3.3 主成分分析旋轉(zhuǎn)操作 5
4.主成分分析結(jié)果解讀 5
4.1 KMO值與Bartlett檢驗(yàn) 5
4.2 特征值、方差解釋率及碎石圖 6
4.3 載荷系數(shù)與共同度 8
5.計(jì)算主成分得分構(gòu)造綜合得分 10
5.1 線性組合系數(shù)與權(quán)重 10
5.2 計(jì)算主成分得分?jǐn)?shù)據(jù) 11
5.3 構(gòu)造綜合得分?jǐn)?shù)據(jù) 13
6.完成綜合評價(jià)及小結(jié) 13
6.1 綜合得分?jǐn)?shù)據(jù)做排名 13
6.2 本篇小結(jié) 14
1.主成分分析能做什么
主成分分析是一種降維處理的統(tǒng)計(jì)方法,實(shí)踐中有三個應(yīng)用場景:
信息濃縮:將多個分析項(xiàng)濃縮成幾個關(guān)鍵概括性指標(biāo);
權(quán)重計(jì)算:利用方差解釋率值計(jì)算各概括性指標(biāo)的權(quán)重;
綜合評價(jià):基于主成分得分構(gòu)造綜合得分?jǐn)?shù)據(jù),用于綜合評價(jià)。
接下來,以一個具體案例來學(xué)習(xí)主成分分析用于綜合評價(jià)。
2.案例數(shù)據(jù)探索
案例數(shù)據(jù)原始來源:《直轄市、副省級城市、經(jīng)濟(jì)特區(qū)和沿海開放城市統(tǒng)計(jì)資料匯編(2004)》,直接來源:馬力, 史錦鳳. 15個副省級城市區(qū)域經(jīng)濟(jì)發(fā)展水平的實(shí)證分析[J]. 科技進(jìn)步與對策, 2006, 23(12):3.
選取反映區(qū)域經(jīng)濟(jì)發(fā)展水平的7個指標(biāo),對我國15個副省級城市的經(jīng)濟(jì)發(fā)展水平進(jìn)行綜合評價(jià)研究。
2.1 瀏覽數(shù)據(jù)與變量
數(shù)據(jù)上傳SPSSAU后,在 “我的數(shù)據(jù)”中查看瀏覽原始數(shù)據(jù),前5行數(shù)據(jù)如下:
圖1 “我的數(shù)據(jù)”查看瀏覽數(shù)據(jù)集
7項(xiàng)經(jīng)濟(jì)指標(biāo)包括:GDP、農(nóng)業(yè)總產(chǎn)值、工業(yè)總產(chǎn)值、第三產(chǎn)業(yè)總產(chǎn)值、固定資產(chǎn)投資總額、消費(fèi)品零售總額、城鄉(xiāng)居民儲蓄年末余額,均為連續(xù)型數(shù)據(jù)資料。
2.2 相關(guān)系數(shù)矩陣初探關(guān)系
在“通用方法”欄目下,選擇“相關(guān)”,將GDP等7個經(jīng)濟(jì)指標(biāo)拖拽至【定量分析項(xiàng)】框內(nèi),默認(rèn)要求輸出Pearson相關(guān)系數(shù)矩陣。
圖2 經(jīng)濟(jì)指標(biāo)間的相關(guān)性
上圖展示了7個指標(biāo)兩兩之間Pearson相關(guān)系數(shù),相關(guān)程度范圍為0.10~0.97。農(nóng)業(yè)總產(chǎn)值、固定資產(chǎn)投資總額、消費(fèi)品零售總額與其他指標(biāo)相關(guān)性普遍低于0.3,而其他指標(biāo)之間的相關(guān)性則相對較高,總體看指標(biāo)間有一定的相關(guān)性基礎(chǔ)。
3.主成分分析操作過程
3.1 主成分分析對數(shù)據(jù)的要求
之所以要使用主成分分析,是因?yàn)榭捎脕碓u價(jià)研究對象的指標(biāo)過多,如果現(xiàn)有數(shù)據(jù)中僅有少數(shù)比如1~3個指標(biāo),那大概率來說,我們做主成分分析的必要性并不大。
因此,有較多的評價(jià)指標(biāo)有待于被降維處理或信息濃縮處理,這是基本出發(fā)點(diǎn),要求這些指標(biāo)須是連續(xù)型數(shù)據(jù)資料,且有一定的相關(guān)性基礎(chǔ)。
還有一個需要了解的知識點(diǎn),原則上我們應(yīng)該先對這些指標(biāo)變量進(jìn)行標(biāo)準(zhǔn)化處理,以統(tǒng)一眾多指標(biāo)變量量綱單位。但在SPSSAU中,大家需要知道一下,它在執(zhí)行主成分分析時會對數(shù)據(jù)默認(rèn)進(jìn)行標(biāo)準(zhǔn)化操作,因此我們并不需要單獨(dú)地提前去做這一項(xiàng)工作。
3.2 SPSSAU主成分分析操作
在SPSSAU的“進(jìn)階方法”欄目下選擇“主成分”,將GDP等7個連續(xù)型指標(biāo)變量數(shù)據(jù)拖拽至【定量分析項(xiàng)】,也就是說現(xiàn)在我們要對這7個指標(biāo)進(jìn)行信息濃縮,那么,濃縮為幾個主成分呢?
圖3 SPSSAU主成分分析操作
SPSSAU可以自動智能化幫助我們做出決策,如果說你對未來主成分有較成熟的專業(yè)認(rèn)識或經(jīng)驗(yàn)判斷,那么可以自定義主成分的個數(shù)。本例選擇讓SPSSAU自動決策。
當(dāng)然,我們也可以執(zhí)行一個類似于“回馬槍”的做法。讓SPSSAU先做自動主成分,然后我們根據(jù)輸出的特征值、方差比例、碎石圖等信息再行討論和決策,返回主成分操作界面,直接指定主成分的個數(shù)。
總的來說,主成分個數(shù)的確認(rèn)主要有三個依據(jù),第一個特征值大于1;第二個是累計(jì)方差貢獻(xiàn)達(dá)到能接受的水平(比如80%以上);第三個是碎石圖陡坡信息(看到明顯拐點(diǎn))。
SPSSAU還提供了兩項(xiàng)計(jì)算,可以計(jì)算并另存出成分得分?jǐn)?shù)據(jù),以及綜合得分?jǐn)?shù)據(jù),該兩項(xiàng)可幫忙自動計(jì)算主成分得分和綜合得分,下述有具體說明。
最后點(diǎn)【開始分析】,執(zhí)行主成分分析。
3.3 主成分分析旋轉(zhuǎn)操作
上面進(jìn)行的主成分分析操作,我們發(fā)現(xiàn)整個過程沒有“旋轉(zhuǎn)”主成分的功能或提示,這里要和因子分析進(jìn)行區(qū)別。
主成分分析并不刻意強(qiáng)調(diào)主成分的實(shí)際合理性,沒有嚴(yán)格規(guī)定必須要對主成分做命名或?qū)嶋H意義的提煉。這與因子分析是有區(qū)別的,因子分析強(qiáng)調(diào)公共因子命名,即給公因子實(shí)際含義進(jìn)行信息歸納總結(jié)。
小結(jié)一下,主成分分析可以做命名也可以不做。如果你的研究需要對主成分進(jìn)行合理性命名,可以借助SPSSAU的因子分析功能,經(jīng)因子旋轉(zhuǎn)操作來給主成分進(jìn)行命名(SPSSAU默認(rèn)直接執(zhí)行旋轉(zhuǎn)操作)。
稍后,本例會進(jìn)行示范。
4.主成分分析結(jié)果解讀
來看結(jié)果。
4.1 KMO值與Bartlett檢驗(yàn)
主成分和因子分析都要求多維度指標(biāo)間存在一定的相關(guān)性,如何做出判斷呢?目前主要基于KMO值和Bartlett檢驗(yàn)。
本例結(jié)果如下表所示。
圖4 kmo和bartlett檢驗(yàn)結(jié)果
KMO值如果高于0.8,則說明非常適合進(jìn)行分析;介于0.7~0.8之間,則說明比較適合進(jìn)行分析;如果此值介于0.6~0.7,則說明可以進(jìn)行分析;如果此值小于0.6,說明不適合進(jìn)行分析。另有說法是KMO指須大于0.5。
Bartlett檢驗(yàn)對應(yīng)p值小于0.05通過檢驗(yàn),也說明適合進(jìn)行主成分分析。
本例,KMO值=0.658,Bartlett檢驗(yàn)對應(yīng)p值<0.05,均說明案例數(shù)據(jù)適合做主成分。
4.2 特征值、方差解釋率及碎石圖
主成分分析是基于相關(guān)系數(shù)矩陣或協(xié)方差矩陣計(jì)算的,而矩陣運(yùn)算有一個非常重要的概念叫做特征值或特征根。根據(jù)特征根,可以計(jì)算每個主成分的方差貢獻(xiàn)比例(或稱之為方差解釋率,下同),特征根,方差解釋率是我們判斷主成分個數(shù)的核心依據(jù)。
原本我們有眾多指標(biāo),假設(shè)是k個,做主成分分析的目的是為了降維、信息濃縮,從k個指標(biāo)中構(gòu)建(或稱為提?。┏錾贁?shù)幾個主成分,問題是,我們構(gòu)建幾個主成分合適呢?
常見或一般地做法是,選擇那些特征根大于1的成分,而且要求這少數(shù)幾個成分的累積方差解釋率足夠高。有時為強(qiáng)調(diào)更高的累積方差解釋率,選擇特征根接近1(小于1)的成分也是可以的。
SPSSAU會根據(jù)特征根大于1的標(biāo)準(zhǔn),自動確認(rèn)主成分的個數(shù),本例結(jié)果如下表所示。
圖5 特征根、方差解釋率表格
從上表可知:主成分分析將構(gòu)建出3個主成分(前3個成分做累積方差計(jì)算),特征根值均大于1,依次為3.519、1.646、1.047。
此3個主成分的方差解釋率分別是50.266%、23.512%、14.954%,累積方差解釋率為88.733%。這表示,第一主成分可解釋我們待降維的7個指標(biāo)50.266%的信息量,第二主成分可解釋23.512%的信息量,第三主成分可解釋14.954%。
累積方差解釋率多大合適呢?常見的說法是80%,當(dāng)然這并非一個嚴(yán)格標(biāo)準(zhǔn),實(shí)踐中70%以上,或60%也并非不可。我們總是期望累積方差解釋率高一些,但實(shí)際當(dāng)中往往并非如此,還需要根據(jù)實(shí)際情況綜合決策。
SPSSAU將為本例構(gòu)建三個主成分,如果給他們各自一個權(quán)重,可以用各自的方差比例除以累積方差來計(jì)算。本例的三個主成分權(quán)重依次為50.266/88.733=56.65%、23.512/88.733=26.50%和14.954/88.733=16.85%。
碎石圖在主成分和因子分析中應(yīng)用極廣,它其實(shí)就是各成分的特征根的可視化圖形。本例碎石圖如下:
圖6 碎石圖
碎石圖形象展示各成分特征根“陡坡勢能”的變化過程,落差幅度越大說明對應(yīng)的成分越重要,解釋能力越強(qiáng)。碎石圖一般是前幾個特征根陡坡落差幅度比較大,越往后越平緩。
本例,前三個陡坡落差幅度較大,提示構(gòu)建三個主成分是合適的。
4.3 載荷系數(shù)與共同度
SPSSAU將構(gòu)建三個主成分,這些主成分各自與哪些指標(biāo)有關(guān)系呢?總體上如何評價(jià)三個主成分的效果呢?
載荷系數(shù)和共同度指標(biāo)可以回答以上問題。載荷系數(shù)反映了主成分與指標(biāo)間的相關(guān)關(guān)系,共同度總體上反映所構(gòu)建的主成分的解釋能力。
本例對應(yīng)的結(jié)果,見下表:
圖7 載荷系數(shù)、共同度表格
可以看到,本案例的共同度指標(biāo)在0.707~0.969之間,表現(xiàn)良好(一般要求大于0.4或0.5)。
而各指標(biāo)與三個主成分載荷系數(shù),尤其是第一主成分與第二主成分的載荷系數(shù)糾纏不清,同一個指標(biāo)在第一和第二主成分上都有較高的載荷。如果是強(qiáng)調(diào)主成分命名,那么這樣的載荷是不利于命名的。應(yīng)當(dāng)采取“旋轉(zhuǎn)”策略,讓載荷系數(shù)向0和1兩極化,以提高主成分命名的能力。
圖8 SPSSAU因子分析旋轉(zhuǎn)后的載荷系數(shù)
如果確需旋轉(zhuǎn)處理,則需使用SPSSAU的因子分析(默認(rèn)采取正交旋轉(zhuǎn)法),工作界面和操作和主成分基本類似。本例旋轉(zhuǎn)后的載荷表格如上表所示。
可以發(fā)現(xiàn),第一主成分與GDP、工業(yè)總產(chǎn)值、第三產(chǎn)業(yè)總產(chǎn)值有關(guān);第二主成分與固定資產(chǎn)投資總額、消費(fèi)品零售總額、城鄉(xiāng)居民儲蓄年末余額有關(guān);第三主成分與農(nóng)業(yè)總產(chǎn)值有關(guān)。
本案例并不關(guān)心命名問題,所以暫不考慮旋轉(zhuǎn)處理,我們直接讀取SPSSAU主成分結(jié)果即可。
5.計(jì)算主成分得分構(gòu)造綜合得分
5.1 線性組合系數(shù)與權(quán)重
前面我們用載荷系數(shù)形容指標(biāo)與主成分間的關(guān)系。從原理上,主成分是指標(biāo)變量的線性組合,即給指標(biāo)變量數(shù)據(jù)線性組合的系數(shù),就可以計(jì)算主成分得分?jǐn)?shù)據(jù)。
圖9 主成分表達(dá)式
ZX表示指標(biāo)變量的標(biāo)準(zhǔn)化值,u表示線性組合系數(shù),F(xiàn)為主成分,本例中我們采用PC表示F。
SPSSAU直接幫我們計(jì)算出線性組合系數(shù),見下表。我們只需要將原始數(shù)據(jù)標(biāo)準(zhǔn)化獲得標(biāo)準(zhǔn)化數(shù)據(jù),那么就可以計(jì)算主成分得分PC。
圖10 SPSSAU計(jì)算的線性組合系數(shù)
據(jù)上表可寫出三個主成分得分?jǐn)?shù)據(jù)的表達(dá)式。以第一主成分為例:
PC1=0.393*ZX1+0.103*ZX2+0.404* ZX3+0.454*ZX4+0.342 *ZX5+0.379* ZX6+0.452* ZX7
5.2 計(jì)算主成分得分?jǐn)?shù)據(jù)
剛才我們以第一主成分為例寫出來主成分計(jì)算公式,據(jù)此公式可以計(jì)算得到三個主成分的得分?jǐn)?shù)據(jù)。線性組合的系數(shù)SPSSAU已經(jīng)直接提供了,根據(jù)公式,我們還需要自己準(zhǔn)備好原始數(shù)據(jù)的標(biāo)準(zhǔn)化值。
這項(xiàng)工作也可以在SPSSAU中直接實(shí)現(xiàn)。在“數(shù)據(jù)處理”欄目下,選中7個指標(biāo),選擇“生成變量”,在右側(cè)的功能中選擇【Z標(biāo)準(zhǔn)化】,點(diǎn)擊【確認(rèn)處理】即可。
圖11 標(biāo)準(zhǔn)化后的指標(biāo)數(shù)據(jù)
可以在“我的數(shù)據(jù)”中瀏覽到標(biāo)準(zhǔn)化結(jié)果,然后利用上述部分的公式自行進(jìn)行計(jì)算。
更
省事的方式是直接使用SPSSAU的“主成分”保存功能,它會直接將主成分得分保存為新的標(biāo)題操作如下圖所示:
然后我們就會得到3個標(biāo)題,類似名稱為“PcaScore_****”,可通過右上角“我的數(shù)據(jù)”進(jìn)行查看,或者下載使用,如下圖:
圖
12
SPSSAU自動生成PC值查看
5.3 構(gòu)造綜合得分?jǐn)?shù)據(jù)
獲得主成分得分?jǐn)?shù)據(jù)后,我們給各主成分分配權(quán)重系數(shù),即可構(gòu)造綜合得分?jǐn)?shù)據(jù)。本例的綜合得分可表示為:
PC綜合=0.5665*PC1+0.265*PC2+0.1685*PC3
三個主成分的歸一化權(quán)重系數(shù)0.5665、0.2650、0.1685從何而來呢?它是用各主成分的方差除以累積方差計(jì)算的結(jié)果。這項(xiàng)計(jì)算工作,也可以讓SPSSAU自動完成,選擇“綜合得分”復(fù)選框,就會得到一個類似為“CompScore_****”的數(shù)據(jù)標(biāo)題,當(dāng)然也可通過點(diǎn)擊SPSSAU右上角“我的數(shù)據(jù)”進(jìn)行查看或者下載綜合得分?jǐn)?shù)據(jù)。
6.完成綜合評價(jià)及小結(jié)
6.1 綜合得分?jǐn)?shù)據(jù)做排名
主成分或因子分析用作綜合評價(jià)研究,最后一步主要是基于主成分或公因子得分?jǐn)?shù)據(jù),以及構(gòu)造的綜合得分?jǐn)?shù)據(jù),對研究對象進(jìn)行排名,根據(jù)各得分?jǐn)?shù)據(jù)、排名的表現(xiàn)展開對研究對象的評價(jià)工作。
借助SPSSAU輸出的綜合得分?jǐn)?shù)據(jù),接著按PC綜合得分?jǐn)?shù)據(jù)對15個
地區(qū)進(jìn)行降序排列,給出15個地區(qū)經(jīng)濟(jì)發(fā)展的綜合排名。
圖13 綜合得分與排名
最終,本案例主成分得分、綜合得分、綜合排名的結(jié)果見上表。
接下來就是專業(yè)人士對該結(jié)果的解讀和結(jié)論的討論。這部分由具體研究人員根據(jù)上述表格結(jié)果完成即可。本例略。讀者可參考閱讀下方這篇論文:
馬力, 史錦鳳. 15個副省級城市區(qū)域經(jīng)濟(jì)發(fā)展水平的實(shí)證分析[J]. 科技進(jìn)步與對策, 2006, 23(12):3.
6.2 本篇小結(jié)
主成分分析,是考察多個變量間相關(guān)性的一種多元統(tǒng)計(jì)方法,基本思想是在保留原始數(shù)據(jù)盡可能多的信息前提下達(dá)到降維目的,簡化問題并抓住主要矛盾。最后構(gòu)建出少數(shù)幾個替代原始數(shù)據(jù)的主成分,它們是原始變量的線性組合。
總體來說,主成分分析和因子分析在數(shù)據(jù)要求上,分析目的上是一致的,能使用主成分分析的研究,也一定能用因子分析實(shí)現(xiàn)研究目的。
但從統(tǒng)計(jì)工具實(shí)現(xiàn)的角度來說,顯然常見統(tǒng)計(jì)工具對因子分析的支持更完善,對主成分分析的支持則各有不同。
SPSSAU既可以做主成分分析也可以實(shí)現(xiàn)因子分析,且可以直接幫我們計(jì)算指標(biāo)權(quán)重系數(shù)。SPSSAU主成分分析還可以直接獲得線性組合的系數(shù)、主成分得分和綜合得分,為用戶實(shí)現(xiàn)主成分分析提供了便利。