16種常用的數(shù)據(jù)分析方法-主成分分析
主成分分析(英語:Principal components analysis,PCA)是一種分析、簡化數(shù)據(jù)集的技術(shù)。
通過降維技術(shù)把多個變量化為少數(shù)幾個主成分(綜合變量)的統(tǒng)計(jì)分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的某種線性組合。?
主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時保持?jǐn)?shù)據(jù)集中的對方差貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。
主成分分析由卡爾?皮爾遜于1901年發(fā)明,用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過對協(xié)方差矩陣進(jìn)行特征分解,以得出數(shù)據(jù)的主成分(即特征向量)與它們的權(quán)值(即特征值)。
主成分的目的:?
(1)變量的降維?
(2)主成分的解釋(在主成分有意義的情況下)
主成分分析法從冗余特征中提取主要成分,在不太損失模型質(zhì)量的情況下,提升了模型訓(xùn)練速度。
如上圖所示,我們將樣本到紅色向量的距離稱作是投影誤差(Projection Error)。以二維投影到一維為例,PCA 就是要找尋一條直線,使得各個特征的投影誤差足夠小,這樣才能盡可能的保留原特征具有的信息。因?yàn)镻CA僅保留了特征的主成分,所以PCA是一種有損的壓縮方式.
PCA分析的一般步驟
1.根據(jù)研究問題選取初始分析變量
2.根據(jù)初始變量特性判斷由協(xié)方差陣求主成分還是由相關(guān)矩陣求主成分;
3.求協(xié)方差陣或相關(guān)陣的特征值與相應(yīng)標(biāo)準(zhǔn)特征向量;
4.判斷是否存在明顯的多重共線性,若存在,則回到第(1)步;
5.得到主成分的表達(dá)式并確定主成分個數(shù),選取主成分;
6.結(jié)合主成分對研究問題進(jìn)行分析并深入研究。
PCA的目標(biāo)是用一組較少的不相關(guān)變量代替大量相關(guān)變量,同時盡可能保留初始變量的信息,這些推導(dǎo)所得的變量稱為主成分,它們是觀測變量的線性組合。
主成分分析法優(yōu)缺點(diǎn)
優(yōu)點(diǎn)
↘可消除評估指標(biāo)之間的相關(guān)影響。因?yàn)橹鞒煞址治龇ㄔ趯υ紨?shù)據(jù)指標(biāo)變量進(jìn)行變換后形成了彼此相互獨(dú)立的主成分,而且實(shí)踐證明指標(biāo)間相關(guān)程度越高,主成分分析效果越好。
↘可減少指標(biāo)選擇的工作量,對于其他評估方法,由于難以消除評估指標(biāo)間的相關(guān)影響,所以選擇指標(biāo)時要花費(fèi)不少精力,而主成分分析法由于可以消除這種相關(guān)影響,所以在指標(biāo)選擇上相對容易些。
↘主成分分析中各主成分是按方差大小依次排列順序的,在分析問題時,可以舍棄一部分主成分,只取前面方差較大的幾個主成分來代表原變量,從而減少了計(jì)算工作量。用主成分分析法作綜合評估時,由于選擇的原則是累計(jì)貢獻(xiàn)率≥85%,不至于因?yàn)楣?jié)省了工作量卻把關(guān)鍵指標(biāo)漏掉而影響評估結(jié)果。
缺點(diǎn)
↘在主成分分析中,我們首先應(yīng)保證所提取的前幾個主成分的累計(jì)貢獻(xiàn)率達(dá)到一個較高的水平(即變量降維后的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋(否則主成分將空有信息量而無實(shí)際含義)。
↘主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價(jià)。因此,提取的主成分個數(shù)m通常應(yīng)明顯小于原始變量個數(shù)p(除非p本身較小),否則維數(shù)降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。
↘當(dāng)主成分的因子負(fù)荷的符號有正有負(fù)時,綜合評價(jià)函數(shù)意義就不明確。
主成分分析案例
某公司經(jīng)理擬招聘一名員工,要求其具有較高的工作積極性、自主性、熱情和責(zé)任感。為此,該經(jīng)理專門設(shè)計(jì)了一個測試問卷,配有25項(xiàng)相關(guān)問題,擬從315位應(yīng)聘者中尋找出最合適的候選人。
在這25項(xiàng)相關(guān)問題中:
↘Qu3-Qu8、Qu12、Qu13測量的是工作積極性
↘Qu2、Qu14-Qu19測量工作自主性
↘Qu20-Qu25測量的是工作熱情
↘Qu1、Qu9-Qu11測量工作責(zé)任感
每一個問題都有非常同意“Agree”、同意 “Agree Some”、不確定“Undecided”、不同意 “Disagree Some”和 非常不同意 “Disagree”五個等級。
該經(jīng)理想根據(jù)這25項(xiàng)問題判斷應(yīng)聘者在這四個方面的能力,現(xiàn)收集了應(yīng)聘者的問卷信息,經(jīng)匯總整理后部分?jǐn)?shù)據(jù)如下:
分析者希望將多個變量歸納為某幾項(xiàng)信息進(jìn)行分析,即降低數(shù)據(jù)結(jié)果的維度。針對這種情況,可以進(jìn)行主成分提取,但需要先滿足2項(xiàng)假設(shè):
↘假設(shè)1:觀測變量是連續(xù)變量或有序分類變量,如本研究中的測量變量都是有序分類變量。
↘假設(shè)2:變量之間存在線性相關(guān)關(guān)系。
SPSS操作
SPSS操作
(1) 在主頁面點(diǎn)擊analyze→Dimension Reduction →Factor
(2) 將變量Qu1-Qu25放入Variables欄
(3) 點(diǎn)擊Deive,點(diǎn)選Statistics欄的Initial solution選項(xiàng),并點(diǎn)選Correlation Matrix欄的Coefficients、KMO and Bartlett’s test of sphericity、Reproduced和Anti_image選項(xiàng)
(4) 點(diǎn)擊Continue→Extraction,點(diǎn)擊Display欄中的Scree plot選項(xiàng)
(5) 點(diǎn)擊Continue→Rotation,點(diǎn)選Method欄的Varimax選項(xiàng),并點(diǎn)選Display欄的Rotated solution和Loading plot(s)選項(xiàng)
(6) 點(diǎn)擊Continue→Scores,點(diǎn)擊Save as variables,激活Method欄后點(diǎn)擊Regression選項(xiàng)
(7) 點(diǎn)擊Continue→Options,點(diǎn)擊 Sorted by size和Suppress small coefficients選項(xiàng),在Absolute value below欄內(nèi)輸入“.3”點(diǎn)擊Continue→OK
經(jīng)上述操作,SPSS輸出相關(guān)矩陣表如下:
該表主要用于判斷各變量之間的線性相關(guān)關(guān)系,從而決定變量的取舍,即如果某一個變量與同一分組中其他變量之間的關(guān)聯(lián)性不強(qiáng),我們就認(rèn)為該變量與其他變量測量的內(nèi)容不同,在主成分提取中不應(yīng)該納入該變量。一般來說,如果相關(guān)系數(shù)大于等于0.3,我們就認(rèn)為變量之間存在較好的線性相關(guān)性。
從本研究的結(jié)果來看,在分別對應(yīng)聘者工作積極性(Q3-Q8,Q12,Q13)、工作自主性 (Q2,Q14-19)、工作熱情(Q20-25)和工作責(zé)任感(Q1,Q9-11)的測量中,每組變量之間的相關(guān)系數(shù)均大于0.3,說明各組變量之間具有線性相關(guān)關(guān)系,提示滿足假設(shè)2。
KMO檢驗(yàn)對數(shù)據(jù)結(jié)構(gòu)的總體分析
KMO檢驗(yàn)主要用于主成分提取的數(shù)據(jù)情況。KMO檢驗(yàn)系數(shù)分布在0到1之間,如果系數(shù)值大于0.6,則認(rèn)為樣本符合數(shù)據(jù)結(jié)構(gòu)合理的要求。
部分學(xué)者認(rèn)為,只有當(dāng)KMO檢驗(yàn)系數(shù)值大于0.8時,主成分分析的結(jié)果才具有較好的實(shí)用性,具體系數(shù)對應(yīng)關(guān)系如下:
SPSS輸出本研究結(jié)果如下:
本研究的KMO檢驗(yàn)系數(shù)為0.833,根據(jù)系數(shù)對應(yīng)關(guān)系表,我們認(rèn)為本研究數(shù)據(jù)結(jié)構(gòu)很好(meritorious),具有相關(guān)關(guān)系,滿足假設(shè)2。
KMO檢驗(yàn)對各變量的單獨(dú)分析
SPSS輸出各變量的KMO檢驗(yàn)結(jié)果如下:
整理后各題KMO值:
KMO檢驗(yàn)對單個變量的分析結(jié)果也在0到1之間分布,如果系數(shù)大于0.5,則認(rèn)為單個變量滿足要求;如果系數(shù)大于0.8,則認(rèn)為單個變量結(jié)果很好。
分析結(jié)論中,任一變量的KMO檢驗(yàn)結(jié)果均大于0.7,即各變量結(jié)果一般,但滿足假設(shè)2。
Bartlett's檢驗(yàn)
Bartlett's檢
Bartlett's檢驗(yàn)的零假設(shè)是研究數(shù)據(jù)之間的相關(guān)矩陣是一個完美矩陣,即所有對角線上的系數(shù)為1,非對角線上的系數(shù)均為0。
在完美矩陣情況下,各變量之間沒有相關(guān)關(guān)系,即不能將多個變量簡化為少數(shù)的成分,沒有進(jìn)行主成分提取的必要。因此,我們希望拒絕Bartlett's檢驗(yàn)的零假設(shè)。
SPSS輸出結(jié)果如下:
Bartlett's檢驗(yàn)的P值小于0.001,拒絕零假設(shè),即認(rèn)為研究數(shù)據(jù)可以進(jìn)行主成分提取,滿足假設(shè)2。
結(jié)果解釋
對主成分結(jié)果的分析主要從公因子方差(communalities)、提取主成分和強(qiáng)制提取主成分三個方面進(jìn)行。
公因子方差結(jié)果
SPSS輸出公因子方差結(jié)果如下:
研究中有多少個變量數(shù)據(jù)結(jié)果就會輸出多少個成分,本研究中共有25個變量,就會對應(yīng)產(chǎn)生25個成分。
“Extraction”欄提示當(dāng)只保留選中的成分時,變量變異被解釋的程度。
提取主成分
研究中有多少個變量,主成分提取就會產(chǎn)生多少個主成分。我們通過選取主成分對數(shù)據(jù)進(jìn)行降維,但同時也要注意盡可能多地包含對數(shù)據(jù)變異的解釋。
一般來說,結(jié)果輸出的第一主成分包含最多的數(shù)據(jù)變異,第二主成分次之,之后的主成分包含的變異程度依次遞減。SPSS輸出結(jié)果如下:
本研究中共有25個變量,那總特征值(eigenvalues of variance)是25,即每個變量自身的特征值為1。
Total欄提示的是各主成分對數(shù)據(jù)變異的解釋程度。
以第一主成分為例,其特征值為6.730,占總體變異的6.730/25×100 = 26.919% (% of Variance欄)。同理,第二主成分的特征值為3.342,占總體變異的13.369%,以此類推。
一般來說,如果某一項(xiàng)主成分的特征值小于1,那么我們就認(rèn)為該主成分對數(shù)據(jù)變異的解釋程度比單個變量小,應(yīng)該剔除。本研究結(jié)果如下:
第五主成分的特征值為1.049,大于1;而第六主成分的特征值為0.951,小于1,即應(yīng)該保留前五位的主成分,剔除剩余部分。
結(jié)論
本研究采用主成分分析,通過25項(xiàng)問題調(diào)查315位應(yīng)聘者的工作能力。
研究變量之間存在線性相關(guān)關(guān)系(每組變量之間的相關(guān)系數(shù)均大于0.3),數(shù)據(jù)結(jié)構(gòu)合理(KMO檢驗(yàn)系數(shù)為0.833,單個變量的KMO檢驗(yàn)系數(shù)均大于0.7,Bartlett's檢驗(yàn)結(jié)果為P<0.001),提示研究數(shù)據(jù)可以進(jìn)行主成分提取。< span="">
主成分提取結(jié)果:研究提取前四位主成分。提取后的主成分累計(jì)解釋59.9%的數(shù)據(jù)變異,分別反映應(yīng)聘者的工作積極性、工作自主性、工作熱情和工作責(zé)任感(如下圖)