散文網(wǎng) » 科技 »學(xué)習(xí) » 16種常用的數(shù)據(jù)分析方法-主成分分析

16種常用的數(shù)據(jù)分析方法-主成分分析

2021-11-03 17:45 作者:陪學(xué)產(chǎn)品經(jīng)理 0人讀過 | 我要投稿

主成分分析（英語：Principal components analysis，PCA）是一種分析、簡化數(shù)據(jù)集的技術(shù)。

通過降維技術(shù)把多個變量化為少數(shù)幾個主成分（綜合變量）的統(tǒng)計(jì)分析方法。這些主成分能夠反映原始變量的絕大部分信息，它們通常表示為原始變量的某種線性組合。?

主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù)，同時保持?jǐn)?shù)據(jù)集中的對方差貢獻(xiàn)最大的特征。這是通過保留低階主成分，忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。

主成分分析由卡爾?皮爾遜于1901年發(fā)明，用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過對協(xié)方差矩陣進(jìn)行特征分解，以得出數(shù)據(jù)的主成分（即特征向量）與它們的權(quán)值（即特征值）。

主成分的目的：?

（1）變量的降維?
（2）主成分的解釋（在主成分有意義的情況下）

主成分分析法從冗余特征中提取主要成分，在不太損失模型質(zhì)量的情況下，提升了模型訓(xùn)練速度。

如上圖所示，我們將樣本到紅色向量的距離稱作是投影誤差（Projection Error）。以二維投影到一維為例，PCA 就是要找尋一條直線，使得各個特征的投影誤差足夠小，這樣才能盡可能的保留原特征具有的信息。因?yàn)镻CA僅保留了特征的主成分，所以PCA是一種有損的壓縮方式.

PCA分析的一般步驟

1.根據(jù)研究問題選取初始分析變量

2.根據(jù)初始變量特性判斷由協(xié)方差陣求主成分還是由相關(guān)矩陣求主成分；

3.求協(xié)方差陣或相關(guān)陣的特征值與相應(yīng)標(biāo)準(zhǔn)特征向量；

4.判斷是否存在明顯的多重共線性，若存在，則回到第（1）步；

5.得到主成分的表達(dá)式并確定主成分個數(shù)，選取主成分；

6.結(jié)合主成分對研究問題進(jìn)行分析并深入研究。

PCA的目標(biāo)是用一組較少的不相關(guān)變量代替大量相關(guān)變量，同時盡可能保留初始變量的信息，這些推導(dǎo)所得的變量稱為主成分，它們是觀測變量的線性組合。

主成分分析法優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

↘可消除評估指標(biāo)之間的相關(guān)影響。因?yàn)橹鞒煞址治龇ㄔ趯υ紨?shù)據(jù)指標(biāo)變量進(jìn)行變換后形成了彼此相互獨(dú)立的主成分，而且實(shí)踐證明指標(biāo)間相關(guān)程度越高，主成分分析效果越好。

↘可減少指標(biāo)選擇的工作量，對于其他評估方法，由于難以消除評估指標(biāo)間的相關(guān)影響，所以選擇指標(biāo)時要花費(fèi)不少精力，而主成分分析法由于可以消除這種相關(guān)影響，所以在指標(biāo)選擇上相對容易些。

↘主成分分析中各主成分是按方差大小依次排列順序的，在分析問題時，可以舍棄一部分主成分，只取前面方差較大的幾個主成分來代表原變量，從而減少了計(jì)算工作量。用主成分分析法作綜合評估時，由于選擇的原則是累計(jì)貢獻(xiàn)率≥85%，不至于因?yàn)楣?jié)省了工作量卻把關(guān)鍵指標(biāo)漏掉而影響評估結(jié)果。

缺點(diǎn)

↘在主成分分析中，我們首先應(yīng)保證所提取的前幾個主成分的累計(jì)貢獻(xiàn)率達(dá)到一個較高的水平（即變量降維后的信息量須保持在一個較高水平上），其次對這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋（否則主成分將空有信息量而無實(shí)際含義）。

↘主成分的解釋其含義一般多少帶有點(diǎn)模糊性，不像原始變量的含義那么清楚、確切，這是變量降維過程中不得不付出的代價(jià)。因此，提取的主成分個數(shù)m通常應(yīng)明顯小于原始變量個數(shù)p（除非p本身較小），否則維數(shù)降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。

↘當(dāng)主成分的因子負(fù)荷的符號有正有負(fù)時，綜合評價(jià)函數(shù)意義就不明確。

主成分分析案例

某公司經(jīng)理擬招聘一名員工，要求其具有較高的工作積極性、自主性、熱情和責(zé)任感。為此，該經(jīng)理專門設(shè)計(jì)了一個測試問卷，配有25項(xiàng)相關(guān)問題，擬從315位應(yīng)聘者中尋找出最合適的候選人。

在這25項(xiàng)相關(guān)問題中：

↘Qu3-Qu8、Qu12、Qu13測量的是工作積極性

↘Qu2、Qu14-Qu19測量工作自主性

↘Qu20-Qu25測量的是工作熱情

↘Qu1、Qu9-Qu11測量工作責(zé)任感

每一個問題都有非常同意“Agree”、同意 “Agree Some”、不確定“Undecided”、不同意 “Disagree Some”和非常不同意 “Disagree”五個等級。

該經(jīng)理想根據(jù)這25項(xiàng)問題判斷應(yīng)聘者在這四個方面的能力，現(xiàn)收集了應(yīng)聘者的問卷信息，經(jīng)匯總整理后部分?jǐn)?shù)據(jù)如下：

分析者希望將多個變量歸納為某幾項(xiàng)信息進(jìn)行分析，即降低數(shù)據(jù)結(jié)果的維度。針對這種情況，可以進(jìn)行主成分提取，但需要先滿足2項(xiàng)假設(shè)：

↘假設(shè)1：觀測變量是連續(xù)變量或有序分類變量，如本研究中的測量變量都是有序分類變量。

↘假設(shè)2：變量之間存在線性相關(guān)關(guān)系。

SPSS操作

SPSS操作

(1) 在主頁面點(diǎn)擊analyze→Dimension Reduction →Factor

(2) 將變量Qu1-Qu25放入Variables欄

(3) 點(diǎn)擊Deive，點(diǎn)選Statistics欄的Initial solution選項(xiàng)，并點(diǎn)選Correlation Matrix欄的Coefficients、KMO and Bartlett’s test of sphericity、Reproduced和Anti_image選項(xiàng)

(4) 點(diǎn)擊Continue→Extraction，點(diǎn)擊Display欄中的Scree plot選項(xiàng)

(5) 點(diǎn)擊Continue→Rotation，點(diǎn)選Method欄的Varimax選項(xiàng)，并點(diǎn)選Display欄的Rotated solution和Loading plot(s)選項(xiàng)

(6) 點(diǎn)擊Continue→Scores，點(diǎn)擊Save as variables，激活Method欄后點(diǎn)擊Regression選項(xiàng)

(7) 點(diǎn)擊Continue→Options，點(diǎn)擊 Sorted by size和Suppress small coefficients選項(xiàng)，在Absolute value below欄內(nèi)輸入“.3”點(diǎn)擊Continue→OK

經(jīng)上述操作，SPSS輸出相關(guān)矩陣表如下：

該表主要用于判斷各變量之間的線性相關(guān)關(guān)系，從而決定變量的取舍，即如果某一個變量與同一分組中其他變量之間的關(guān)聯(lián)性不強(qiáng)，我們就認(rèn)為該變量與其他變量測量的內(nèi)容不同，在主成分提取中不應(yīng)該納入該變量。一般來說，如果相關(guān)系數(shù)大于等于0.3，我們就認(rèn)為變量之間存在較好的線性相關(guān)性。

從本研究的結(jié)果來看，在分別對應(yīng)聘者工作積極性(Q3-Q8，Q12，Q13)、工作自主性 (Q2，Q14-19)、工作熱情(Q20-25)和工作責(zé)任感(Q1，Q9-11)的測量中，每組變量之間的相關(guān)系數(shù)均大于0.3，說明各組變量之間具有線性相關(guān)關(guān)系，提示滿足假設(shè)2。

KMO檢驗(yàn)對數(shù)據(jù)結(jié)構(gòu)的總體分析

KMO檢驗(yàn)主要用于主成分提取的數(shù)據(jù)情況。KMO檢驗(yàn)系數(shù)分布在0到1之間，如果系數(shù)值大于0.6，則認(rèn)為樣本符合數(shù)據(jù)結(jié)構(gòu)合理的要求。

部分學(xué)者認(rèn)為，只有當(dāng)KMO檢驗(yàn)系數(shù)值大于0.8時，主成分分析的結(jié)果才具有較好的實(shí)用性，具體系數(shù)對應(yīng)關(guān)系如下：

SPSS輸出本研究結(jié)果如下：

本研究的KMO檢驗(yàn)系數(shù)為0.833，根據(jù)系數(shù)對應(yīng)關(guān)系表，我們認(rèn)為本研究數(shù)據(jù)結(jié)構(gòu)很好(meritorious)，具有相關(guān)關(guān)系，滿足假設(shè)2。

KMO檢驗(yàn)對各變量的單獨(dú)分析

SPSS輸出各變量的KMO檢驗(yàn)結(jié)果如下：

整理后各題KMO值：

KMO檢驗(yàn)對單個變量的分析結(jié)果也在0到1之間分布，如果系數(shù)大于0.5，則認(rèn)為單個變量滿足要求；如果系數(shù)大于0.8，則認(rèn)為單個變量結(jié)果很好。

分析結(jié)論中，任一變量的KMO檢驗(yàn)結(jié)果均大于0.7，即各變量結(jié)果一般，但滿足假設(shè)2。

Bartlett's檢驗(yàn)

Bartlett's檢

Bartlett's檢驗(yàn)的零假設(shè)是研究數(shù)據(jù)之間的相關(guān)矩陣是一個完美矩陣，即所有對角線上的系數(shù)為1，非對角線上的系數(shù)均為0。

在完美矩陣情況下，各變量之間沒有相關(guān)關(guān)系，即不能將多個變量簡化為少數(shù)的成分，沒有進(jìn)行主成分提取的必要。因此，我們希望拒絕Bartlett's檢驗(yàn)的零假設(shè)。

SPSS輸出結(jié)果如下：

Bartlett's檢驗(yàn)的P值小于0.001，拒絕零假設(shè)，即認(rèn)為研究數(shù)據(jù)可以進(jìn)行主成分提取，滿足假設(shè)2。

結(jié)果解釋

對主成分結(jié)果的分析主要從公因子方差（communalities）、提取主成分和強(qiáng)制提取主成分三個方面進(jìn)行。

公因子方差結(jié)果

SPSS輸出公因子方差結(jié)果如下：

研究中有多少個變量數(shù)據(jù)結(jié)果就會輸出多少個成分，本研究中共有25個變量，就會對應(yīng)產(chǎn)生25個成分。

“Extraction”欄提示當(dāng)只保留選中的成分時，變量變異被解釋的程度。

提取主成分

研究中有多少個變量，主成分提取就會產(chǎn)生多少個主成分。我們通過選取主成分對數(shù)據(jù)進(jìn)行降維，但同時也要注意盡可能多地包含對數(shù)據(jù)變異的解釋。

一般來說，結(jié)果輸出的第一主成分包含最多的數(shù)據(jù)變異，第二主成分次之，之后的主成分包含的變異程度依次遞減。SPSS輸出結(jié)果如下：

本研究中共有25個變量，那總特征值（eigenvalues of variance）是25，即每個變量自身的特征值為1。

Total欄提示的是各主成分對數(shù)據(jù)變異的解釋程度。

以第一主成分為例，其特征值為6.730，占總體變異的6.730/25×100 = 26.919% （% of Variance欄）。同理，第二主成分的特征值為3.342，占總體變異的13.369%，以此類推。

一般來說，如果某一項(xiàng)主成分的特征值小于1，那么我們就認(rèn)為該主成分對數(shù)據(jù)變異的解釋程度比單個變量小，應(yīng)該剔除。本研究結(jié)果如下：

第五主成分的特征值為1.049，大于1；而第六主成分的特征值為0.951，小于1，即應(yīng)該保留前五位的主成分，剔除剩余部分。

結(jié)論

本研究采用主成分分析，通過25項(xiàng)問題調(diào)查315位應(yīng)聘者的工作能力。

研究變量之間存在線性相關(guān)關(guān)系(每組變量之間的相關(guān)系數(shù)均大于0.3)，數(shù)據(jù)結(jié)構(gòu)合理(KMO檢驗(yàn)系數(shù)為0.833，單個變量的KMO檢驗(yàn)系數(shù)均大于0.7，Bartlett's檢驗(yàn)結(jié)果為P<0.001)，提示研究數(shù)據(jù)可以進(jìn)行主成分提取。< span="">

主成分提取結(jié)果：研究提取前四位主成分。提取后的主成分累計(jì)解釋59.9%的數(shù)據(jù)變異，分別反映應(yīng)聘者的工作積極性、工作自主性、工作熱情和工作責(zé)任感（如下圖）

標(biāo)簽：

16種常用的數(shù)據(jù)分析方法-主成分分析的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

16種常用的數(shù)據(jù)分析方法-主成分分析

16種常用的數(shù)據(jù)分析方法-主成分分析的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

16種常用的數(shù)據(jù)分析方法-主成分分析

本文作者的其他文章

16種常用的數(shù)據(jù)分析方法-主成分分析的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

16種常用的數(shù)據(jù)分析方法-主成分分析的評論 (共條)