最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

16種常用的數(shù)據(jù)分析方法-主成分分析

2021-11-03 17:45 作者:陪學(xué)產(chǎn)品經(jīng)理  | 我要投稿

主成分分析(英語:Principal components analysis,PCA)是一種分析、簡化數(shù)據(jù)集的技術(shù)。


通過降維技術(shù)把多個變量化為少數(shù)幾個主成分(綜合變量)的統(tǒng)計(jì)分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的某種線性組合。?


主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時保持?jǐn)?shù)據(jù)集中的對方差貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。


主成分分析由卡爾?皮爾遜于1901年發(fā)明,用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過對協(xié)方差矩陣進(jìn)行特征分解,以得出數(shù)據(jù)的主成分(即特征向量)與它們的權(quán)值(即特征值)。


主成分的目的:?


(1)變量的降維?
(2)主成分的解釋(在主成分有意義的情況下)


主成分分析法從冗余特征中提取主要成分,在不太損失模型質(zhì)量的情況下,提升了模型訓(xùn)練速度。



如上圖所示,我們將樣本到紅色向量的距離稱作是投影誤差(Projection Error)。以二維投影到一維為例,PCA 就是要找尋一條直線,使得各個特征的投影誤差足夠小,這樣才能盡可能的保留原特征具有的信息。因?yàn)镻CA僅保留了特征的主成分,所以PCA是一種有損的壓縮方式.


PCA分析的一般步驟


1.根據(jù)研究問題選取初始分析變量


2.根據(jù)初始變量特性判斷由協(xié)方差陣求主成分還是由相關(guān)矩陣求主成分;


3.求協(xié)方差陣或相關(guān)陣的特征值與相應(yīng)標(biāo)準(zhǔn)特征向量;


4.判斷是否存在明顯的多重共線性,若存在,則回到第(1)步;


5.得到主成分的表達(dá)式并確定主成分個數(shù),選取主成分;


6.結(jié)合主成分對研究問題進(jìn)行分析并深入研究。


PCA的目標(biāo)是用一組較少的不相關(guān)變量代替大量相關(guān)變量,同時盡可能保留初始變量的信息,這些推導(dǎo)所得的變量稱為主成分,它們是觀測變量的線性組合。


主成分分析法優(yōu)缺點(diǎn)


優(yōu)點(diǎn)

↘可消除評估指標(biāo)之間的相關(guān)影響。因?yàn)橹鞒煞址治龇ㄔ趯υ紨?shù)據(jù)指標(biāo)變量進(jìn)行變換后形成了彼此相互獨(dú)立的主成分,而且實(shí)踐證明指標(biāo)間相關(guān)程度越高,主成分分析效果越好。


↘可減少指標(biāo)選擇的工作量,對于其他評估方法,由于難以消除評估指標(biāo)間的相關(guān)影響,所以選擇指標(biāo)時要花費(fèi)不少精力,而主成分分析法由于可以消除這種相關(guān)影響,所以在指標(biāo)選擇上相對容易些。


↘主成分分析中各主成分是按方差大小依次排列順序的,在分析問題時,可以舍棄一部分主成分,只取前面方差較大的幾個主成分來代表原變量,從而減少了計(jì)算工作量。用主成分分析法作綜合評估時,由于選擇的原則是累計(jì)貢獻(xiàn)率≥85%,不至于因?yàn)楣?jié)省了工作量卻把關(guān)鍵指標(biāo)漏掉而影響評估結(jié)果。


缺點(diǎn)

↘在主成分分析中,我們首先應(yīng)保證所提取的前幾個主成分的累計(jì)貢獻(xiàn)率達(dá)到一個較高的水平(即變量降維后的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋(否則主成分將空有信息量而無實(shí)際含義)。


↘主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價(jià)。因此,提取的主成分個數(shù)m通常應(yīng)明顯小于原始變量個數(shù)p(除非p本身較小),否則維數(shù)降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。


↘當(dāng)主成分的因子負(fù)荷的符號有正有負(fù)時,綜合評價(jià)函數(shù)意義就不明確。


主成分分析案例


某公司經(jīng)理擬招聘一名員工,要求其具有較高的工作積極性、自主性、熱情和責(zé)任感。為此,該經(jīng)理專門設(shè)計(jì)了一個測試問卷,配有25項(xiàng)相關(guān)問題,擬從315位應(yīng)聘者中尋找出最合適的候選人。


在這25項(xiàng)相關(guān)問題中:


↘Qu3-Qu8、Qu12、Qu13測量的是工作積極性


↘Qu2、Qu14-Qu19測量工作自主性


↘Qu20-Qu25測量的是工作熱情


↘Qu1、Qu9-Qu11測量工作責(zé)任感


每一個問題都有非常同意“Agree”、同意 “Agree Some”、不確定“Undecided”、不同意 “Disagree Some”和 非常不同意 “Disagree”五個等級。


該經(jīng)理想根據(jù)這25項(xiàng)問題判斷應(yīng)聘者在這四個方面的能力,現(xiàn)收集了應(yīng)聘者的問卷信息,經(jīng)匯總整理后部分?jǐn)?shù)據(jù)如下:



分析者希望將多個變量歸納為某幾項(xiàng)信息進(jìn)行分析,即降低數(shù)據(jù)結(jié)果的維度。針對這種情況,可以進(jìn)行主成分提取,但需要先滿足2項(xiàng)假設(shè):


↘假設(shè)1:觀測變量是連續(xù)變量或有序分類變量,如本研究中的測量變量都是有序分類變量。


↘假設(shè)2:變量之間存在線性相關(guān)關(guān)系。


SPSS操作

SPSS操作


(1) 在主頁面點(diǎn)擊analyze→Dimension Reduction →Factor



(2) 將變量Qu1-Qu25放入Variables欄



(3) 點(diǎn)擊Deive,點(diǎn)選Statistics欄的Initial solution選項(xiàng),并點(diǎn)選Correlation Matrix欄的Coefficients、KMO and Bartlett’s test of sphericity、Reproduced和Anti_image選項(xiàng)



(4) 點(diǎn)擊Continue→Extraction,點(diǎn)擊Display欄中的Scree plot選項(xiàng)



(5) 點(diǎn)擊Continue→Rotation,點(diǎn)選Method欄的Varimax選項(xiàng),并點(diǎn)選Display欄的Rotated solution和Loading plot(s)選項(xiàng)



(6) 點(diǎn)擊Continue→Scores,點(diǎn)擊Save as variables,激活Method欄后點(diǎn)擊Regression選項(xiàng)



(7) 點(diǎn)擊Continue→Options,點(diǎn)擊 Sorted by size和Suppress small coefficients選項(xiàng),在Absolute value below欄內(nèi)輸入“.3”點(diǎn)擊Continue→OK




經(jīng)上述操作,SPSS輸出相關(guān)矩陣表如下:



該表主要用于判斷各變量之間的線性相關(guān)關(guān)系,從而決定變量的取舍,即如果某一個變量與同一分組中其他變量之間的關(guān)聯(lián)性不強(qiáng),我們就認(rèn)為該變量與其他變量測量的內(nèi)容不同,在主成分提取中不應(yīng)該納入該變量。一般來說,如果相關(guān)系數(shù)大于等于0.3,我們就認(rèn)為變量之間存在較好的線性相關(guān)性。


從本研究的結(jié)果來看,在分別對應(yīng)聘者工作積極性(Q3-Q8,Q12,Q13)、工作自主性 (Q2,Q14-19)、工作熱情(Q20-25)和工作責(zé)任感(Q1,Q9-11)的測量中,每組變量之間的相關(guān)系數(shù)均大于0.3,說明各組變量之間具有線性相關(guān)關(guān)系,提示滿足假設(shè)2。


KMO檢驗(yàn)對數(shù)據(jù)結(jié)構(gòu)的總體分析


KMO檢驗(yàn)主要用于主成分提取的數(shù)據(jù)情況。KMO檢驗(yàn)系數(shù)分布在0到1之間,如果系數(shù)值大于0.6,則認(rèn)為樣本符合數(shù)據(jù)結(jié)構(gòu)合理的要求。


部分學(xué)者認(rèn)為,只有當(dāng)KMO檢驗(yàn)系數(shù)值大于0.8時,主成分分析的結(jié)果才具有較好的實(shí)用性,具體系數(shù)對應(yīng)關(guān)系如下:



SPSS輸出本研究結(jié)果如下:



本研究的KMO檢驗(yàn)系數(shù)為0.833,根據(jù)系數(shù)對應(yīng)關(guān)系表,我們認(rèn)為本研究數(shù)據(jù)結(jié)構(gòu)很好(meritorious),具有相關(guān)關(guān)系,滿足假設(shè)2。



KMO檢驗(yàn)對各變量的單獨(dú)分析



SPSS輸出各變量的KMO檢驗(yàn)結(jié)果如下:



整理后各題KMO值:



KMO檢驗(yàn)對單個變量的分析結(jié)果也在0到1之間分布,如果系數(shù)大于0.5,則認(rèn)為單個變量滿足要求;如果系數(shù)大于0.8,則認(rèn)為單個變量結(jié)果很好。


分析結(jié)論中,任一變量的KMO檢驗(yàn)結(jié)果均大于0.7,即各變量結(jié)果一般,但滿足假設(shè)2。


Bartlett's檢驗(yàn)

Bartlett's檢

Bartlett's檢驗(yàn)的零假設(shè)是研究數(shù)據(jù)之間的相關(guān)矩陣是一個完美矩陣,即所有對角線上的系數(shù)為1,非對角線上的系數(shù)均為0。


在完美矩陣情況下,各變量之間沒有相關(guān)關(guān)系,即不能將多個變量簡化為少數(shù)的成分,沒有進(jìn)行主成分提取的必要。因此,我們希望拒絕Bartlett's檢驗(yàn)的零假設(shè)。


SPSS輸出結(jié)果如下:


Bartlett's檢驗(yàn)的P值小于0.001,拒絕零假設(shè),即認(rèn)為研究數(shù)據(jù)可以進(jìn)行主成分提取,滿足假設(shè)2。


結(jié)果解釋


對主成分結(jié)果的分析主要從公因子方差(communalities)、提取主成分和強(qiáng)制提取主成分三個方面進(jìn)行。


公因子方差結(jié)果


SPSS輸出公因子方差結(jié)果如下:



研究中有多少個變量數(shù)據(jù)結(jié)果就會輸出多少個成分,本研究中共有25個變量,就會對應(yīng)產(chǎn)生25個成分。


“Extraction”欄提示當(dāng)只保留選中的成分時,變量變異被解釋的程度。


提取主成分


研究中有多少個變量,主成分提取就會產(chǎn)生多少個主成分。我們通過選取主成分對數(shù)據(jù)進(jìn)行降維,但同時也要注意盡可能多地包含對數(shù)據(jù)變異的解釋。


一般來說,結(jié)果輸出的第一主成分包含最多的數(shù)據(jù)變異,第二主成分次之,之后的主成分包含的變異程度依次遞減。SPSS輸出結(jié)果如下:



本研究中共有25個變量,那總特征值(eigenvalues of variance)是25,即每個變量自身的特征值為1。


Total欄提示的是各主成分對數(shù)據(jù)變異的解釋程度。


以第一主成分為例,其特征值為6.730,占總體變異的6.730/25×100 = 26.919% (% of Variance欄)。同理,第二主成分的特征值為3.342,占總體變異的13.369%,以此類推。


一般來說,如果某一項(xiàng)主成分的特征值小于1,那么我們就認(rèn)為該主成分對數(shù)據(jù)變異的解釋程度比單個變量小,應(yīng)該剔除。本研究結(jié)果如下:



第五主成分的特征值為1.049,大于1;而第六主成分的特征值為0.951,小于1,即應(yīng)該保留前五位的主成分,剔除剩余部分。



結(jié)論


本研究采用主成分分析,通過25項(xiàng)問題調(diào)查315位應(yīng)聘者的工作能力。


研究變量之間存在線性相關(guān)關(guān)系(每組變量之間的相關(guān)系數(shù)均大于0.3),數(shù)據(jù)結(jié)構(gòu)合理(KMO檢驗(yàn)系數(shù)為0.833,單個變量的KMO檢驗(yàn)系數(shù)均大于0.7,Bartlett's檢驗(yàn)結(jié)果為P<0.001),提示研究數(shù)據(jù)可以進(jìn)行主成分提取。< span="">


主成分提取結(jié)果:研究提取前四位主成分。提取后的主成分累計(jì)解釋59.9%的數(shù)據(jù)變異,分別反映應(yīng)聘者的工作積極性、工作自主性、工作熱情和工作責(zé)任感(如下圖)





16種常用的數(shù)據(jù)分析方法-主成分分析的評論 (共 條)

分享到微博請遵守國家法律
应用必备| 山丹县| 乌拉特后旗| 龙里县| 双峰县| 盐亭县| 邯郸市| 读书| 宜川县| 东乡族自治县| 灵寿县| 临潭县| 镇康县| 海丰县| 南雄市| 金溪县| 怀柔区| 乡城县| 驻马店市| 金坛市| 文登市| 开鲁县| 西和县| 保康县| 枣强县| 丹巴县| 石台县| 江阴市| 大安市| 彝良县| 洛浦县| 上犹县| 东乡县| 临湘市| 沙雅县| 南投市| 博爱县| 甘泉县| 巴青县| 忻州市| 禹州市|