最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

主成分分析(PCA)VS 探索性因子分析(EFA)

2020-07-28 16:17 作者:JMP數(shù)據(jù)分析  | 我要投稿

社會(huì)學(xué)家、心理學(xué)家和消費(fèi)者研究人員在分析多元數(shù)據(jù)時(shí),常常會(huì)遇到這樣的問(wèn)題:應(yīng)該使用主成分分析(PCA)還是探索性因子分析(EFA)呢?選擇不當(dāng)可能導(dǎo)致錯(cuò)誤的結(jié)果或者對(duì)數(shù)據(jù)的錯(cuò)誤理解。


在我們過(guò)往的推文《這樣的數(shù)據(jù)分析員才有時(shí)間談戀愛(ài)?》中,我們已經(jīng)從概念、區(qū)別及各自的使用優(yōu)勢(shì)上向大家介紹了主成分分析和因子分析的區(qū)別。今天,我們將借助于JMP平臺(tái)進(jìn)一步解釋PCA和EFA之間的關(guān)鍵區(qū)別,幫助大家掌握并思考何時(shí)使用最適合的方法來(lái)解決最相關(guān)的問(wèn)題


本文原作者Laura Castro Schilo,JMP研發(fā)統(tǒng)計(jì)開(kāi)發(fā)員,原博文發(fā)表在JMP全球用戶社區(qū),感興趣的小伙伴也可以看原帖:community.jmp.com/t5/JM

01 從一個(gè)小案例談起

為了舉例說(shuō)明,我們首先創(chuàng)建一組符合標(biāo)準(zhǔn)正態(tài)分布的數(shù)據(jù)表,包含1000個(gè)觀測(cè)變量和互不相關(guān)的4個(gè)變量。


打開(kāi)JMP軟件的多元平臺(tái)(JMP菜單:多元分析->多元),觀看變量之間的相關(guān)性。通過(guò)相關(guān)性色圖(圖1),我們可以看到非對(duì)角線的相關(guān)系數(shù)都接近于0,這說(shuō)明變量之間相互獨(dú)立。

圖1 四個(gè)模擬變量的相關(guān)系數(shù)和對(duì)應(yīng)的色圖

那么問(wèn)題來(lái)了:如果在這些數(shù)據(jù)上執(zhí)行PCA,結(jié)果會(huì)是怎樣?如果執(zhí)行EFA,結(jié)果又會(huì)是怎樣?


02 PCA VS EFA

打開(kāi)JMP的因子分析平臺(tái),同時(shí)對(duì)數(shù)據(jù)集執(zhí)行PCA和EFA。需要說(shuō)明的是,因?yàn)橹挥兴膫€(gè)變量,這里我們只保留一個(gè)因子。另外,不采用任何的因子旋轉(zhuǎn)。之后得到如圖2所示的PCA和EFA的因子載荷矩陣。


因子載荷,測(cè)量的是主成分或公因子對(duì)變量的影響,可以幫助我們理解主成分或公因子代表的到底是什么。載荷的絕對(duì)值越接近1,主成分或公因子對(duì)變量的影響就越大。通常定義為絕對(duì)值≥0.4為高載荷,因?yàn)檫@表明至少16%的測(cè)量變量方差與因子的方差重疊。具有高載荷的變量最能代表主成分或公因子。

圖2 主成分分析和因子分析的因子載荷矩陣

對(duì)比PCA和EFA的因子載荷矩陣,我們不難發(fā)現(xiàn)兩者截然不同!PCA給了我們?nèi)齻€(gè)絕對(duì)值大于0.4的載荷,而EFA沒(méi)有給出任何高載荷。


為什么結(jié)果會(huì)截然不同呢?


03 截然不同的兩種結(jié)果,為什么?

這是因?yàn)楫?dāng)我們執(zhí)行EFA時(shí),本質(zhì)上是針對(duì)簡(jiǎn)化相關(guān)性矩陣執(zhí)行特征值分解。簡(jiǎn)化相關(guān)性矩陣是對(duì)角線元素被多重相關(guān)的平方 (SMC) 系數(shù)取代的相關(guān)性矩陣。

實(shí)際上,相關(guān)性色圖也揭示了為什么會(huì)得到這樣不同的結(jié)果。

在這個(gè)例子中,簡(jiǎn)化相關(guān)性矩陣中的每個(gè)元素都是非常小,幾乎為零。對(duì)于PCA,特征值分解是在完全相關(guān)性矩陣(圖1)上完成的,但對(duì)于EFA,特征值分解在簡(jiǎn)化相關(guān)性矩陣(圖3)上完成的

圖3 簡(jiǎn)化相關(guān)性矩陣的色圖

因此,計(jì)算方法的差異解釋了不同分析的結(jié)果差異,但我們還需要從實(shí)際解決問(wèn)題的角度來(lái)看看這些差異意味著什么。


04 有何實(shí)際意義?

PCA和EFA有不同的目標(biāo):PCA是一種降低數(shù)據(jù)維度的技術(shù),而EFA是一種識(shí)別無(wú)法直接測(cè)量的變量(即潛在變量或因子)的技術(shù)。

因此,在PCA中,數(shù)據(jù)的所有方差由完全相關(guān)性矩陣反映,都用于計(jì)算以獲得結(jié)果,最終所得到的主成分是變量所要測(cè)量的方差和其他方差來(lái)源(例如測(cè)量誤差)的混合(見(jiàn)圖4的左圖)。

圖4 PCA和EFA的直觀比較

相比之下,在EFA中,并非數(shù)據(jù)的所有方差都來(lái)自潛在變量(見(jiàn)圖4的右圖)。EFA算法通過(guò)用SMC值“減少”相關(guān)性矩陣來(lái)體現(xiàn)這一特征,因?yàn)镾MC是潛在因子在給定變量中所解釋的方差的估計(jì)。如果我們以對(duì)角線為單位執(zhí)行EFA,那么就意味著這些因子可以解釋所測(cè)變量的所有方差,我們做的將是PCA而不是EFA。

圖4還說(shuō)明了PCA和EFA之間的另一個(gè)重要區(qū)別。請(qǐng)注意,PCA中的箭頭從所測(cè)量的變量指向主成分,而在EFA中箭頭則是相反的方向。箭頭表示因果關(guān)系,因此PCA中測(cè)量變量的變異導(dǎo)致主成分的變異。這與EFA相反,EFA的潛在因子被視為導(dǎo)致被測(cè)變量之間相關(guān)性的變化和模式(Marcoulides&Hershberger,1997)[1]。


為了清楚起見(jiàn),我們總結(jié)了一些觀察結(jié)果。

  • 首先,大多數(shù)多元數(shù)據(jù)都具有一定程度的相關(guān)性,因此PCA和EFA之間的差異不會(huì)像本例中那樣明顯。

  • 其次,隨著分析中所涉及的變量數(shù)量的增加,PCA和EFA的結(jié)果會(huì)變得越來(lái)越相似。研究人員認(rèn)為,至少有40個(gè)變量的分析只會(huì)導(dǎo)致細(xì)微的差異(Snook&Gorsuch,1989)[2]。

  • 第三,如果測(cè)量變量的共同性很高,那么PCA和EFA之間的結(jié)果也是相似的。

  • 最后,這個(gè)例子依賴于“主軸”分解方法,但也存在其他估計(jì)方法,其結(jié)果可能會(huì)有所不同。

當(dāng)分析師在EFA和PCA之間做出選擇時(shí),必須考慮所有這些觀察結(jié)果。但是對(duì)于心理學(xué)家(最先開(kāi)發(fā)EFA的人)來(lái)說(shuō),最重要的也許是EFA提出了關(guān)于所分析變量的理論。這種理論可以追溯到Spearman(1904)[3],他提出未觀察到的因子決定了我們能夠直接測(cè)量的因子。

下面列出了一些關(guān)鍵要點(diǎn),希望對(duì)大家有所啟發(fā)。Widaman(2007)[4] 是繼續(xù)學(xué)習(xí)此主題的一個(gè)很好的資源。


05一些要點(diǎn)與思考

  • PCA可用于減少變量的數(shù)量,同時(shí)保留數(shù)據(jù)中的最多信息,而EFA可用于測(cè)量未觀察到的(潛在的)無(wú)誤差變量。

  • 當(dāng)變量沒(méi)有任何共同點(diǎn)時(shí),如上例所示,EFA將找不到定義明確的潛在因子,但PCA會(huì)找到定義明確的主成分,以此來(lái)解釋數(shù)據(jù)中的最大方差。

  • 當(dāng)目標(biāo)是測(cè)量無(wú)誤差的潛在變量但使用了PCA時(shí),成分的載荷很可能高于使用EFA時(shí)的載荷。這會(huì)使得分析人員誤以為他們有一個(gè)定義明確、沒(méi)有誤差的因子,而實(shí)際上他們有一個(gè)明確定義的成分,即數(shù)據(jù)中所有方差來(lái)源的混合物。

  • 當(dāng)目標(biāo)是獲取一小部分變量,這些變量保留了數(shù)據(jù)中的大部分變異,但使用了EFA時(shí),因子載荷可能會(huì)比使用PCA時(shí)要低。這將使得分析人員誤以為他們保留了數(shù)據(jù)中最大的方差,而實(shí)際上他們卻保留了所有被測(cè)變量的共同方差。


參考文件

[1] Marcoulides, G.A., & Hershberger, S. L. (1997). Multivariate statistical methods: Afirst course. Psychology Press.

[2] Snook, S. C.,& Gorsuch, R. L. (1989). Component analysis versus common factor analysis:A Monte Carlo study. Psychological Bulletin, 106, 148-154.

[3] Spearman, C.(1904). "General intelligence," objectively determined andmeasured. The American Journal of Psychology, 15, 201-293.

[4] Widaman, K. F.(2007). Common factors versus components: Principals and principles, errors andmisconceptions. Factor analysis at 100: Historical developments and futuredirections, 177-203.


最后,如果你也想體驗(yàn)基于JMP的PCA和EFA分析,歡迎點(diǎn)擊這里下載JMP 30天免費(fèi)試用;

如果需要文中案例JSL代碼的小伙伴,請(qǐng)私信留下郵箱及信息,我們發(fā)送給你。


主成分分析(PCA)VS 探索性因子分析(EFA)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
温州市| 崇左市| 通榆县| 凤冈县| 庄浪县| 余庆县| 云阳县| 滦平县| 湖口县| 凤凰县| 平陆县| 台湾省| 宁波市| 巴东县| 锡林郭勒盟| 新巴尔虎左旗| 建平县| 永州市| 沅江市| 永昌县| 繁峙县| 孟津县| 永昌县| 五常市| 綦江县| 定结县| 惠来县| 扶沟县| 内乡县| 株洲县| 临武县| 潢川县| 炉霍县| 凤山县| 贵港市| 茂名市| 定陶县| 河西区| 札达县| 惠水县| 视频|