數(shù)據(jù)分析:因子分析常見的6大問題匯總
后臺回復?1?免費送你《產(chǎn)品經(jīng)理入門資料包》
因子分析法是指從研究指標相關矩陣內(nèi)部的依賴關系出發(fā),把一些信息重疊、具有錯綜復雜關系的變量歸結為少數(shù)幾個不相關的綜合因子的一種多元統(tǒng)計分析方法。
是一種旨在尋找隱藏在多變量數(shù)據(jù)中、無法直接觀察到卻影響或支配可測變量的潛在因子、并估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統(tǒng)計分析方法。
?
基本思想
根據(jù)相關性大小把變量分組,使得同組內(nèi)的變量之間相關性較高,但不同組的變量不相關或相關性較低,每組變量代表一個基本結構一即公共因子。
?
為什么做因子分析
舉例說明:在實際門店問題中,往往我們會選擇潛力最大的門店作為領航店,以此為樣板,實現(xiàn)業(yè)績和利潤的突破及未來新店的標桿。選擇領航店過程中我們要注重很多因素,比如:
↘?所在小區(qū)的房價
↘?總面積
↘?戶主年齡分布
↘?小區(qū)戶數(shù)
↘?門店面積
↘?2公里范圍內(nèi)競爭門店數(shù)量等
收集到所有的這些數(shù)據(jù)雖然能夠全面、精準的確定領航店的入選標準,但實際建模時這些變量未必能夠發(fā)揮出預期的作用。主要體現(xiàn)兩方面:計算量的問題;變量間的相關性問題。
這時,最簡單直接的方案就是削減變量個數(shù),確定主要變量,因子分析以最少的信息丟失為前提,將眾多的原有變量綜合成少數(shù)的綜合指標。
?
全文見:16種常用的數(shù)據(jù)分析方法-因子分析
?
在進行因子分析時,總是會遇到各種各樣的問題,常見的因子分析疑問包括:
1. 因子分析與主成分分析的區(qū)別是什么?
關于這個問題,見諸各大論壇、博客,還有百度知道等欄目,這里引用期刊論文中的文字加以說明。
主成分分析:是研究如何通過少數(shù)幾個主成分來解釋多變量的方差一協(xié)方差結構的分析方法,也就是求出少數(shù)幾個主成分(變量),使它們盡可能多地保留原始變量的信息,且彼此不相關。
它是一種數(shù)學變換的方法,即把給定的一組變量通過線性變換,轉(zhuǎn)換為一組不相關的變量(兩兩相關系數(shù)為0,或樣本向量彼此相互垂直的隨機變量)。
在這種變換中,保持變量的總方差(方差之和)不變。同時具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。在主成分分析中,最終確定成分是原始變量的線性組合。每個主成分都是由原有p個變量線性組合得到。在諸多主成分Z i中,Z 1在方差中占的比重最大,說明它綜合原有變量的能力最強,越往后主成分在方差中的比重也小,綜合原信息的能力越弱。
因子分析:因子分析是尋找潛在的起支配作用的因子模型的方法。因子分析是根據(jù)相關性大小把變量分組,使得同組內(nèi)的變量之間相關性較高,但不同的組的變量相關性較低。
每組變量代表一個基本結構,這個基本結構稱為公共因子。對于所研究的問題就可試圖用最少個數(shù)的不可測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。通過因子分析得來的新變量是對每個原始變量進行內(nèi)部剖析。
因子分析不是對原始變量的重新組合,而是對原始變量進行分解,分解為公共因子和特殊因子兩部分。具體地說,就是要找出某個問題中可直接測量的具有一定相關性的諸指標,如何受少數(shù)幾個在專業(yè)中有意義、又不可直接測量到、且相對獨立的因子支配的規(guī)律,從而可用各指標的測定來間接確定各因子的狀態(tài)。
?
總結:
1、主成分分析在于對原始變量的線性變換,注意是轉(zhuǎn)換、變換;而因子分析在于對原始變量的剖析,注意是剖析,是分解,分解為公共因子和特殊因子。
2、這兩種分析法得出的新變量,也就是成分或者因子,并不是原始變量篩選或者提出后剩余的變量。
3、因子分析只能解釋部分變異(指公共因子),主成分分析能解釋所有變異(如果提取了所有成分)。
4、主成分分析,有幾個變量就至少有幾個成分,一般只提取能解釋80%以上的成分;因子分析,有幾個變量不一定有幾個公共因子,因為這里的因子是公因子,潛在的存在與每一個變量中,需要從每一個變量中去分解,無法解釋的部分是特殊因子。
5、spss因子分析過程對各變量間量綱和單位造成的影響,默認自動進行標準化處理,因此不必要在開始之前單獨進行數(shù)據(jù)標準化處理,因為,標準化與否結果一致。
6、spss因子分析重要結果:KMO值,此值是否進行計算與變量個數(shù)、樣本個數(shù)有關,不一定會在每次執(zhí)行中都顯示,如沒有此結果,可通過調(diào)整變量和樣本的比例實現(xiàn)。
?
2、提取因子個數(shù)如何選?
提取因子的個數(shù)是一個綜合選擇的過程。默認是按特征根大于1作為因子提取的標準。
?
特征根不是唯一的判斷標準。除此特征根,還可以通過累積方差貢獻率、碎石圖等指標綜合判斷。
如果分析前已經(jīng)有了預期的維度(因子)劃分,也可以在分析時主動設定提取因子個數(shù),再根據(jù)上面的指標進行調(diào)整。
?
?
3. 因子分析可以提供的重要結果是什么?
因子,因子正確命名之后,易于理解和解釋因變量。比如獲利因子、償債因子、成長因子等等;在科研論文中的表現(xiàn)形式為:**問題的因素分析。
每一個因子的權重,每一個變量的權重。它的貢獻在于替代主觀評分、拍腦袋制定各影響因素的權重,比如層次分析法。
因子得分變量,SPSS將因子得分作為單獨的變量保存起來??梢杂迷撟兞窟M行深層次的分析,比如作為變量用于聚類分析。
因子綜合得分,主要的應用在于綜合評價研究對象,比如一個城市的綜合水平,一支股票的綜合狀況等,用法一般為排序比較得分大小,或者分為不同檔次進行均值比較。
?
4. 因子相關矩陣在哪里分析?
使用【通用方法】–【相關】可得到相關矩陣。
?
?
5. 出現(xiàn)奇異矩陣如何解決?
如果提示出現(xiàn)奇異矩陣,通常情況下有以下三個原因及解決辦法。
第一、由于分析樣本量太少(比如分析項有20個,分析樣本僅10個),此里需要加大樣本量或者減少分析項即可;
第二、分析項之間的相關性非常非常強(相關系數(shù)大于0.8,甚至接近1),共線性嚴重,建議使用相關分析,然后把相關系數(shù)值非常大的項移除出去后再次分析;
第三、分析項之間的相關性非常非常弱(相關系數(shù)接近0),建議使用相關分析,然后把相關系數(shù)值非常小的項移除出去后再次分析。
?
6. 探索性因子分析與驗證性因子分析的區(qū)別
二者的區(qū)別在于,驗證性因子分析(CFA)用于驗證對應關系,探索性因子分析(EFA)用于探索因子與測量項之間的對應關系。
如果是成熟的量表,研究者可同時使用驗證性因子分析CFA,和探索性因子分析(簡稱因子分析,EFA)用于驗證量表的效度。
如果量表的權威性較弱,通常使用探索性因子分析(EFA)進行探索因子,或者效度檢驗分析。