16種常用的數(shù)據(jù)分析方法-因子分析
因子分析法是指從研究指標相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些信息重疊、具有錯綜復雜關(guān)系的變量歸結(jié)為少數(shù)幾個不相關(guān)的綜合因子的一種多元統(tǒng)計分析方法。?
是一種旨在尋找隱藏在多變量數(shù)據(jù)中、無法直接觀察到卻影響或支配可測變量的潛在因子、并估計潛在因子對可測變量的影響程度以及潛在因子之間的相關(guān)性的一種多元統(tǒng)計分析方法
基本思想
根據(jù)相關(guān)性大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,但不同組的變量不相關(guān)或相關(guān)性較低,每組變量代表一個基本結(jié)構(gòu)一即公共因子。
為什么做因子分析
舉例說明:在實際門店問題中,往往我們會選擇潛力最大的門店作為領(lǐng)航店,以此為樣板,實現(xiàn)業(yè)績和利潤的突破及未來新店的標桿。選擇領(lǐng)航店過程中我們要注重很多因素,比如:
↘所在小區(qū)的房價
↘總面積
↘戶主年齡分布
↘小區(qū)戶數(shù)
↘門店面積
↘2公里范圍內(nèi)競爭門店數(shù)量等
收集到所有的這些數(shù)據(jù)雖然能夠全面、精準的確定領(lǐng)航店的入選標準,但實際建模時這些變量未必能夠發(fā)揮出預期的作用。主要體現(xiàn)兩方面:計算量的問題;變量間的相關(guān)性問題。
這時,最簡單直接的方案就是削減變量個數(shù),確定主要變量,因子分析以最少的信息丟失為前提,將眾多的原有變量綜合成少數(shù)的綜合指標。
因子分析特點
因子個數(shù)遠小于變量個數(shù);
能夠反應原變量的絕大數(shù)信息;
因子之間的線性關(guān)系不顯著;
因子具有命名解釋性
因子分析步驟
1.原有變量是否能夠進行因子分析;
2.提取因子;
3.因子的命名解釋;
4.計算因子得分;五、綜合評價
因子與主成分分析的區(qū)別
相同:都能夠起到處理多個原始變量內(nèi)在結(jié)構(gòu)關(guān)系的作用
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關(guān)系,是比主成分分析更深入的一種多元統(tǒng)計方法
因子分析可以看做是優(yōu)化后的主成分分析,兩種方法有很多共通的地方,但應用方面各有側(cè)重。
因子分析應用場景
因子分析方法主要用于三種場景,分別是:
l信息濃縮:將多個分析項濃縮成幾個關(guān)鍵概括性指標。比如將多個問卷題濃縮成幾個指標。如果偏重信息濃縮且關(guān)注指標與分析項對應關(guān)系,使用因子分析更為適合。
l權(quán)重計算:利用方差解釋率值計算各概括性指標的權(quán)重。在信息濃縮的基礎上,可進一步計算每個主成分/因子的權(quán)重,構(gòu)建指標權(quán)重體系。
l綜合競爭力:利用成分得分和方差解釋率這兩項指標,計算得到綜合得分,用于綜合競爭力對比(綜合得分值越高意味著競爭力越強)。此類應用常見于經(jīng)濟、管理類研究,比如上市公司的競爭實力對比。
因子分析案例
現(xiàn)在有 12 個地區(qū)的 5 個經(jīng)濟指標調(diào)查數(shù)據(jù)(總?cè)丝?、學校校齡、總雇員、專業(yè)服務、中等房價),為對這 12 個地區(qū)進行綜合評價,請確定出這 12 個地區(qū)的綜合評價指標。(綜合競爭力應用場景)
同一指標在不同地區(qū)是不同的,用單一某一個指標難以對12個地區(qū)進行準確的評價,單一指標只能反映地區(qū)的某一方面。所以,有必要確定綜合評價指標,便于對比。因子分析方法就可以應用在這個案例中。
5 個指標即為我們分析的對象,我們希望從這5個可觀測指標中尋找出潛在的因素,用這些具有綜合信息的因素對各地區(qū)進行評價。
下圖spss因子分析的操作界面主要包括5方面的選項,變量區(qū)只能選擇數(shù)值型變量,分類型變量不能進入該模型。
spss軟件為了消除不同變量間量綱和數(shù)量級對結(jié)果的影響,在該過程中默認自動進行標準化處理,因此不需要對這些變量提前進行標準化處理。
?
描述統(tǒng)計選項卡
希望看到各變量的描述統(tǒng)計信息,要對比因子提取前后的方差變化,選定“單變量描述性”和“原始分析結(jié)果”;
現(xiàn)在是基于相關(guān)矩陣提取因子,所以,選定相關(guān)矩陣的“系數(shù)和顯著性水平“,
另外,比較重要的還有 KMO 和球形檢驗,通過KMO值,我們可以初步判斷該數(shù)據(jù)集是否適合采用因子分析方法,kmo結(jié)果有時并不會出現(xiàn),這主要與變量個數(shù)和樣本量大小有關(guān)。
?
?
抽取選項卡:在該選項卡中設置如何提取因子
提取因子的方法有很多,最常用的就是主成分法。
因為參與分析的變量測度單位不同,所以選擇“相關(guān)矩陣”,如果參與分析的變量測度單位相同,則考慮選用協(xié)方差矩陣。
經(jīng)常用到碎石圖對于判斷因子的個數(shù)很有幫助,一般都會選擇該項。關(guān)于特征值,一般spss默認只提取特征值大于1的因子。收斂次數(shù)比較重要,可以從首次結(jié)果反饋的信息進行調(diào)整。
?
?
因子旋轉(zhuǎn)選項卡
因子分析要求對因子給予命名和解釋,是否對因子旋轉(zhuǎn)取決于因子的解釋。
旋轉(zhuǎn)就是坐標變換,使得因子系數(shù)向1 和?0?靠近,對公因子的命名和解釋更加容易。旋轉(zhuǎn)方法一般采用”最大方差法“即可,輸出旋轉(zhuǎn)后的因子矩陣和載荷圖,對于結(jié)果的解釋非常有幫助。
如果不經(jīng)旋轉(zhuǎn)因子已經(jīng)很好解釋,那么沒有必要旋轉(zhuǎn),否則,應該旋轉(zhuǎn)。
?
?
保存因子得分
要計算因子得分就要先寫出因子的表達式。因子是不能直接觀察到的,是潛在的。但是可以通過可觀測到的變量獲得。
因子分析模型是原始變量為因子的線性組合,現(xiàn)在我們可以根據(jù)回歸的方法將模型倒過來,用原始變量也就是參與分析的變量來表示因子。從而得到因子得分。因子得分作為變量保存,對于以后深入分析很有用處。
?
結(jié)果解讀:驗證數(shù)據(jù)是否適合做因子分析
參考kmo結(jié)果,一般認為大于0.5,即可接受。同時還可以參考相關(guān)系數(shù),一般認為分析變量的相關(guān)系數(shù)多數(shù)大于?0.3,則適合做因子分析;
KMO=0.575 檢驗來看,不是特別適合因子分析,基本可以通過。
?
?
結(jié)果解讀:因子方差表
提取因子后因子方差的值均很高,表明提取的因子能很好的描述這 5 個指標。
方差分解表表明,默認提取的前兩個因子能夠解釋 5 個指標的 93.4%。碎石圖表明,從第三個因子開始,特征值差異很小。綜上,提取前兩個因子。
?
?
?
?
結(jié)果解讀:因子矩陣
旋轉(zhuǎn)因子矩陣可以看出,經(jīng)旋轉(zhuǎn)后,因子便于命名和解釋。
因子 1主要解釋的是中等房價、專業(yè)服務項目、中等校平均校齡,可以命名為社會福利因子;
因子 2 主要解釋的是其余兩個指標,總?cè)丝诤涂偣蛦T??梢悦麨槿丝谝蜃印?/p>
因子分析要求最后得到的因子之間相互獨立,沒有相關(guān)性,而因子轉(zhuǎn)換矩陣顯示,兩個因子相關(guān)性較低??梢?,對因子進行旋轉(zhuǎn)是完全有必要的。
?
結(jié)果解讀:因子系數(shù)
因子得分就是根據(jù)這個系數(shù)和標準化后的分析變量得到的。在數(shù)據(jù)視圖中可以看到因子得分變量。
結(jié)論
經(jīng)過因子分析實現(xiàn)了目的,找到了兩個綜合評價指標,人口因子和福利因子。
從原來的 5 個指標挖掘出 2 個潛在的綜合因子。可以對12 個地區(qū)給出客觀評價。
?
?
?
可以根據(jù)因子1或因子2得分,對這12個地區(qū)進行從大到小排序,得分高者被認為在這個維度上有較好表現(xiàn)。