關(guān)于因子分析||四處搜刮來(lái)的筆記(二)
在社會(huì)科學(xué)中有很多潛在的變量(構(gòu)念),它們無(wú)法直接觀測(cè),如情商、智商等,此時(shí),便需要用可見(jiàn)的指標(biāo)(觀測(cè)變量)來(lái)衡量。因素分析便是一種化繁為簡(jiǎn)的方法,將眾多變量濃縮為精簡(jiǎn)的因素,即用少數(shù)幾個(gè)因子(潛變量)描述多個(gè)變量(觀測(cè)變量)的關(guān)系。例如,我想測(cè)人的愛(ài)情觀(瞎舉的例子,不嚴(yán)謹(jǐn)),但我不知道愛(ài)情觀可以劃分為哪些類型,于是我設(shè)計(jì)了50個(gè)題目,發(fā)給周圍的人做。收回這50道題的數(shù)據(jù),我可以通過(guò)探索性因素分析,找出這50道題中有多少個(gè)公共的因子,這幾個(gè)公共因子大致就是愛(ài)情觀的幾個(gè)類型,如題1,3,5反映的是公共因子A,即是A類型的愛(ài)情觀(需要根據(jù)這些題目的含義為其命名)。
一、探索性因素分析(EFA)
一般情況下說(shuō)的因素分析是探索性因素分析(因?yàn)榇蠖嗲闆r是不知道某一現(xiàn)象背后的結(jié)構(gòu))。
在具體過(guò)程中,確定因子個(gè)數(shù)可以通過(guò):
1,特征值(Eigenvalue)確定因子個(gè)數(shù)。特征值表示某因子在所有變異中的貢獻(xiàn),≥1則保留(有幾個(gè)≥1便有幾個(gè)因子)。其中,%variance表示貢獻(xiàn)占總變異的百分比。
2,碎石圖(scree test),看圖中線的斜率,斜率變化最大的線之前有幾個(gè)斜率(幾條線)便有幾個(gè)因子。一般來(lái)說(shuō),因子的線都是很“陡”的,最后一個(gè)因子之后,線會(huì)忽然變得很平滑。通常根據(jù)碎石圖可以確定某個(gè)范圍的因子數(shù)(如4-6個(gè)因子),不要求過(guò)于精準(zhǔn)。
?
因子軸旋轉(zhuǎn)(便于理解解釋因子的實(shí)際意義):
因素軸旋轉(zhuǎn)可以分為正交旋轉(zhuǎn)(Orthogonal Rotations)和斜交旋轉(zhuǎn)(Oblique Rotations)。
正交轉(zhuǎn)軸因素轉(zhuǎn)軸夾角為90°,不容許因子之間相關(guān)(因子獨(dú)立不相關(guān)),包括最大變異法(Varimax)、四次方最大值法(Quartimax)、相等最大值法(Equamax)。
斜交轉(zhuǎn)軸允許因子之間相關(guān)(如果相關(guān)接近于0,是否容許相關(guān)都無(wú)影響,正交斜交效果一樣),將因子相關(guān)的情況考慮了進(jìn)去。包括直接斜交(Direct Oblimin)和Promax轉(zhuǎn)軸法。
?
二、驗(yàn)證性因素分析(CFA)
驗(yàn)證性因素分析是已知模型結(jié)構(gòu)(如已經(jīng)知道愛(ài)情觀有幾類,即愛(ài)情觀的模型),用得到的數(shù)據(jù)驗(yàn)證模型是不是最符合實(shí)際。
驗(yàn)證性因素分析首先需要我們輸入研究結(jié)果(如愛(ài)情觀問(wèn)卷回收的數(shù)據(jù))的相關(guān)/協(xié)方差矩陣(correlation/covariance matrix)S和一個(gè)或多個(gè)已知(有理論依據(jù))的模型。系統(tǒng)會(huì)輸出一個(gè)既符合輸入模型又與S差距最小的再生矩∑和各路徑參數(shù)(因子負(fù)荷、因子相關(guān)系數(shù))和擬合指數(shù)(goodness of fit)。擬合指再生矩陣可代表原始數(shù)據(jù)的程度,擬合指數(shù)c2 越小越好(c2會(huì)隨樣本量的增加而變大)。擬合也可以考慮NNFI和CFI,>0.9則說(shuō)明兩個(gè)矩陣相距小,擬合好。
模型越簡(jiǎn)單越好,模型的簡(jiǎn)單性用自由度df表示,df越大模型越簡(jiǎn)單。df為不重復(fù)因素-需估計(jì)的參數(shù)個(gè)數(shù),模型越簡(jiǎn)單,需要估計(jì)的參數(shù)越小,df越大。
?
三、因素分析的步驟
1檢查因素分析的適切性(適不適合因素分析):
(1)KMO檢驗(yàn)。KMO在[0,1]之間,越接近1越適合因子分析,0.5以下則很不適合(一般要大于0.6)。
(2)巴特利特球形檢驗(yàn),p<0.05拒絕各變量獨(dú)立的假設(shè),變量之間強(qiáng)相關(guān),適合做因子分析。
(3)反映像相關(guān)矩陣檢驗(yàn)。將偏相關(guān)系數(shù)矩陣(控制了其他變量算出的2個(gè)變量的相關(guān))每個(gè)元素取反,如果反像矩陣中有些元素的絕對(duì)值過(guò)大,則不適合因素分析,因?yàn)榇嬖诠蜃拥目赡苄暂^小(存在公因子則偏相關(guān)會(huì)較?。7从诚裣嚓P(guān)系數(shù)矩陣的對(duì)角線數(shù)值代表每一個(gè)變量的取樣適當(dāng)性量數(shù)(measure of sampling adequacy,MSA),MSA要求大于0.5(小于0.5說(shuō)明該題項(xiàng)不適合因子分析,宜刪除)。取樣適當(dāng)性也就是測(cè)驗(yàn)內(nèi)容的適當(dāng)性和相符性,反映內(nèi)容效度。
2抽取因子
抽取因子的方法主要有主成分分析、未加權(quán)最小平均法、概化最小平方、最大概似、主軸因素法、Alpha因素?cái)X取、映像因素?cái)X取。
在這些方法得出的數(shù)據(jù)中,一般根據(jù)特征值、碎石圖確定因子個(gè)數(shù)。
3因子旋轉(zhuǎn)尋求實(shí)際意義
一個(gè)變量只在盡可能少的因子上有較高的負(fù)荷。通過(guò)正交轉(zhuǎn)軸或斜交轉(zhuǎn)軸可以實(shí)現(xiàn)。
相關(guān)概念:
1,變量共同度:每個(gè)原始變量在每個(gè)共同因子的負(fù)荷量,原始變量方差中由共同因子決定的比率(通常要>0.3/0.4)。因子負(fù)荷要>0.3。
2,交叉負(fù)荷(cross-loading):同一題目同時(shí)在2個(gè)以上的因素有高負(fù)荷,一般不超過(guò)0.5即可。
3,超量采樣(oversample):在低頻事件發(fā)生概率相對(duì)較高的區(qū)域進(jìn)行抽樣,增加低頻事件的數(shù)量。
參考來(lái)源:https://www.coursera.org/learn/jiegou-fangcheng-moxing/home/welcome