「SPSSAU|數(shù)據(jù)分析」:因子-聚類案例分析
案例說明
1.案例背景
研究短視頻平臺(tái)用戶行為的分類情況,調(diào)查搜集了200份數(shù)據(jù)其中20項(xiàng)可分為品牌活動(dòng),品牌代言人,社會(huì)責(zé)任感,品牌贊助和購買意愿品牌五個(gè)維度。案例數(shù)據(jù)中還包括基本個(gè)體特征比如性別、年齡,學(xué)歷,月收入等。以及短視頻平臺(tái)觀看情況和消費(fèi)情況。數(shù)據(jù)樣本為200個(gè)。
2.分析目的
想要根據(jù)短視頻平臺(tái)調(diào)查的數(shù)據(jù)進(jìn)行聚類分析,由于分析項(xiàng)過多,所以先進(jìn)行因子分析,將得到的因子得分進(jìn)行聚類分析后進(jìn)行命名,以及和其他基本個(gè)體特征比如性別進(jìn)行交叉分析最終得到結(jié)論。
SPSSAU操作
因?yàn)榘咐念A(yù)設(shè)維度為5所以將分析項(xiàng)拖拽到右側(cè)分析框后,下拉選擇因子個(gè)數(shù)為5并勾選因子得分。
因子分析結(jié)果
1.前提條件
KMO值與Bartlete球形檢驗(yàn)
使用因子分析進(jìn)行信息濃縮研究,首先分析研究數(shù)據(jù)是否適合進(jìn)行因子分析,從上表可以看出:KMO值為0.929,大于0.6,滿足因子分析的前提要求,意味著數(shù)據(jù)可用于因子分析研究。以及數(shù)據(jù)通過Bartlett 球形度檢驗(yàn)(p<0.05),說明研究數(shù)據(jù)適合進(jìn)行因子分析。接下來查看分析項(xiàng)是否需要調(diào)整。
2.因子與測量項(xiàng)之間的關(guān)系
因子分析進(jìn)行因子濃縮時(shí),通常會(huì)經(jīng)歷多個(gè)重復(fù)循環(huán),刪除不合理項(xiàng),并且重復(fù)多次循環(huán),最終得到合理結(jié)果。一般出現(xiàn)的情形我們分為兩種,一種為“張冠李戴”,一種為“糾纏不清”,具體描述如下。
(1)“張冠李戴”
一般情況下,如果20項(xiàng)與5個(gè)因子之間的對應(yīng)關(guān)系情況,與專業(yè)知識(shí)情況不符合,比如第一項(xiàng)本該屬于第二個(gè)因子但是被劃分到了第一個(gè)因子下面,此時(shí)則說明可能該項(xiàng)應(yīng)該被刪除處理,其出現(xiàn)了‘張冠李戴’現(xiàn)象。例如案例中的“購買意愿1”和“購買意愿4”。
(2)“糾纏不清”
除了“張冠李戴”現(xiàn)象,有時(shí)候會(huì)出現(xiàn)‘糾纏不清’現(xiàn)象,比如案例中的“品牌贊助4”可歸屬為因子2,同時(shí)也可歸屬到因子4,這種情況較為正常(稱作‘糾纏不清’),需要結(jié)合實(shí)際情況處理即可,可將該項(xiàng)刪除,也可不刪除,這時(shí),分析帶有一定主觀性。
Step1: 第一次分析
本例子中共20個(gè)分析項(xiàng),此20個(gè)分析項(xiàng)共分為5個(gè)維度,因此在分析前可主動(dòng)告訴SPSSAU,此20項(xiàng)是五個(gè)因子,否則SPSSAU會(huì)自動(dòng)判斷多少個(gè)因子(通常軟件自動(dòng)判斷與實(shí)際情況有很大出入,所以建議主動(dòng)設(shè)置因子個(gè)數(shù))。如下圖:
從上圖中可以看出:
品牌活動(dòng)1-4這4項(xiàng),它們?nèi)繉?yīng)著因子1,因子載荷系數(shù)值均高于0.4,說明此4項(xiàng)應(yīng)該同屬于一個(gè)維度,即邏輯上品牌活動(dòng)1-4這4項(xiàng),并沒有出現(xiàn) “張冠李戴”現(xiàn)象。4個(gè)分析項(xiàng)值隸屬于因子1一個(gè)維度也沒有出現(xiàn)“糾纏不清”的情況。
品牌代言人1-4共4項(xiàng),它們?nèi)繉?yīng)著因子1,但是品牌代言人3、品牌代言人4同時(shí)又屬于因子3,屬于“糾纏不清”,暫不處理。
“社會(huì)責(zé)任感1-4”共4項(xiàng),此4項(xiàng)均對應(yīng)著因子1或因子3,此3項(xiàng)并沒有出現(xiàn)‘張冠李戴’問題,但是出現(xiàn)了“糾纏不清”。
“品牌贊助1-4”共4項(xiàng),它們?nèi)繉?yīng)著因子2,“品牌贊助4”既對應(yīng)因子2又對應(yīng)因子4出現(xiàn)了“糾纏不清”,應(yīng)該給予關(guān)注。
“購買意愿1-4”共四項(xiàng),當(dāng)他們對應(yīng)因子4則“購買意愿1”出現(xiàn)“張冠李戴”若對應(yīng)因子5則“購買意愿4”出現(xiàn)“張冠李戴”。
總結(jié)上述分析可知:“購買意愿1”或者“購買意愿4”這兩項(xiàng)出現(xiàn)“張冠李戴”,應(yīng)該首先將此兩項(xiàng)中的一項(xiàng)刪除;而其他出現(xiàn)“糾纏不清”現(xiàn)象的,暫時(shí)不處理(進(jìn)行關(guān)注即可)。此次將“購買意愿1”進(jìn)行刪除后重新分析(將“購買意愿4”刪除也是可以的,由研究者自己決定)。
Step2: 第二次分析
將“購買意愿1”這項(xiàng)刪除后,進(jìn)行第二次分析。結(jié)果如下:
從上圖可知
“品牌代言人3”、“品牌代言人4”出現(xiàn)‘張冠李戴’現(xiàn)象,應(yīng)該刪除,以及“品牌活動(dòng)1-4”、“品牌代言人1-2”等出現(xiàn)‘糾纏不清’現(xiàn)象,暫不處理,但應(yīng)該給予關(guān)注??偨Y(jié)可知:應(yīng)該將“品牌代言人3”、“品牌代言人4”先刪除后再次進(jìn)行第3次分析。
Step3: 第三次分析
將“品牌代言人3”、“品牌代言人4”刪除后再次分析結(jié)果如下:
從上圖可知
“品牌代言人1-2”可同時(shí)出現(xiàn)在因子1和因子5下面,但考慮到因子5當(dāng)前僅余下2項(xiàng),因而表示可以接受,以及“社會(huì)責(zé)任感1-4”是一樣的,最終找出五個(gè)因子,它們分別與項(xiàng)之間的對應(yīng)關(guān)系良好。因子分析結(jié)束。
3.調(diào)整因子后的結(jié)果
(1)KMO 和 Bartlett 的檢驗(yàn)
使用因子分析進(jìn)行信息濃縮研究,首先分析研究數(shù)據(jù)是否適合進(jìn)行因子分析,從上表可以看出:KMO值為0.915,大于0.6,滿足因子分析的前提要求,意味著數(shù)據(jù)可用于因子分析研究。以及數(shù)據(jù)通過Bartlett 球形度檢驗(yàn)(p<0.05),說明研究數(shù)據(jù)適合進(jìn)行因子分析。
(2)因子載荷系數(shù)表
從上圖可知“品牌代言人1-2”可同時(shí)出現(xiàn)在因子1和因子5下面,但考慮到因子5當(dāng)前僅余下2項(xiàng),因而表示可以接受,以及“社會(huì)責(zé)任感1-4”是一樣的,最終找出五個(gè)因子,它們分別與項(xiàng)之間的對應(yīng)關(guān)系良好。分析項(xiàng)不需要進(jìn)一步調(diào)整,接下來進(jìn)行查看因子的提取個(gè)數(shù)以及信息濃縮情況。
4.因子提取
(1)方差解釋率
方差解釋率可以說明因子包含原數(shù)據(jù)信息的多少,方差解釋率越大說明因子包含的信息越多。因子分析中,主要關(guān)注旋轉(zhuǎn)后的數(shù)據(jù)部分。由上圖可以顯示17個(gè)指標(biāo)中,五個(gè)因子方差解釋率分別為26.400%、21.703%、19.013%、15.359%以及7.087%,累積方差解釋率由五項(xiàng)相加為89.563%,累積方差解釋率這個(gè)值沒有固定標(biāo)準(zhǔn),一般超過60%都可以接受。特征根對于因子的提取有什么作用,以下展開來說。
(2)特征根
特征根一般是指標(biāo)旋轉(zhuǎn)前每個(gè)因子的貢獻(xiàn)程度。此值的總和與項(xiàng)目數(shù)匹配,此值越大,代表因子貢獻(xiàn)越大。當(dāng)然因子分析通常需要綜合自己的專業(yè)知識(shí)綜合判斷,即使是特征根值小于1,也一樣可以提取因子。在進(jìn)行因子分析時(shí),研究者沒有預(yù)設(shè)因子數(shù),系統(tǒng)就會(huì)以特征根“大于1”為標(biāo)準(zhǔn)進(jìn)行劃分。因?yàn)榇税咐诜治銮暗念A(yù)設(shè)因子個(gè)數(shù)為4所以也同樣可以進(jìn)行分析。除了特征根之外SPSSAU還提供了更加直觀的碎石圖幫助判斷。
(3)碎石圖
從圖中可以看出,橫軸表示指標(biāo)數(shù),縱軸表示特征根值,當(dāng)提取前5個(gè)因子時(shí),特征根值變化較明顯,對解釋原有變量的貢獻(xiàn)較大;當(dāng)提取5個(gè)以后的因子時(shí),特征根變化也相對平穩(wěn),對原有變量貢獻(xiàn)相對較小,由此可見提取前5個(gè)因子對原變量有的顯著作用。碎石圖僅輔助決策因子個(gè)數(shù),如果由此圖分析三個(gè)因子也是可以的。
此案例按專業(yè)知識(shí)來看提取5個(gè)因子,如果沒有預(yù)設(shè)因子個(gè)數(shù)也可以默認(rèn)讓系統(tǒng)進(jìn)行決策。提取后要觀察因子的信息濃縮程度。
5.信息濃縮
旋轉(zhuǎn)后因子載荷系數(shù)表
旋轉(zhuǎn)后因子載荷系數(shù)可以用于判斷因子與題項(xiàng)之間的對應(yīng)關(guān)系,如果出現(xiàn)“張冠李戴”或者“糾纏不清”的情況需要關(guān)注,上述結(jié)果已經(jīng)是處理后的結(jié)果,以及各個(gè)題項(xiàng)的共同度。如果某分析項(xiàng)對應(yīng)的多個(gè)因子載荷系數(shù)絕對值均低于0.4,可考慮刪除該項(xiàng)。上圖分析中均大于0.4。所以不用刪除調(diào)整。
從結(jié)果中可以看出,使用因子分析對14個(gè)項(xiàng)進(jìn)行濃縮處理,濃縮為五個(gè)因子。因子與題項(xiàng)對應(yīng)關(guān)系如下:
其中品牌活動(dòng)1-4在因子1上有較高的載荷,說明因子1可以解釋這幾個(gè)分析項(xiàng),它們主要反映了短視頻平臺(tái)進(jìn)行品牌傳播中的品牌活動(dòng);品牌贊助1-4在因子2上有較高的載荷,它們主要反映了短視頻平臺(tái)進(jìn)行品牌傳播中的品牌贊助活動(dòng);社會(huì)責(zé)任感1-4在因子3上有較高的載荷,它們主要反映了短視頻平臺(tái)進(jìn)行品牌傳播的社會(huì)責(zé)任等;購買意愿2-4在因子4上有較高的載荷,它們主要反映了短視頻平臺(tái)某品牌用戶的購買意愿,品牌代言人1-2在因子5上有較高的載荷,它們主要反映了短視頻平臺(tái)某品牌用的代言人受眾情況。
從上表可知:所有研究項(xiàng)對應(yīng)的共同度值均高于0.4,意味著研究項(xiàng)和因子之間有著較強(qiáng)的關(guān)聯(lián)性,因子可以有效的提取出信息。因?yàn)楸酒咐窍氲玫?strong>因子得分后進(jìn)行聚類分析進(jìn)行命名得到有效結(jié)論用于公司決策。所以對于因子分析權(quán)重方面不進(jìn)行贅述,如想了解,可以點(diǎn)擊文末鏈接進(jìn)行查看。
6.因子得分
因子分析往往是預(yù)處理步驟,后續(xù)還需要結(jié)合具體研究目的進(jìn)行分析,如回歸分析、聚類分析等。此時(shí),可能需要用到因子得分,返回分析頁面勾選[因子得分]即可生成因子得分。因?yàn)楸酒咐难芯磕康氖抢靡蜃拥梅诌M(jìn)行聚類分析,所以需要勾選[因子得分],以及對因子得分進(jìn)行命名。
5個(gè)維度命名分別為品牌活動(dòng)、品牌贊助、社會(huì)責(zé)任感、購買意愿以及品牌代言人如下:
接下來利用因子得分進(jìn)行聚類分析,聚類分析將從,聚類基本情況,方差分析,聚類效果的圖示化以及聚類命名來說明。
聚類分析結(jié)果
首先要查看數(shù)據(jù)分布是否均勻,一般來說,每個(gè)類別的樣本比例應(yīng)分布均勻,如果出現(xiàn)某一類占比過大或過小,可以考慮重新設(shè)置聚類類別個(gè)數(shù)。
1.聚類基本情況
使用聚類分析對樣本進(jìn)行分類,使用Kmeans聚類分析方法,從上表可以看出:最終聚類得到3類群體,此3類群體的占比分別是42.50%, 14.50%, 43.00%。整體來看,3類人群分布較為均勻,整體說明聚類效果較好。
2.方差分析
聚類類別與聚類分析項(xiàng)進(jìn)行交叉分析,如果呈現(xiàn)出顯著性(p<0.05),意味著聚類得到的不同類別樣本,在相同指標(biāo)上有明顯的差異。這說明參與聚類分析的5個(gè)變量能夠很好的區(qū)分類別,類間差異足夠大,其中p值越小說明明類別之間的差異越大。
對不同類別進(jìn)行均值比較除了可以查看方差分析還可以進(jìn)行查看聚類項(xiàng)重要性對比。
如果某個(gè)指標(biāo)重要性較低,考慮移出該指標(biāo)。從上述結(jié)果看,所有研究項(xiàng)均呈現(xiàn)出顯著性,說明不同類別之間的特征有明顯的區(qū)別,聚類的效果較好。
3.聚類效果的圖示化
可通過散點(diǎn)圖直觀展示聚類效果,使用任意兩個(gè)聚類指標(biāo)進(jìn)行散點(diǎn)圖繪制(可視化模塊里面的散點(diǎn)圖),并且在‘顏色區(qū)分(定類)[可選]框中放入‘聚類類別’項(xiàng),以查看不同類別時(shí),兩兩指標(biāo)的散點(diǎn)效果。
從圖中可以發(fā)現(xiàn)各個(gè)類別之間有明顯的區(qū)別,聚類的效果較好。其中發(fā)現(xiàn)第一個(gè)類別品牌活動(dòng)與品牌代言人都比較大,建議研究時(shí)可以更加關(guān)注。
4.聚類類別命名
研究者也可以觀察折線圖趨勢進(jìn)行命名。參考如下:
通過上圖可知,第一類人群在每個(gè)指標(biāo)上的得分都比較高,可以命名為旅“品牌發(fā)燒友”。第二類人群在社會(huì)責(zé)任感、購買意愿得分較高,品牌代言人、品牌贊助得分較低,品牌活動(dòng)介于二者之間,可命名為“品牌從眾友”。第三類各項(xiàng)得分都較低,命名為“品牌冷淡者”。
將三類命名:SPSSAU‘?dāng)?shù)據(jù)處理’- ‘?dāng)?shù)據(jù)標(biāo)簽’。
5.聚類后的差異分析
得到聚類類別之后,接著需要對比不同類別群體的差異性;如在“性別”、“年齡”上的差異性。最常見與個(gè)人信息情況做交叉分析,可以得到不同類型的人群分布情況便于結(jié)合不同群體提出針對性的建議措施。本次案例將聚類類別與“年齡”進(jìn)行交叉分析,如下進(jìn)行闡述。
從上表可知,利用卡方檢驗(yàn)(交叉分析)去研究年齡對于聚類類別共1項(xiàng)的差異關(guān)系,從上表可以看出:不同年齡樣本對于聚類類別共1項(xiàng)呈現(xiàn)出顯著性(p<0.05),意味著不同年齡樣本對于聚類類別共1項(xiàng)均呈現(xiàn)出差異性,具體建議可結(jié)合括號(hào)內(nèi)百分比進(jìn)行差異對比。
年齡對于聚類類別呈現(xiàn)出0.05水平顯著性(chi=14.335, p=0.026<0.05),通過百分比對比差異可知,26-30歲選擇品牌發(fā)燒友的比例49.21%,會(huì)明顯高于平均水平42.50%。20-25歲選擇品牌從眾者的比例26.23%,會(huì)明顯高于平均水平14.50%。36-40歲選擇品牌冷淡者的比例53.33%,會(huì)明顯高于平均水平43.00%。31-35歲選擇品牌冷淡者的比例49.18%,會(huì)明顯高于平均水平43.00%。可以根據(jù)數(shù)據(jù)結(jié)果進(jìn)一步?jīng)Q策。也可以和“性別”、“學(xué)歷”等進(jìn)行交叉分析。這里不進(jìn)行過多描述。
其它
1.聚類中心
整體說明聚類效果較好
上表為經(jīng)過迭代后類中心的變化,數(shù)據(jù)是經(jīng)過標(biāo)準(zhǔn)化后的,
至于數(shù)據(jù)是否需要標(biāo)準(zhǔn)化,聚類算法是根據(jù)距離進(jìn)行判斷類別,因此一般需要在聚類之前進(jìn)行標(biāo)準(zhǔn)化處理,SPSSAU默認(rèn)是選中進(jìn)行標(biāo)準(zhǔn)化處理。數(shù)據(jù)標(biāo)準(zhǔn)化之后,數(shù)據(jù)的相對大小意義還在(比如數(shù)字越大GDP越高),但是實(shí)際意義消失了。
2.SSE
對于聚類中心的SSE指標(biāo)說明如下:
在進(jìn)行Kmeans聚類分析時(shí)SPSSAU默認(rèn)輸出誤差平方和SSE值,該值可用于測量各點(diǎn)與中心點(diǎn)的距離情況,理論上是希望越小越好,而且如果同樣的數(shù)據(jù),聚類類別越多則SSE值會(huì)越小(但聚類類別過多則不便于分析)。SSE指標(biāo)可用于輔助判斷聚類類別個(gè)數(shù),建議在不同聚類類別數(shù)量情況下記錄下SSE值,然后分析SSE值的減少幅度情況,如果發(fā)現(xiàn)比如從2個(gè)聚類到3個(gè)6類別時(shí)SSE值減少幅度明顯很大,那么此時(shí)選擇3個(gè)聚類類別較好。比如該案例若聚類數(shù)為2,此時(shí)SSE值為872.226,但是當(dāng)聚類數(shù)為3時(shí)此時(shí)SSE值為779.077,發(fā)現(xiàn)SSE減少幅度較大。所以可以看出選擇3個(gè)聚類類別較好。
總結(jié)
本篇案例結(jié)合了線性回歸與聚類分析,由于分析項(xiàng)過多,先進(jìn)行因子分析,通過因子分析發(fā)現(xiàn)存在“張冠李戴”的情況,需要調(diào)整因子,調(diào)整因子后分析因子提取、信息濃縮情況,并且得到因子得分,進(jìn)一步進(jìn)行聚類分析,發(fā)現(xiàn)初步結(jié)果較好,將結(jié)果進(jìn)行圖示化展示,可以看出各個(gè)類別之間有明顯的區(qū)別,將類別命名后,進(jìn)行交叉分析,發(fā)現(xiàn)類別與年齡之間存在差異,并且具體描述,對公司或者平臺(tái)對后續(xù)決策中提供有效結(jié)論。