手把手教你用SPSS做聚類分析
聚類分析:聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。“物以類聚,人以群分”正是對聚類分析最好的詮釋。本文就具體介紹一下聚類分析,以及就按樣本進(jìn)行聚類分析的分析思路進(jìn)行說明(分層聚類將在之后的文章中介紹)。
一、聚類分析可以分為:
對樣本進(jìn)行聚類分析(Q型聚類),此類聚類的代表是K-means聚類方法;
對變量(標(biāo)題)進(jìn)行聚類分析(R型聚類),此類聚類的代表是分層聚類。
常見為樣本聚類,比如有500個(gè)人,這500個(gè)人可以聚成幾個(gè)類別。

聚類分析(Q型聚類)用于將樣本進(jìn)行分類處理,通常是以定量數(shù)據(jù)作為分類標(biāo)準(zhǔn)。如果分析人員需要是按樣本進(jìn)行聚類,則使用SPSSAU的進(jìn)階方法模塊中的“聚類分析”功能,SPSSAU其會(huì)自動(dòng)識(shí)別出應(yīng)該使用K-means聚類算法還是K-prototype聚類算法。
如果是按變量(標(biāo)題)聚類,此時(shí)應(yīng)該使用分層聚類,并且結(jié)合聚類樹狀圖進(jìn)行綜合判定分析,得出科學(xué)分析結(jié)果。比如當(dāng)前有8個(gè)裁判對于300個(gè)選手進(jìn)行打分,試圖想對8個(gè)裁判進(jìn)行聚類,以挖掘出裁判的打分偏好風(fēng)格類別情況。
二、Q型聚類分析的優(yōu)點(diǎn):
1、可以綜合利用多個(gè)變量的信息對樣本進(jìn)行分類;
2、分類結(jié)果是直觀的,聚類譜系圖非常清楚地表現(xiàn)其數(shù)值分類結(jié)果;
3、聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。
三、分析思路
以下分析思路為對樣本進(jìn)行聚類分析。
(1)指標(biāo)歸類
當(dāng)研究人員并不完全確定題項(xiàng)應(yīng)該分為多少個(gè)變量,或者研究人員對變量與題項(xiàng)的對應(yīng)關(guān)系并沒有充分把握時(shí),可以使用探索性因子分析將各量表題項(xiàng)提取為多個(gè)因子(變量),利用提取得到的因子進(jìn)行后續(xù)的聚類分析。
特別提示:
分析角度上,通過探索性因子分析,將各量表題項(xiàng)提取為多個(gè)因子,提取出的因子可以在后續(xù)進(jìn)行聚類分析。比如:可先講20個(gè)題做因子分析,并且得到因子得分。將因子得分在進(jìn)一步進(jìn)行聚類分析。最終聚類得到幾個(gè)類別群體。再去對比幾個(gè)類別群體的差異等。
(2)聚類分析
第一步:進(jìn)行聚類分析設(shè)置
如果使用探索性因子分析出來的因子進(jìn)行聚類分析,當(dāng)提取出五個(gè)因子時(shí),應(yīng)該首先計(jì)算此五個(gè)因子對應(yīng)題項(xiàng)的平均分,分別使用平均得分代表此五個(gè)因子(比如因子1對應(yīng)三個(gè)題項(xiàng),則計(jì)算此三個(gè)題項(xiàng)的平均值去代表因子1),利用計(jì)算完成平均得分后得到的因子進(jìn)行聚類分析。

第二步:結(jié)合不同聚類類別人群特征進(jìn)行類別命名
聚類分析完成后,每個(gè)類別的樣本應(yīng)該如何稱呼,或者每個(gè)類別樣本的名字是什么,軟件并不能進(jìn)行判斷。得到聚類類別后,SPSSAU系統(tǒng)默認(rèn)生成一列數(shù)據(jù)表示聚類類別,為了探索出各個(gè)類別的具體特征,因而使用方差分析去研究各個(gè)類別群體的差異性,最終研究人員可結(jié)合各個(gè)類別特征以及實(shí)際專業(yè)知識(shí)情況,對每個(gè)類別分別進(jìn)行命名,而不能直接稱呼為類別1,類別2等,需要每個(gè)類別有具體的名稱意義。
(3)聚類效果檢驗(yàn)
嚴(yán)格意義上聚類分析并非統(tǒng)計(jì)檢驗(yàn)分析方法,而是一種數(shù)據(jù)描述性方法,聚類分析沒有的統(tǒng)計(jì)假設(shè)檢驗(yàn)理論支持,無法對其結(jié)果正確與否進(jìn)行判斷。但從應(yīng)用角度來看,聚類效果可以進(jìn)行判斷,研究人員可以結(jié)合以下幾種方法進(jìn)行綜合判斷聚類效果。
第一為聚類分析后得到的每個(gè)類別是否可以進(jìn)行有效的命名,每個(gè)類別的特征情況是否符合現(xiàn)實(shí)意義,如果研究者可以結(jié)合專業(yè)知識(shí)對每個(gè)聚類類別進(jìn)行命名,即說明聚類效果良好,如果聚類類別無法進(jìn)行命名,則需要考慮重新進(jìn)行聚類分析。
第二為使用判別分析方法進(jìn)行判斷,將SPSSAU生成的聚類類別變量作為因變量(Y),而將聚類變量作為自變量(X)進(jìn)行判別分析,判別分析具體分析聚類變量與類別之間投影關(guān)系情況,如果研究人員對聚類分析效果非常在乎,可以使用判別分析進(jìn)行分析。大部分時(shí)候并不會(huì)進(jìn)行判別分析對聚類效果進(jìn)行分析,原因在于即使是使用判別分析也不能絕對地說明聚類分析是否良好,以及聚類分析實(shí)質(zhì)上為描述性方法,并沒有好壞標(biāo)準(zhǔn),這里暫且不對判別分析進(jìn)行說明。
第三是聚類分析方法的詳細(xì)過程說明,描述清楚聚類分析的科學(xué)使用過程,科學(xué)的聚類分析方法使用即是良好結(jié)果的前提保障。
第四為聚類分析后每個(gè)類別樣本數(shù)量是否均勻,如果聚類結(jié)果顯示為三個(gè)類別,有一個(gè)類別樣本量非常少,比如低于30,此時(shí)很可能說明聚類效果較差。針對聚類效果的判斷,研究者主要是結(jié)合專業(yè)知識(shí)判斷,即聚類類別是否可以進(jìn)行有效命名。