16種常用的數(shù)據(jù)分析方法-聚類分析
聚類(Clustering)就是一種尋找數(shù)據(jù)之間內(nèi)在結(jié)構(gòu)的技術(shù)。聚類把全體數(shù)據(jù)實(shí)例組織成一些相似組,而這些相似組被稱作簇。處于相同簇中的數(shù)據(jù)實(shí)例彼此相同,處于不同簇中的實(shí)例彼此不同。
聚類分析定義
聚類分析是根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息,將數(shù)據(jù)對象分組。目的是,組內(nèi)的對象相互之間是相似的(相關(guān)的),而不同組中的對象是不同的(不相關(guān)的)。組內(nèi)相似性越大,組間差距越大,說明聚類效果越好。
聚類效果的好壞依賴于兩個(gè)因素:1.衡量距離的方法(distance measurement) 2.聚類算法(algorithm)
?
聚類分析常見算法
K-Means
K-均值聚類也稱為快速聚類法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K。該算法原理簡單并便于處理大量數(shù)據(jù)。
K-中心點(diǎn)
K-均值算法對孤立點(diǎn)的敏感性,K-中心點(diǎn)算法不采用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。
系統(tǒng)聚類
也稱為層次聚類,分類的單位由高到低呈樹形結(jié)構(gòu),且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特征越多。該聚類方法只適合在小數(shù)據(jù)量的時(shí)候使用,數(shù)據(jù)量大的時(shí)候速度會(huì)非常慢。
?
案例
有20種12盎司啤酒成分和價(jià)格的數(shù)據(jù),變量包括啤酒名稱、熱量、鈉含量、酒精含量、價(jià)格。
?
問題一:選擇那些變量進(jìn)行聚類?——采用“R型聚類”
?
現(xiàn)在我們有4個(gè)變量用來對啤酒分類,是否有必要將4個(gè)變量都納入作為分類變量呢?熱量、鈉含量、酒精含量這3個(gè)指標(biāo)是要通過化驗(yàn)員的辛苦努力來測定,而且還有花費(fèi)不少成本。
所以,有必要對4個(gè)變量進(jìn)行降維處理,這里采用spss R型聚類(變量聚類),對4個(gè)變量進(jìn)行降維處理。輸出“相似性矩陣”有助于我們理解降維的過程。
4個(gè)分類變量各自不同,這一次我們先用相似性來測度,度量標(biāo)準(zhǔn)選用pearson系數(shù),聚類方法選最遠(yuǎn)元素,此時(shí),涉及到相關(guān),4個(gè)變量可不用標(biāo)準(zhǔn)化處理,將來的相似性矩陣?yán)锏臄?shù)字為相關(guān)系數(shù)。若果有某兩個(gè)變量的相關(guān)系數(shù)接近1或-1,說明兩個(gè)變量可互相替代。
只輸出“樹狀圖”就可以了,從proximity matrix表中可以看出熱量和酒精含量兩個(gè)變量相關(guān)系數(shù)0.903,最大,二者選其一即可,沒有必要都作為聚類變量,導(dǎo)致成本增加。
至于熱量和酒精含量選擇哪一個(gè)作為典型指標(biāo)來代替原來的兩個(gè)變量,可以根據(jù)專業(yè)知識或測定的難易程度決定。(與因子分析不同,是完全踢掉其中一個(gè)變量以達(dá)到降維的目的。)這里選用酒精含量,至此,確定出用于聚類的變量為:酒精含量,鈉含量,價(jià)格。
? ? ? ??
問題二:20中啤酒能分為幾類?——采用“Q型聚類”
?
現(xiàn)在開始對20中啤酒進(jìn)行聚類。開始不確定應(yīng)該分為幾類,暫時(shí)用一個(gè)3-5類范圍來試探。Q型聚類要求量綱相同,所以我們需要對數(shù)據(jù)標(biāo)準(zhǔn)化,這一回用歐式距離平方進(jìn)行測度。
主要通過樹狀圖和冰柱圖來理解類別。最終是分為4類還是3類,這是個(gè)復(fù)雜的過程,需要專業(yè)知識和最初的目的來識別。
這里試著確定分為4類。選擇“保存”,則在數(shù)據(jù)區(qū)域內(nèi)會(huì)自動(dòng)生成聚類結(jié)果。
問題三:用于聚類的變量對聚類過程、結(jié)果又貢獻(xiàn)么,有用么?——采用“單因素方差分析”
?
聚類分析除了對類別的確定需討論外,還有一個(gè)比較關(guān)鍵的問題就是分類變量到底對聚類有沒有作用有沒有貢獻(xiàn),如果有個(gè)別變量對分類沒有作用的話,應(yīng)該剔除。
這個(gè)過程一般用單因素方差分析來判斷。注意此時(shí),因子變量選擇聚為4類的結(jié)果,而將三個(gè)聚類變量作為因變量處理。方差分析結(jié)果顯示,三個(gè)聚類變量sig值均極顯著,我們用于分類的3個(gè)變量對分類有作用,可以使用,作為聚類變量是比較合理的。
?
問題四:聚類結(jié)果的解釋?——采用”均值比較描述統(tǒng)計(jì)“
聚類分析最后一步,也是最為困難的就是對分出的各類進(jìn)行定義解釋,描述各類的特征,即各類別特征描述。這需要專業(yè)知識作為基礎(chǔ)并結(jié)合分析目的才能得出。
我們可以采用spss的means均值比較過程,或者excel的透視表功能對各類的各個(gè)指標(biāo)進(jìn)行描述。其中,report報(bào)表用于描述聚類結(jié)果。對各類指標(biāo)的比較來初步定義類別,主要根據(jù)專業(yè)知識來判定。這里到此為止。
以上過程涉及到spss層次聚類中的Q型聚類和R型聚類,單因素方差分析,means過程等,是一個(gè)很不錯(cuò)的多種分析方法聯(lián)合使用的案例。
?
聚類分析的應(yīng)用
商業(yè)上
聚類分析是細(xì)分市場的有效工具,被用來發(fā)現(xiàn)不同的客戶群,并且它通過對不同的客戶群的特征的刻畫,被用于研究消費(fèi)者行為,尋找新的潛在市場。
?
生物上
聚類分析被用來對動(dòng)植物和基因進(jìn)行分類,以獲取對種群固有結(jié)構(gòu)的認(rèn)識。
?
保險(xiǎn)行業(yè)上
聚類分析可以通過平均消費(fèi)來鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)可以根據(jù)住宅類型、價(jià)值、地理位置來鑒定城市的房產(chǎn)分組。
?
互聯(lián)網(wǎng)應(yīng)用上
聚類分析被用來在網(wǎng)上進(jìn)行文檔歸類。
?
電子商務(wù)上
聚類分析通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,從而幫助電子商務(wù)企業(yè)了解自己的客戶,向客戶提供更合適的服務(wù)。
?