最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

16種常用的數(shù)據(jù)分析方法-聚類分析

2021-11-25 13:44 作者:陪學(xué)產(chǎn)品經(jīng)理  | 我要投稿

聚類(Clustering)就是一種尋找數(shù)據(jù)之間內(nèi)在結(jié)構(gòu)的技術(shù)。聚類把全體數(shù)據(jù)實(shí)例組織成一些相似組,而這些相似組被稱作簇。處于相同簇中的數(shù)據(jù)實(shí)例彼此相同,處于不同簇中的實(shí)例彼此不同。











聚類分析定義









聚類分析是根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息,將數(shù)據(jù)對象分組。目的是,組內(nèi)的對象相互之間是相似的(相關(guān)的),而不同組中的對象是不同的(不相關(guān)的)。組內(nèi)相似性越大,組間差距越大,說明聚類效果越好。


聚類效果的好壞依賴于兩個(gè)因素:1.衡量距離的方法(distance measurement) 2.聚類算法(algorithm)

?
















聚類分析常見算法









  • K-Means

K-均值聚類也稱為快速聚類法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K。該算法原理簡單并便于處理大量數(shù)據(jù)。


  • K-中心點(diǎn)

K-均值算法對孤立點(diǎn)的敏感性,K-中心點(diǎn)算法不采用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。


  • 系統(tǒng)聚類

也稱為層次聚類,分類的單位由高到低呈樹形結(jié)構(gòu),且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特征越多。該聚類方法只適合在小數(shù)據(jù)量的時(shí)候使用,數(shù)據(jù)量大的時(shí)候速度會(huì)非常慢。

?
















案例









有20種12盎司啤酒成分和價(jià)格的數(shù)據(jù),變量包括啤酒名稱、熱量、鈉含量、酒精含量、價(jià)格。


?

問題一:選擇那些變量進(jìn)行聚類?——采用“R型聚類”

?

現(xiàn)在我們有4個(gè)變量用來對啤酒分類,是否有必要將4個(gè)變量都納入作為分類變量呢?熱量、鈉含量、酒精含量這3個(gè)指標(biāo)是要通過化驗(yàn)員的辛苦努力來測定,而且還有花費(fèi)不少成本。


所以,有必要對4個(gè)變量進(jìn)行降維處理,這里采用spss R型聚類(變量聚類),對4個(gè)變量進(jìn)行降維處理。輸出“相似性矩陣”有助于我們理解降維的過程。



4個(gè)分類變量各自不同,這一次我們先用相似性來測度,度量標(biāo)準(zhǔn)選用pearson系數(shù),聚類方法選最遠(yuǎn)元素,此時(shí),涉及到相關(guān),4個(gè)變量可不用標(biāo)準(zhǔn)化處理,將來的相似性矩陣?yán)锏臄?shù)字為相關(guān)系數(shù)。若果有某兩個(gè)變量的相關(guān)系數(shù)接近1或-1,說明兩個(gè)變量可互相替代。



只輸出“樹狀圖”就可以了,從proximity matrix表中可以看出熱量和酒精含量兩個(gè)變量相關(guān)系數(shù)0.903,最大,二者選其一即可,沒有必要都作為聚類變量,導(dǎo)致成本增加。


至于熱量和酒精含量選擇哪一個(gè)作為典型指標(biāo)來代替原來的兩個(gè)變量,可以根據(jù)專業(yè)知識或測定的難易程度決定。(與因子分析不同,是完全踢掉其中一個(gè)變量以達(dá)到降維的目的。)這里選用酒精含量,至此,確定出用于聚類的變量為:酒精含量,鈉含量,價(jià)格。

? ? ? ??


問題二:20中啤酒能分為幾類?——采用“Q型聚類”

?

現(xiàn)在開始對20中啤酒進(jìn)行聚類。開始不確定應(yīng)該分為幾類,暫時(shí)用一個(gè)3-5類范圍來試探。Q型聚類要求量綱相同,所以我們需要對數(shù)據(jù)標(biāo)準(zhǔn)化,這一回用歐式距離平方進(jìn)行測度。



主要通過樹狀圖和冰柱圖來理解類別。最終是分為4類還是3類,這是個(gè)復(fù)雜的過程,需要專業(yè)知識和最初的目的來識別。


這里試著確定分為4類。選擇“保存”,則在數(shù)據(jù)區(qū)域內(nèi)會(huì)自動(dòng)生成聚類結(jié)果。




問題三:用于聚類的變量對聚類過程、結(jié)果又貢獻(xiàn)么,有用么?——采用“單因素方差分析”

?

聚類分析除了對類別的確定需討論外,還有一個(gè)比較關(guān)鍵的問題就是分類變量到底對聚類有沒有作用有沒有貢獻(xiàn),如果有個(gè)別變量對分類沒有作用的話,應(yīng)該剔除。


這個(gè)過程一般用單因素方差分析來判斷。注意此時(shí),因子變量選擇聚為4類的結(jié)果,而將三個(gè)聚類變量作為因變量處理。方差分析結(jié)果顯示,三個(gè)聚類變量sig值均極顯著,我們用于分類的3個(gè)變量對分類有作用,可以使用,作為聚類變量是比較合理的。




?

問題四:聚類結(jié)果的解釋?——采用”均值比較描述統(tǒng)計(jì)“


聚類分析最后一步,也是最為困難的就是對分出的各類進(jìn)行定義解釋,描述各類的特征,即各類別特征描述。這需要專業(yè)知識作為基礎(chǔ)并結(jié)合分析目的才能得出。


我們可以采用spss的means均值比較過程,或者excel的透視表功能對各類的各個(gè)指標(biāo)進(jìn)行描述。其中,report報(bào)表用于描述聚類結(jié)果。對各類指標(biāo)的比較來初步定義類別,主要根據(jù)專業(yè)知識來判定。這里到此為止。



以上過程涉及到spss層次聚類中的Q型聚類和R型聚類,單因素方差分析,means過程等,是一個(gè)很不錯(cuò)的多種分析方法聯(lián)合使用的案例。

?
















聚類分析的應(yīng)用








  • 商業(yè)上


聚類分析是細(xì)分市場的有效工具,被用來發(fā)現(xiàn)不同的客戶群,并且它通過對不同的客戶群的特征的刻畫,被用于研究消費(fèi)者行為,尋找新的潛在市場。

?


  • 生物上


聚類分析被用來對動(dòng)植物和基因進(jìn)行分類,以獲取對種群固有結(jié)構(gòu)的認(rèn)識。

?


  • 保險(xiǎn)行業(yè)上


聚類分析可以通過平均消費(fèi)來鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)可以根據(jù)住宅類型、價(jià)值、地理位置來鑒定城市的房產(chǎn)分組。

?


  • 互聯(lián)網(wǎng)應(yīng)用上


聚類分析被用來在網(wǎng)上進(jìn)行文檔歸類。

?


  • 電子商務(wù)上


聚類分析通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,從而幫助電子商務(wù)企業(yè)了解自己的客戶,向客戶提供更合適的服務(wù)。

?


16種常用的數(shù)據(jù)分析方法-聚類分析的評論 (共 條)

分享到微博請遵守國家法律
盘山县| 阳原县| 郁南县| 西贡区| 清丰县| 高州市| 紫阳县| 赫章县| 长春市| 鸡泽县| 尼木县| 黎平县| 梨树县| 明光市| 宣武区| 新和县| 桐乡市| 辉南县| 江都市| 门头沟区| 滨海县| 南陵县| 丽江市| 雷州市| 宜宾市| 民丰县| 德兴市| 崇州市| 胶南市| 苏尼特左旗| 汝南县| 鄯善县| 西安市| 武乡县| 资源县| 日土县| 西安市| 剑阁县| 沙坪坝区| 平远县| 夏津县|