最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

手把手教你用SPSSAU實(shí)現(xiàn)K均值聚類分析

2022-08-31 09:56 作者:SPSSAU官方賬號(hào)  | 我要投稿

目錄

1.案例數(shù)據(jù)探索 2

1.1 瀏覽數(shù)據(jù)與變量 2

1.2 箱線圖觀察數(shù)據(jù)分布 2

2.K均值聚類詳解 4

2.1 分析目的與方法選擇 4

2.2 SPSSAU聚類操作 4

2.3 K均值聚類通俗理解 5

3.K均值聚類結(jié)果解讀 5

3.1 類的規(guī)模 5

3.2 聚類中心與SSE 7

3.3 類的特征與命名 7

3.4 聚類結(jié)果的可視化展示 8

4.K均值聚類總結(jié) 11

1.案例數(shù)據(jù)探索

案例采用著名的鳶尾花iris數(shù)據(jù)集,按鳶尾花的三個(gè)類別(剛毛,變色,佛吉尼亞),每一類50株,共測(cè)得150株鳶尾花的花萼長(zhǎng)度,花萼寬度,花瓣長(zhǎng)度,花瓣寬度4個(gè)屬性數(shù)據(jù)。

1.1 瀏覽數(shù)據(jù)與變量

數(shù)據(jù)上傳SPSSAU后,在 “我的數(shù)據(jù)”中查看瀏覽一下原始數(shù)據(jù),前10行數(shù)據(jù)如下:


圖1 “我的數(shù)據(jù)”查看瀏覽數(shù)據(jù)集

花瓣、花萼長(zhǎng)寬為連續(xù)型變量,已知的鳶尾花分類數(shù)據(jù)是類別型變量。

1.2 箱線圖觀察數(shù)據(jù)分布

現(xiàn)在我們用已知的鳶尾花分類變量作為組別,來分別看一下不同類型鳶尾花群體在花瓣、花萼長(zhǎng)寬屬性上的分布情況。數(shù)據(jù)分布的探查,我們考慮用SPSSAU繪制箱線圖或提琴圖。


圖2 箱線圖繪制操作

在“可視化”欄目下選擇箱線圖,花瓣、花萼長(zhǎng)寬4個(gè)變量拖拽【定量分析項(xiàng)】框,分類變量拖至【分組】框,點(diǎn)“開始分析”按鈕。SPSSAU會(huì)給出每個(gè)定量指標(biāo)的分組箱線圖,也會(huì)給出整合后的“簇狀”箱線圖,4個(gè)屬性的數(shù)據(jù)均在0-100內(nèi)變化,所以放在同一個(gè)坐標(biāo)系下仍具有可讀性且信息量豐富。


圖3 SPSSAU箱線圖

如上圖所示,剛毛鳶尾花在花瓣寬、花瓣長(zhǎng)兩個(gè)屬性數(shù)據(jù)的分布上與另外兩個(gè)類別差異較為明顯,具體表現(xiàn)為剛毛鳶尾花在花瓣長(zhǎng)、寬數(shù)據(jù)上是都是最小的,剛毛鳶尾花的花瓣面積小這個(gè)特征較明顯。此外,佛吉尼亞鳶尾花似乎有更長(zhǎng)的花萼和花瓣。

2.K均值聚類詳解

2.1 分析目的與方法選擇

換一個(gè)角度看待這組數(shù)據(jù),假設(shè)這150株鳶尾花是你剛剛采集到的數(shù)據(jù),而且你并不知道每一株花是三種中的哪一個(gè)類型,現(xiàn)在我們希望采取某種分類的統(tǒng)計(jì)學(xué)方法,來對(duì)這150株花進(jìn)行分類預(yù)測(cè)。

K均值聚類是一個(gè)不錯(cuò)的選擇,它適合樣本量較大的數(shù)據(jù)集,依據(jù)連續(xù)型數(shù)據(jù)對(duì)個(gè)案進(jìn)行聚類過程。在開始聚類之前,K均值算法希望我們能提供一個(gè)K值,即聚類的類的個(gè)數(shù)。對(duì)于鳶尾花數(shù)據(jù)來說,我們已知它有剛毛、變色、佛吉尼亞三個(gè)類型,因此K均值的聚類個(gè)數(shù)K值是明確的。

2.2 SPSSAU聚類操作

在“進(jìn)階方法”欄目下,選擇“聚類”,花瓣、花萼長(zhǎng)寬這4個(gè)連續(xù)型變量拖拽至【定量分析項(xiàng)】框內(nèi),作為K均值聚類的依據(jù)。鳶尾花已知有3個(gè)類型,因此K值=3,SPSSAU聚類個(gè)數(shù)默認(rèn)即為3類,默認(rèn)即可。

對(duì)于聚類過程,不同指標(biāo)單位量綱有區(qū)別,因此建議做標(biāo)準(zhǔn)化處理,默認(rèn)勾選【標(biāo)準(zhǔn)化】。同時(shí),我們希望聚類結(jié)束后,能將聚類的類變量作為結(jié)果保存下來,因此默認(rèn)勾選【保存類別】。


圖4 聚類分析操作

如上操作,可見SPSSAU做K均值聚類整個(gè)參數(shù)選項(xiàng)的設(shè)定過程極為簡(jiǎn)要明了,只需要有一點(diǎn)統(tǒng)計(jì)基礎(chǔ)即可操作。

2.3 K均值聚類通俗理解

關(guān)于K均值聚類的K值,并不一定必須已知,我們可以采取遍歷的形式,譬如說在3-6類之間進(jìn)行遍歷,即依次選擇聚為3類、4類、5類、6類,然后對(duì)聚類結(jié)果進(jìn)行比較,選擇最佳結(jié)果即可。就聚類分析而言,通常情況下,建議用戶設(shè)置聚類數(shù)量介于2~6個(gè)之間,不宜過多。

指定K值后,算法會(huì)從數(shù)據(jù)集中隨機(jī)化選擇一個(gè)個(gè)案的數(shù)據(jù)作為初始聚類中心,即K個(gè)類的中心點(diǎn)坐標(biāo)。隨后計(jì)算其他個(gè)案所代表的點(diǎn)與初始聚類中心點(diǎn)的距離,并按距離遠(yuǎn)近進(jìn)行分配,每完成一次分配,聚類中心都將重新計(jì)算,因此聚類中心處于變化中,這個(gè)過程不斷重復(fù),直到聚類中心點(diǎn)不再變化為止,此時(shí)距離數(shù)據(jù)產(chǎn)生的誤差平方和SSE應(yīng)為最小。

K均值的聚類過程,全部會(huì)有SPSSAU計(jì)算完成。我們了解基礎(chǔ)后,直接來讀取它輸出的結(jié)果即可。

3.K均值聚類結(jié)果解讀

3.1 類的規(guī)模

首先來看聚類后各類的規(guī)模,本例即看三類中各類群體包含的鳶尾花株數(shù)。


圖5 類規(guī)模三線表

如上表所示,cluster1包含56株、cluster2包含44株、cluster3包含50株,個(gè)案比例依次為37.3%、29.3%和33.3%。

該數(shù)據(jù)集已知每類含同類鳶尾花50株,現(xiàn)在K均值聚類結(jié)果僅有cluster3含50株,其他兩類的規(guī)模與50株有微小差異,初步看聚類的準(zhǔn)確率還是不錯(cuò)的。

SPSSAU還為類規(guī)模表配置了一個(gè)餅圖進(jìn)行可視化展示,如下:


圖6 SPSSAU餅圖

3.2 聚類中心與SSE

前面我們通俗介紹了K均值的聚類過程,提到初始聚類中心,在迭代過程中最后會(huì)成為最終聚類中心點(diǎn),這個(gè)結(jié)果SPSSAU也為大家提供了。見下表。


圖7 初始聚類中心與最終聚類中心

表格中的屬性數(shù)據(jù)是標(biāo)準(zhǔn)化后的數(shù)據(jù),如果我們想使用最終聚類中心的話,需要轉(zhuǎn)換為原始數(shù)據(jù)。對(duì)我們來說,比較重要的是該表下方備注的誤差平方和SSE值,如果我們采取的是遍歷聚類結(jié)果的方案,那么方案之間孰優(yōu)孰劣,可以比較SSE的大小,更小的SSE表明聚類效果更佳。

3.3 類的特征與命名

現(xiàn)在我們思考一個(gè)問題,前面用于聚類的4個(gè)屬性,即花瓣、花萼長(zhǎng)寬數(shù)據(jù),對(duì)于當(dāng)前的K均值聚類結(jié)果來說,3個(gè)不同類之間花瓣、花萼長(zhǎng)寬是否存在差異呢?或者說,各類在4個(gè)屬性上有何特征?如果給每個(gè)類起個(gè)名字,我們的依據(jù)是什么?


圖8 聚類結(jié)果方差分析三線表

為了探索出各個(gè)類別的具體特征,因而使用方差分析去研究各個(gè)類別群體的差異性,最終可結(jié)合各個(gè)類別特征進(jìn)行類別命名。

上表即方差分析表,由此可知:聚類類別群體對(duì)于所有參與聚類的指標(biāo)變量均呈現(xiàn)出顯著性(p<0.05),意味著聚類分析得到的3類群體,他們?cè)谘芯宽?xiàng)上的特征具有明顯的差異性,具體差異性可通過平均值進(jìn)行對(duì)比,并且最終結(jié)合實(shí)際情況,對(duì)聚類類別進(jìn)行命名處理。

根據(jù)方差分析表中各類在4個(gè)屬性上的均值表現(xiàn),結(jié)合前面我們用箱線圖對(duì)已知三種鳶尾花特征的探查,初步命名cluster3為剛毛鳶尾花類,cluster2為佛吉尼亞鳶尾花類,而cluster1為變色鳶尾花類。

SPSSAU生成的這個(gè)方差分析表格,界面是極其友好的,直接就是一個(gè)三線表外觀,并且用均值±標(biāo)準(zhǔn)差的形式展示數(shù)據(jù)狀況,并配方差分析F統(tǒng)計(jì)量、P值,而且還用*符號(hào)做標(biāo)記。

該表基本符合學(xué)術(shù)要求,如果我們是寫學(xué)術(shù)科研論文,那么此表稍作編輯即可放入論文中。

3.4 聚類結(jié)果的可視化展示

字不如表,表不如圖,有沒有可能用某種可視化圖形來展示聚類結(jié)果呢?不著急,我們繼續(xù)來解讀SPSSAU輸出的結(jié)果。


圖9 聚類指標(biāo)變量重要性排序

上方條形圖,對(duì)參與聚類的4個(gè)屬性變量,根據(jù)對(duì)聚類結(jié)果的貢獻(xiàn)進(jìn)行重要性排序。花瓣長(zhǎng)、花瓣寬依次排名第一、第二。

我們將花瓣長(zhǎng)、花瓣寬選為最重要的兩個(gè)聚類變量,接下來嘗試結(jié)合SPSSAU另存出的聚類結(jié)果變量繪制散點(diǎn)圖,以觀察K均值的聚類結(jié)果。


圖10 瀏覽查看聚類結(jié)果變量

我們?cè)俅未蜷_數(shù)據(jù)集,此時(shí)SPSSAU已經(jīng)將剛才K均值聚類的類變量保存到鳶尾花數(shù)據(jù)集中,大家看第一個(gè)變量“cluster kmeans”,它就是K均值的聚類結(jié)果。

現(xiàn)在,在“可視化”欄目下選擇“散點(diǎn)圖”,將剛才第一重要的花瓣長(zhǎng)拖拽至【定量X】框內(nèi),將花瓣寬拖拽至【定量Y】框內(nèi),即將花瓣長(zhǎng)、寬變量分別做為散點(diǎn)圖的X軸、Y軸數(shù)據(jù),然后將K均值的結(jié)果“cluster kmeans”變量拖拽至【顏色區(qū)分】框內(nèi),點(diǎn)“開始分析”命令繪制散點(diǎn)圖。


圖11 散點(diǎn)圖操作

來看結(jié)果。


圖12 SPSSAU散點(diǎn)圖

以上操作,相當(dāng)于我們以花瓣的大小來觀察聚類結(jié)果。最終散點(diǎn)圖如上圖所示,花瓣最小的是cluster3即剛毛鳶尾花,花瓣相對(duì)較大的是cluster2即佛吉尼亞鳶尾花,花瓣居中的則是cluster1變色鳶尾花。

顯然,剛毛鳶尾花特征最為明顯(花瓣長(zhǎng)寬最小),它的類中心和其他兩個(gè)類的類中心距離足夠遠(yuǎn)。而佛吉尼亞和變色鳶尾花的類中心點(diǎn)較近,一小部分株花無法明確劃分區(qū)別,兩類在花瓣特征上有微小重疊區(qū)域,佛吉尼亞鳶尾花的平均花瓣尺寸比變色鳶尾花更大一些。

總體看,基于花瓣、花萼長(zhǎng)寬數(shù)據(jù)用K均值聚類方法可以對(duì)鳶尾花進(jìn)行分類,尤其是對(duì)剛毛鳶尾花的判定準(zhǔn)確度極高,對(duì)兩外兩類的分類預(yù)測(cè)存在較小的誤差。

4.K均值聚類總結(jié)

K均值聚類要求參與聚類的指標(biāo)變量為連續(xù)型數(shù)據(jù),用于對(duì)樣本進(jìn)行分類處理。聚類個(gè)數(shù)K值,我們可以根據(jù)行業(yè)知識(shí)、經(jīng)驗(yàn)來自行給定,也可以遍歷多個(gè)聚類方案進(jìn)行優(yōu)選探究,一般建議聚類個(gè)數(shù)2~6個(gè),不宜過多。

實(shí)踐中,參與聚類的指標(biāo)變量可能既有連續(xù)數(shù)據(jù),也會(huì)包括分類數(shù)據(jù)。我們看到在SPSSAU的“聚類”功能下,允許同時(shí)存在連續(xù)項(xiàng)和分類項(xiàng)。此處大家應(yīng)注意區(qū)分一下,如果說聚類指標(biāo)變量中包括定類項(xiàng),那么SPSSAU默認(rèn)會(huì)進(jìn)行K-prototype聚類算法(而不是kmeans算法)。

提煉信息以概括類的特征,對(duì)類進(jìn)行命名,這項(xiàng)工作極為重要。算法給的聚類結(jié)果,如果沒有獨(dú)立、明確的類特征,那么其結(jié)果沒有實(shí)際指導(dǎo)意義。

SPSSAU實(shí)現(xiàn)K均值聚類,操作簡(jiǎn)便,三線表直接可用,統(tǒng)計(jì)圖形美觀,結(jié)果豐富。必要時(shí),可納入分類變量作為聚類依據(jù),實(shí)現(xiàn)K-prototype聚類算法,方法靈活,優(yōu)勢(shì)明顯。

手把手教你用SPSSAU實(shí)現(xiàn)K均值聚類分析的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
安宁市| 旬阳县| 长顺县| 高碑店市| 鹰潭市| 锦屏县| 贵阳市| 丹巴县| 武义县| 建德市| 桦南县| 长宁区| 介休市| 丹阳市| 平山县| 岱山县| 静海县| 扎鲁特旗| 澄江县| 红安县| 玛纳斯县| 安平县| 茶陵县| 凌源市| 昭通市| 康定县| 新密市| 灌南县| 寿宁县| 宝坻区| 东港市| 滨州市| 车险| 比如县| 建湖县| 安溪县| 横山县| 平凉市| 长沙市| 个旧市| 饶平县|