散文網(wǎng) » 生活 »日常 » R語言K-Means(K均值聚類）和層次聚類算法對微博用戶特征數(shù)據(jù)研究

R語言K-Means(K均值聚類）和層次聚類算法對微博用戶特征數(shù)據(jù)研究

2023-06-25 22:18 作者:拓端tecdat 0人讀過 | 我要投稿

全文鏈接：https://tecdat.cn/?p=32955

原文出處：拓端數(shù)據(jù)部落公眾號

本文就將采用K-means算法和層次聚類對基于用戶特征的微博數(shù)據(jù)幫助客戶進行聚類分析。首先對聚類分析作系統(tǒng)介紹。其次對聚類算法進行文獻回顧，對其概況、基本思想、算法進行詳細介紹，再是通過一個仿真實驗具體來強化了解聚類算法，本文的數(shù)據(jù)是由所設(shè)計地軟件在微博平臺上獲取的數(shù)據(jù)，最后得到相關(guān)結(jié)論和啟示。

聚類分析法概述

聚類算法的研究有著相當長的歷史，早在1975年 Hartigan就在其專著 Clustering Algorithms［5］中對聚類算法進行了系統(tǒng)的論述。聚類分析算法作為一種有效的數(shù)據(jù)分析方法被廣泛應(yīng)用于數(shù)據(jù)挖掘、機器學習、圖像分割、語音識別、生物信息處理等。

聚類方法是無監(jiān)督模式識別的一種方法，同時也是一種很重要的統(tǒng)計分析方法。聚類分析已經(jīng)被廣泛的研究了很多年，研究領(lǐng)域涵蓋數(shù)據(jù)挖掘、統(tǒng)計學、機器學習和空間數(shù)據(jù)庫等眾多領(lǐng)域。聚類是基于數(shù)據(jù)的相似性將數(shù)據(jù)集合劃分成組，然后給這些劃分好的組指定標號。目前文獻中存在著大量的聚類算法，大體上，聚類分析算法主要分成如下幾種[6]，圖2-1顯示了一些主要的聚類算法的分類。

微博用戶特征數(shù)據(jù)研究

為了進一步驗證K-means算法，本文將采集一批微博數(shù)據(jù)，通過根據(jù)微博用戶特征屬性對其進行聚類，并得出結(jié)論。

數(shù)據(jù)采集

新浪微博，作為中國的較大的用戶使用較受歡迎的微博使用平臺之一，從其平臺上抽取的微博一定程度上可以反映國內(nèi)微博平臺的傳播情況。鑒于新浪微博在國內(nèi)具有較大影響力，故本文選取有影響力的新浪微博用戶為研究對象，包括大V、電商平臺、明星、網(wǎng)紅等，從微博用戶特征出發(fā)，來探索基于用戶特征的聚類分析。本研究總共獲取了50359條微博數(shù)據(jù)。

數(shù)據(jù)取值范圍

指標取值范圍是否認證V或N性別男或女粉絲數(shù)0，1，2…（非負整數(shù)）微博數(shù)0，1，2…（非負整數(shù)）注冊時間比日期

根據(jù)本文需求，采用編程軟件在新浪微博平臺上收集到的相關(guān)數(shù)據(jù)，具體樣本實例如圖所示，其中，對是否加V，粉絲關(guān)注比進行標準化。

K-means和層次聚類

data=read.csv("2012年12月新浪微博用戶數(shù)據(jù).csv")#刪除缺失值dat=.mit(data)for(i in 3:ncol(dta))dta[,i]=as.nuerc(daa[,i])kmas(data[,c("性別" ,"粉絲數(shù)","微博數(shù)" ,"是否認證" ,"注冊時間" )]

本文采用R軟件對數(shù)據(jù)進行K-means聚類和層次聚類分析。R語言是統(tǒng)計領(lǐng)域廣泛使用的，誕生于1980年左右的S語言的一個分支。

結(jié)果

將該數(shù)據(jù)集分為了三類。

plot(data[,3:4], fit$clust

K-means算法將該樣本集分為4類，其中最多的為cluster-2，有39886條記錄，其次是cluster-3，有4561條記錄，再者是cluster-1，為3514條記錄，cluster-4，為2398條記錄。從聚類數(shù)量來看聚類數(shù)目分布合理，沒有出現(xiàn)過少的離群點。從聚類中心來看，第二類別是微博數(shù)較少，但是粉絲很多，并且注冊時間較早的一批用戶，并且已經(jīng)是認證的用戶，因此可以認為是大V用戶。第1類同樣擁有較多的粉絲，同樣是認證用戶，可以認為是小V用戶。第三類粉絲數(shù)目少，沒有認證，并且注冊較晚，因此可以認為是普通微博用戶，第四類用戶微博數(shù)目多，粉絲數(shù)目較多，但是沒有認證，因此可以認為是草根名博。

層次聚類驗證

為了驗證該結(jié)果的可行性，又采用了R統(tǒng)計軟件對樣本進行了層次聚類分析。具體代碼如下所示：

attach(x)：c<-hcst(dist(x)，"sinct.hclu

得到聚類結(jié)果如圖：

從層次聚類的結(jié)果來看，將該數(shù)據(jù)劃分成4個類別是相對合理的，因此上述認證有理有據(jù)。

結(jié)論

本文研究了數(shù)據(jù)挖掘的研究背景與意義，討論了聚類算法的各種基本理論包括聚類的形式化描述和定義，聚類中的數(shù)據(jù)類型和數(shù)據(jù)結(jié)果，聚類的相似性度量和準則函數(shù)等。同時也探討學習了基于劃分的聚類方法的典型的聚類方法。本文重點集中學習了研究了 K-Means聚類算法的思想、原理以及該算法的優(yōu)缺點。并運用K-means算法對所采集的數(shù)據(jù)進行聚類分析，深化了對該算法的理解。

參考文獻

[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心（CNNIC）.第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[EB/OL].

[2] 郭宇紅，童云海，唐世渭等.數(shù)據(jù)庫中的知識隱藏 [ J ].軟件學報，2007， 11 (18) : 278222797.

[3] hehroz S.Khan，Amir Ahmad.Cluster center initialization algorithm for K-Means clustering[J].Pattern Recognition Letters 25(2004): 1293-1302.

[4] 王春風，唐擁政.結(jié)合近鄰和密度思想的K-均值算法的研究[J] 計算機工程應(yīng)用.2011 年，47(19).147-149.

[5] 楊小兵.聚類分析中若干關(guān)鍵技術(shù)的研究[D].杭州:浙江大學，2005年:24-25.

[6] Hartigan J A. Clustering Algorithms[M].New York: John Wiley&Sons Inc.，1975．

[7] Tony Bain 等著.邵勇譯.SQL Server2000 數(shù)據(jù)倉庫與 Analysis Services[M]. 北京.中國電力出版社，2003.

[8] Handl Julia， Joshua Knowles， Douglas B. Kell. Computational cluster validation? in post-genomic data

?最受歡迎的見解

1.R語言k-Shape算法股票價格時間序列聚類

2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖

3.R語言對用電負荷時間序列數(shù)據(jù)進行K-medoids聚類建模和GAM回歸

4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類

5.Python Monte Carlo K-Means聚類實戰(zhàn)

6.用R進行網(wǎng)站評論文本挖掘聚類

7.R語言KMEANS均值聚類和層次聚類：亞洲國家地區(qū)生活幸福質(zhì)量異同可視化

8.PYTHON用戶流失數(shù)據(jù)挖掘：建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯模型和KMEANS聚類用戶畫像

9.R語言基于Keras的小數(shù)據(jù)集深度學習圖像分類

標簽：