R語言K-Means(K均值聚類)和層次聚類算法對微博用戶特征數(shù)據(jù)研究
全文鏈接:https://tecdat.cn/?p=32955
原文出處:拓端數(shù)據(jù)部落公眾號
本文就將采用K-means算法和層次聚類對基于用戶特征的微博數(shù)據(jù)幫助客戶進行聚類分析。首先對聚類分析作系統(tǒng)介紹。其次對聚類算法進行文獻回顧,對其概況、基本思想、算法進行詳細介紹,再是通過一個仿真實驗具體來強化了解聚類算法,本文的數(shù)據(jù)是由所設(shè)計地軟件在微博平臺上獲取的數(shù)據(jù),最后得到相關(guān)結(jié)論和啟示。
聚類分析法概述
聚類算法的研究有著相當長的歷史,早在1975年 Hartigan就在其專著 Clustering Algorithms[5]中對聚類算法進行了系統(tǒng)的論述。聚類分析算法作為一種有效的數(shù)據(jù)分析方法被廣泛應(yīng)用于數(shù)據(jù)挖掘、機器學習、圖像分割、語音識別、生物信息處理等。
聚類方法是無監(jiān)督模式識別的一種方法,同時也是一種很重要的統(tǒng)計分析方法。聚類分析已經(jīng)被廣泛的研究了很多年,研究領(lǐng)域涵蓋數(shù)據(jù)挖掘、統(tǒng)計學、機器學習和空間數(shù)據(jù)庫等眾多領(lǐng)域。聚類是基于數(shù)據(jù)的相似性將數(shù)據(jù)集合劃分成組,然后給這些劃分好的組指定標號。目前文獻中存在著大量的聚類算法,大體上,聚類分析算法主要分成如下幾種[6],圖2-1顯示了一些主要的聚類算法的分類。

微博用戶特征數(shù)據(jù)研究
為了進一步驗證K-means算法,本文將采集一批微博數(shù)據(jù),通過根據(jù)微博用戶特征屬性對其進行聚類,并得出結(jié)論。
數(shù)據(jù)采集
新浪微博,作為中國的較大的用戶使用較受歡迎的微博使用平臺之一,從其平臺上抽取的微博一定程度上可以反映國內(nèi)微博平臺的傳播情況。鑒于新浪微博在國內(nèi)具有較大影響力,故本文選取有影響力的新浪微博用戶為研究對象,包括大V、電商平臺、明星、網(wǎng)紅等,從微博用戶特征出發(fā),來探索基于用戶特征的聚類分析。本研究總共獲取了50359條微博數(shù)據(jù)。
數(shù)據(jù)取值范圍
指標取值范圍是否認證V或N性別男或女粉絲數(shù)0,1,2…(非負整數(shù))微博數(shù)0,1,2…(非負整數(shù))注冊時間比日期
根據(jù)本文需求,采用編程軟件在新浪微博平臺上收集到的相關(guān)數(shù)據(jù),具體樣本實例如圖所示,其中,對是否加V,粉絲關(guān)注比進行標準化。

K-means和層次聚類
data=read.csv("2012年12月新浪微博用戶數(shù)據(jù).csv")#刪除缺失值dat=.mit(data)for(i in 3:ncol(dta))dta[,i]=as.nuerc(daa[,i])kmas(data[,c("性別" ,"粉絲數(shù)","微博數(shù)" ,"是否認證" ,"注冊時間" )]
本文采用R軟件對數(shù)據(jù)進行K-means聚類和層次聚類分析。R語言是統(tǒng)計領(lǐng)域廣泛使用的,誕生于1980年左右的S語言的一個分支。
結(jié)果
將該數(shù)據(jù)集分為了三類。
plot(data[,3:4], fit$clust




K-means算法將該樣本集分為4類,其中最多的為cluster-2,有39886條記錄,其次是cluster-3,有4561條記錄,再者是cluster-1,為3514條記錄,cluster-4,為2398條記錄。從聚類數(shù)量來看聚類數(shù)目分布合理,沒有出現(xiàn)過少的離群點。從聚類中心來看,第二類別是微博數(shù)較少,但是粉絲很多,并且注冊時間較早的一批用戶,并且已經(jīng)是認證的用戶,因此可以認為是大V用戶。第1類同樣擁有較多的粉絲,同樣是認證用戶,可以認為是小V用戶。第三類粉絲數(shù)目少,沒有認證,并且注冊較晚,因此可以認為是普通微博用戶,第四類用戶微博數(shù)目多,粉絲數(shù)目較多,但是沒有認證,因此可以認為是草根名博。

層次聚類驗證
為了驗證該結(jié)果的可行性,又采用了R統(tǒng)計軟件對樣本進行了層次聚類分析。具體代碼如下所示:
attach(x):c<-hcst(dist(x),"sinct.hclu
得到聚類結(jié)果如圖:

從層次聚類的結(jié)果來看,將該數(shù)據(jù)劃分成4個類別是相對合理的,因此上述認證有理有據(jù)。
結(jié)論
本文研究了數(shù)據(jù)挖掘的研究背景與意義,討論了聚類算法的各種基本理論包括聚類的形式化描述和定義,聚類中的數(shù)據(jù)類型和數(shù)據(jù)結(jié)果,聚類的相似性度量和準則函數(shù)等。同時也探討學習了基于劃分的聚類方法的典型的聚類方法。本文重點集中學習了研究了 K-Means聚類算法的思想、原理以及該算法的優(yōu)缺點。并運用K-means算法對所采集的數(shù)據(jù)進行聚類分析,深化了對該算法的理解。
參考文獻
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[EB/OL].
[2] 郭宇紅,童云海,唐世渭等.數(shù)據(jù)庫中的知識隱藏 [ J ].軟件學報,2007, 11 (18) : 278222797.
[3] hehroz S.Khan,Amir Ahmad.Cluster center initialization algorithm for K-Means clustering[J].Pattern Recognition Letters 25(2004): 1293-1302.
[4] 王春風,唐擁政.結(jié)合近鄰和密度思想的K-均值算法的研究[J] 計算機工程應(yīng)用.2011 年,47(19).147-149.
[5] 楊小兵.聚類分析中若干關(guān)鍵技術(shù)的研究[D].杭州:浙江大學,2005年:24-25.
[6] Hartigan J A. Clustering Algorithms[M].New York: John Wiley&Sons Inc.,1975.
[7] Tony Bain 等著.邵勇譯.SQL Server2000 數(shù)據(jù)倉庫與 Analysis Services[M]. 北京.中國電力出版社,2003.
[8] Handl Julia, Joshua Knowles, Douglas B. Kell. Computational cluster validation? in post-genomic data

?最受歡迎的見解
1.R語言k-Shape算法股票價格時間序列聚類
2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖
3.R語言對用電負荷時間序列數(shù)據(jù)進行K-medoids聚類建模和GAM回歸
4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實戰(zhàn)
6.用R進行網(wǎng)站評論文本挖掘聚類
7.R語言KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化
8.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯模型和KMEANS聚類用戶畫像
9.R語言基于Keras的小數(shù)據(jù)集深度學習圖像分類