最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

R語言K-Means(K均值聚類)和層次聚類算法對微博用戶特征數(shù)據(jù)研究

2023-06-25 22:18 作者:拓端tecdat  | 我要投稿

全文鏈接:https://tecdat.cn/?p=32955

原文出處:拓端數(shù)據(jù)部落公眾號

本文就將采用K-means算法和層次聚類對基于用戶特征的微博數(shù)據(jù)幫助客戶進行聚類分析。首先對聚類分析作系統(tǒng)介紹。其次對聚類算法進行文獻回顧,對其概況、基本思想、算法進行詳細介紹,再是通過一個仿真實驗具體來強化了解聚類算法,本文的數(shù)據(jù)是由所設(shè)計地軟件在微博平臺上獲取的數(shù)據(jù),最后得到相關(guān)結(jié)論和啟示。

聚類分析法概述

聚類算法的研究有著相當長的歷史,早在1975年 Hartigan就在其專著 Clustering Algorithms[5]中對聚類算法進行了系統(tǒng)的論述。聚類分析算法作為一種有效的數(shù)據(jù)分析方法被廣泛應(yīng)用于數(shù)據(jù)挖掘、機器學習、圖像分割、語音識別、生物信息處理等。

聚類方法是無監(jiān)督模式識別的一種方法,同時也是一種很重要的統(tǒng)計分析方法。聚類分析已經(jīng)被廣泛的研究了很多年,研究領(lǐng)域涵蓋數(shù)據(jù)挖掘、統(tǒng)計學、機器學習和空間數(shù)據(jù)庫等眾多領(lǐng)域。聚類是基于數(shù)據(jù)的相似性將數(shù)據(jù)集合劃分成組,然后給這些劃分好的組指定標號。目前文獻中存在著大量的聚類算法,大體上,聚類分析算法主要分成如下幾種[6],圖2-1顯示了一些主要的聚類算法的分類。

微博用戶特征數(shù)據(jù)研究

為了進一步驗證K-means算法,本文將采集一批微博數(shù)據(jù),通過根據(jù)微博用戶特征屬性對其進行聚類,并得出結(jié)論。

數(shù)據(jù)采集

新浪微博,作為中國的較大的用戶使用較受歡迎的微博使用平臺之一,從其平臺上抽取的微博一定程度上可以反映國內(nèi)微博平臺的傳播情況。鑒于新浪微博在國內(nèi)具有較大影響力,故本文選取有影響力的新浪微博用戶為研究對象,包括大V、電商平臺、明星、網(wǎng)紅等,從微博用戶特征出發(fā),來探索基于用戶特征的聚類分析。本研究總共獲取了50359條微博數(shù)據(jù)。

數(shù)據(jù)取值范圍

指標取值范圍是否認證V或N性別男或女粉絲數(shù)0,1,2…(非負整數(shù))微博數(shù)0,1,2…(非負整數(shù))注冊時間比日期

根據(jù)本文需求,采用編程軟件在新浪微博平臺上收集到的相關(guān)數(shù)據(jù),具體樣本實例如圖所示,其中,對是否加V,粉絲關(guān)注比進行標準化。

K-means和層次聚類

data=read.csv("2012年12月新浪微博用戶數(shù)據(jù).csv")#刪除缺失值dat=.mit(data)for(i in 3:ncol(dta))dta[,i]=as.nuerc(daa[,i])kmas(data[,c("性別" ,"粉絲數(shù)","微博數(shù)" ,"是否認證" ,"注冊時間" )]

本文采用R軟件對數(shù)據(jù)進行K-means聚類和層次聚類分析。R語言是統(tǒng)計領(lǐng)域廣泛使用的,誕生于1980年左右的S語言的一個分支。

結(jié)果

將該數(shù)據(jù)集分為了三類。

plot(data[,3:4], fit$clust

K-means算法將該樣本集分為4類,其中最多的為cluster-2,有39886條記錄,其次是cluster-3,有4561條記錄,再者是cluster-1,為3514條記錄,cluster-4,為2398條記錄。從聚類數(shù)量來看聚類數(shù)目分布合理,沒有出現(xiàn)過少的離群點。從聚類中心來看,第二類別是微博數(shù)較少,但是粉絲很多,并且注冊時間較早的一批用戶,并且已經(jīng)是認證的用戶,因此可以認為是大V用戶。第1類同樣擁有較多的粉絲,同樣是認證用戶,可以認為是小V用戶。第三類粉絲數(shù)目少,沒有認證,并且注冊較晚,因此可以認為是普通微博用戶,第四類用戶微博數(shù)目多,粉絲數(shù)目較多,但是沒有認證,因此可以認為是草根名博。

層次聚類驗證

為了驗證該結(jié)果的可行性,又采用了R統(tǒng)計軟件對樣本進行了層次聚類分析。具體代碼如下所示:

attach(x):c<-hcst(dist(x),"sinct.hclu

得到聚類結(jié)果如圖:

從層次聚類的結(jié)果來看,將該數(shù)據(jù)劃分成4個類別是相對合理的,因此上述認證有理有據(jù)。

結(jié)論

本文研究了數(shù)據(jù)挖掘的研究背景與意義,討論了聚類算法的各種基本理論包括聚類的形式化描述和定義,聚類中的數(shù)據(jù)類型和數(shù)據(jù)結(jié)果,聚類的相似性度量和準則函數(shù)等。同時也探討學習了基于劃分的聚類方法的典型的聚類方法。本文重點集中學習了研究了 K-Means聚類算法的思想、原理以及該算法的優(yōu)缺點。并運用K-means算法對所采集的數(shù)據(jù)進行聚類分析,深化了對該算法的理解。

參考文獻

[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[EB/OL].

[2] 郭宇紅,童云海,唐世渭等.數(shù)據(jù)庫中的知識隱藏 [ J ].軟件學報,2007, 11 (18) : 278222797.

[3] hehroz S.Khan,Amir Ahmad.Cluster center initialization algorithm for K-Means clustering[J].Pattern Recognition Letters 25(2004): 1293-1302.

[4] 王春風,唐擁政.結(jié)合近鄰和密度思想的K-均值算法的研究[J] 計算機工程應(yīng)用.2011 年,47(19).147-149.

[5] 楊小兵.聚類分析中若干關(guān)鍵技術(shù)的研究[D].杭州:浙江大學,2005年:24-25.

[6] Hartigan J A. Clustering Algorithms[M].New York: John Wiley&Sons Inc.,1975.

[7] Tony Bain 等著.邵勇譯.SQL Server2000 數(shù)據(jù)倉庫與 Analysis Services[M]. 北京.中國電力出版社,2003.

[8] Handl Julia, Joshua Knowles, Douglas B. Kell. Computational cluster validation? in post-genomic data

?最受歡迎的見解

1.R語言k-Shape算法股票價格時間序列聚類

2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖

3.R語言對用電負荷時間序列數(shù)據(jù)進行K-medoids聚類建模和GAM回歸

4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類

5.Python Monte Carlo K-Means聚類實戰(zhàn)

6.用R進行網(wǎng)站評論文本挖掘聚類

7.R語言KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化

8.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯模型和KMEANS聚類用戶畫像

9.R語言基于Keras的小數(shù)據(jù)集深度學習圖像分類


R語言K-Means(K均值聚類)和層次聚類算法對微博用戶特征數(shù)據(jù)研究的評論 (共 條)

分享到微博請遵守國家法律
璧山县| 洛浦县| 渭南市| 遂川县| 磐安县| 固镇县| 宿州市| 玉山县| 永城市| 南华县| 乌恰县| 玉门市| 华宁县| 天柱县| 贺州市| 河南省| 三门县| 锦屏县| 洪江市| 淮北市| 宜宾市| 义马市| 海伦市| 同德县| 会东县| 宁化县| 独山县| 赣州市| 巍山| 平原县| 柳河县| 大冶市| 新巴尔虎左旗| 自贡市| 柳河县| 淳安县| 仁布县| 奉化市| 古田县| 招远市| 聂拉木县|