MATLAB、R用改進(jìn)Fuzzy C-means模糊C均值聚類算法的微博用戶特征調(diào)研數(shù)據(jù)聚類研究
全文鏈接:http://tecdat.cn/?p=30766
原文出處:拓端數(shù)據(jù)部落公眾號
本文就將采用改進(jìn)Fuzzy C-means算法對基于用戶特征的微博數(shù)據(jù)進(jìn)行聚類分析。
去年,我們?yōu)橐晃豢蛻暨M(jìn)行了短暫的咨詢工作,他正在構(gòu)建一個(gè)主要基于微博用戶特征聚類研究的分析應(yīng)用程序。首先對聚類分析作系統(tǒng)介紹。其次對改進(jìn)Fuzzy C-means算法進(jìn)行文獻(xiàn)回顧,對其概況、基本思想、算法進(jìn)行詳細(xì)介紹,再是應(yīng)用了改進(jìn)Fuzzy C-means算法,本文的數(shù)據(jù)是由所設(shè)計(jì)地軟件在微博平臺上獲取的數(shù)據(jù),最后得到相關(guān)結(jié)論和啟示。
改進(jìn)Fuzzy C-means 聚類算法是由 Steinhaus1955 年 Lloyd195年Ball&Hall1965 年 McQueen1967 年分別在各自的不同的科學(xué)研究領(lǐng)域獨(dú)立的提出。 改進(jìn)Fuzzy C-means聚類算法被提出來后,在不同的學(xué)科領(lǐng)域被廣泛研究和應(yīng)用 并發(fā)展出大量不同的改進(jìn)算法。它是研究比較多且應(yīng)用比較廣泛的一種基于劃分的聚類算法。具有算法簡單、易于實(shí)現(xiàn)、品于擴(kuò)展,并且能夠處理大數(shù)據(jù)集的特點(diǎn)。
聚類分析法概述
目前文獻(xiàn)中存在著大量的聚類算法,大體上,聚類分析算法主要分成如下幾種,圖顯示了一些主要的聚類算法的分類。

改進(jìn)?Fuzzy C-means?算法
Fuzzy C-means算法概述
Fuzzy C-means算法是聚類算法中主要算法之一,它是一種基于劃分的聚類算法,是最為經(jīng)典的,同時(shí)也是使用最為廣泛的一種基于劃分的聚類算法,它屬于基于距離的聚類算法。1967年,J.B.MacQueen提出的Fuzzy C-means算法是目前為止在工業(yè)和科學(xué)應(yīng)用中一種極有影響的聚類技術(shù)。Fuzzy C-means 算法實(shí)現(xiàn)非常簡單,運(yùn)算效率也非常的高,適合對大型數(shù)據(jù)集進(jìn)行分析處理。缺點(diǎn)是聚類結(jié)果不能重復(fù),聚類結(jié)果跟初始點(diǎn)的選擇有很大的關(guān)系,且不能作用于非凸集的數(shù)據(jù)。Fuzzy C-means算法對類球形且大小差別不大的類簇有很好的表現(xiàn),但不能發(fā)現(xiàn)形狀任意和大小差別很大的類簇,且聚類結(jié)果易受噪聲數(shù)據(jù)影響。
應(yīng)用
為了進(jìn)一步驗(yàn)證改進(jìn)Fuzzy C-means算法,本文將采集一批微博數(shù)據(jù),通過根據(jù)微博用戶特征屬性對其進(jìn)行聚類,并得出結(jié)論。
數(shù)據(jù)采集
新浪微博,作為中國的較大的用戶使用較受歡迎的微博使用平臺之一,從其平臺上抽取的微博一定程度上可以反映國內(nèi)微博平臺用戶的好友圈子情況??偣搏@取了130條微博用戶數(shù)據(jù)。為保證數(shù)據(jù)的有效性,剔除了一部分缺損和低質(zhì)量的數(shù)據(jù)后,保留了109條數(shù)據(jù)。本文收集了發(fā)布微博用戶特征數(shù)據(jù),借鑒已有的相關(guān)研究和理論,進(jìn)一步對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,數(shù)據(jù)中指標(biāo)的取值如表所示。
指標(biāo)取值范圍你的興趣愛好是0或1您的朋友中大部分屬于同性或異性你覺得自己個(gè)性如何內(nèi)向或者開朗你是否愿意和興趣相投的人成為朋友愿意或者不愿意您一般選擇交什么樣的朋友0或1你是否經(jīng)常參與學(xué)生會或者社團(tuán)組織的活動(dòng)經(jīng)?;蛘吲紶?/p>
根據(jù)本文需求,采用編程軟件在新浪微博平臺上收集到的相關(guān)數(shù)據(jù),具體樣本實(shí)例如圖所示,其中,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化

改進(jìn)?Fuzzy C-means?仿真過程
本文采用MATLAB軟件對數(shù)據(jù)進(jìn)行改進(jìn)Fuzzy C-means聚類分析。
數(shù)據(jù)挖掘是一個(gè)三級過程: 讀入數(shù)據(jù):通過一系列操作運(yùn)行數(shù)據(jù):把數(shù)據(jù)送到目的地。操作的這個(gè)順序被稱為數(shù)據(jù)流,通過每次操作數(shù)據(jù)流都會隨著相關(guān)操作發(fā)生相關(guān)變化,最后,令那些目標(biāo)數(shù)據(jù)輸出一個(gè)模型或者可視化的結(jié)果。在MATLAB中,所有流程都與創(chuàng)建和修改數(shù)據(jù)流有關(guān)。本文具體仿真過程如圖所示。
仿真結(jié)果
具體仿真結(jié)果如圖所示,將該數(shù)據(jù)集分為了三類。
[center,U,obj_fcn] =FCMClu(data,4); ?plot(data(:,1), data(:,2),'o'); ?hold on; ?index1 = find(U(1,:) == maxU); ?index2 = find(U(2,:) == maxU); ?

改進(jìn)Fuzzy C-means算法將該樣本集分為三類,其中最多的為cluster-3,其次是cluster-2,再者是cluster-1。為了驗(yàn)證該結(jié)果的可行性,又采用了R統(tǒng)計(jì)軟件對樣本進(jìn)行了聚類分析。具體代碼如下所示:
> x=read.table("clipboard"): > c<-hclust(dist(x),"single") > plot(c):
得到聚類結(jié)果如圖所示。

結(jié)論
本文研究了數(shù)據(jù)挖掘的研究背景與意義,討論了聚類算法的各種基本理論包括聚類的形式化描述和定義,聚類中的數(shù)據(jù)類型和數(shù)據(jù)結(jié)果,聚類的相似性度量和準(zhǔn)則函數(shù)等。同時(shí)也探討學(xué)習(xí)了基于劃分的聚類方法的典型的聚類方法。本文重點(diǎn)集中學(xué)習(xí)了研究了 改進(jìn)Fuzzy C-means聚類算法的思想、原理以及該算法的優(yōu)缺點(diǎn)。并運(yùn)用改進(jìn)Fuzzy C-means算法對所采集的數(shù)據(jù)進(jìn)行聚類分析,深化了對該算法的理解。
但是本文也存在非常多的不足,例如未對較多的對改進(jìn)Fuzzy C-means的改進(jìn)算法作深刻剖析,仿真實(shí)驗(yàn)的數(shù)據(jù)量較少,再者對改進(jìn)Fuzzy C-means實(shí)驗(yàn)的結(jié)果分析還并不到位。在后期中,這些都是值得深刻挖掘的。
?
參考文獻(xiàn)
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].
[2] 郭宇紅,童云海,唐世渭等.數(shù)據(jù)庫中的知識隱藏 [ J ].軟件學(xué)報(bào),2007, 11 (18) : 278222797.
[3] hehroz S.Khan,Amir Ahmad.Cluster center initialization algorithm for Fuzzy C-means clustering[J].Pattern Recognition Letters 25(2004): 1293-1302.
[4] 王春風(fēng),唐擁政.結(jié)合近鄰和密度思想的K-均值算法的研究[J] 計(jì)算機(jī)工程應(yīng)用.2011 年,47(19).147-149.

最受歡迎的見解
1.R語言k-Shape算法股票價(jià)格時(shí)間序列聚類
2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖
3.R語言對用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實(shí)戰(zhàn)
6.用R進(jìn)行網(wǎng)站評論文本挖掘聚類
7.R語言KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化
8.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機(jī)森林、決策樹、支持向量機(jī)、樸素貝葉斯模型和KMEANS聚類用戶畫像
9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類