最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

R語(yǔ)言聚類、文本挖掘分析虛假電商評(píng)論數(shù)據(jù):K-Means(K-均值)、層次聚類、詞云可視化

2023-05-24 22:14 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=32540

原文出處:拓端數(shù)據(jù)部落公眾號(hào)

聚類分析是一種常見的數(shù)據(jù)挖掘方法,已經(jīng)廣泛地應(yīng)用在模式識(shí)別、圖像處理分析、地理研究以及市場(chǎng)需求分析。本文主要研究聚類分析算法K-means在電商評(píng)論數(shù)據(jù)中的應(yīng)用,挖掘出虛假的評(píng)論數(shù)據(jù)。

本文主要幫助客戶研究聚類分析在虛假電商評(píng)論中的應(yīng)用,因此需要從目的出發(fā),搜集相應(yīng)的以電商為交易途徑的評(píng)論信息。對(duì)調(diào)查或搜集得到的信息進(jìn)行量化錄入處理,以及對(duì)缺失值過(guò)多的分析對(duì)象進(jìn)行刪除。之后進(jìn)行多維度的數(shù)據(jù)描述。由于地圖最多只能顯示三維空間,而顧客指標(biāo)屬性很可能不止三個(gè),因此在數(shù)據(jù)描述中可以進(jìn)行單一指標(biāo)與某個(gè)確定指標(biāo)的二維展示,這樣大致先了解客戶分布。

最終,通過(guò)應(yīng)用改進(jìn)的K-means算法對(duì)數(shù)據(jù)進(jìn)行挖掘,得出了直觀有用的形象化結(jié)論,對(duì)之后公司管理層做銷售決策提供了必要的依據(jù)。本次改進(jìn),也可以作為今后其他數(shù)據(jù)的參考,來(lái)進(jìn)行其他數(shù)據(jù)的可靠挖掘,可以說(shuō)提供了可靠的參照。

研究?jī)?nèi)容

本項(xiàng)目主要是針對(duì)現(xiàn)實(shí)中的市場(chǎng)營(yíng)銷與統(tǒng)計(jì)分析方法的結(jié)合,來(lái)挖掘潛在的客戶需求。隨著電子商務(wù)的發(fā)展和用戶消費(fèi)習(xí)慣改變,電商在銷售渠道的比重將大大增強(qiáng),2014年電商銷售已經(jīng)超過(guò)了店面銷售的數(shù)量。因此,這為通過(guò)數(shù)據(jù)挖掘算法來(lái)分析客戶的交易選擇行為,將客戶的喜好通過(guò)分類來(lái)組別,這樣進(jìn)一步能挖掘潛在客戶和已交易客戶的下一步潛在需求。

本文在基礎(chǔ)的K-means聚類算法的基礎(chǔ)上,結(jié)合該算法固有的一些缺陷,提出了一些改進(jìn)措施,即通過(guò)改進(jìn)的K-means聚類算法來(lái)對(duì)“B2C電商評(píng)論信息數(shù)據(jù)集”數(shù)據(jù)進(jìn)行處理,在最終得到結(jié)果之后依據(jù)形象化的結(jié)論提出相應(yīng)的公司決策,以滿足市場(chǎng)的要求。

K-means的改進(jìn)

文獻(xiàn)[7]是Huang為克服K-means算法僅適合于數(shù)值屬性數(shù)據(jù)聚類的局限性,提出的一種適合于分類屬性數(shù)據(jù)聚類的K-modes算法"該算法對(duì)K-means進(jìn)行了3點(diǎn)擴(kuò)展:引入了處理分類對(duì)象的新的相異性度量方法(簡(jiǎn)單的相異性度量匹配模式),使用mode:代替means,并在聚類過(guò)程中使用基于頻度的方法修正modes,以使聚類代價(jià)函數(shù)值最小化"這些擴(kuò)展允許人們能直接使用K-means范例聚類有分類屬性的數(shù)據(jù),無(wú)須對(duì)數(shù)據(jù)進(jìn)行變換"K-modes算法的另一個(gè)優(yōu)點(diǎn)是modes,能給出類的特性描述,這對(duì)聚類結(jié)果的解釋是非常重要的"事實(shí)上,K-modes算法比K-means算法能更快收斂,與K-means算法一樣,K-modes算法也會(huì)產(chǎn)生局部最優(yōu)解,依賴于初始化modes的選擇和數(shù)據(jù)集中數(shù)據(jù)對(duì)象的次序。初始化modes的選擇策略尚需進(jìn)一步研究。

1999年,Huang等人[8]證明了經(jīng)過(guò)有限次迭代K-modes算法僅能收斂于局部最小值。

K-medoids聚類算法的基本策略就是通過(guò)首先任意為每個(gè)聚類找到一個(gè)代表對(duì)象(medoid)而首先確定n個(gè)數(shù)據(jù)對(duì)象的k個(gè)聚類;(也需要循環(huán)進(jìn)行)其它對(duì)象則根據(jù)它們與這些聚類代表的距離分別將它們歸屬到各相應(yīng)聚類中(仍然是最小距離原則)。

綜合考慮以上因素,本文考慮了孤立點(diǎn)。傳統(tǒng)的聚類分析將全部點(diǎn)進(jìn)行聚類,而不考慮可能存在的孤立點(diǎn)對(duì)聚類結(jié)果的干擾,這使得聚類結(jié)果缺乏可靠性和穩(wěn)定性。對(duì)于聚類結(jié)果,需要進(jìn)行判別分析,包括內(nèi)分析和外分析。內(nèi)分析主要是在聚類之后,點(diǎn)到類中心的閾值來(lái)尋找孤立點(diǎn),從而剔除孤立點(diǎn),保證樣本和聚類中心的可靠性,在剔除了孤立點(diǎn)后需要重新計(jì)算類中心,如果出現(xiàn)極端情況,甚至有可能進(jìn)行再一次聚類分析;外分析是指在確定好最終的聚類結(jié)果后,進(jìn)行外樣本預(yù)測(cè),使聚類結(jié)果更加穩(wěn)定。

分析

數(shù)據(jù)集與環(huán)境

本文的實(shí)驗(yàn)環(huán)境為Windows 7操作系統(tǒng),R編程環(huán)境。同時(shí)選取了“B2C電商評(píng)論信息數(shù)據(jù)集”作為實(shí)驗(yàn)對(duì)象。這個(gè)數(shù)據(jù)集中包含了2370條B2C電商評(píng)論信息。

數(shù)據(jù)文件:

設(shè)計(jì)

在這里,為了提高算法效率,降低數(shù)據(jù)的稀疏性,本文首先導(dǎo)入文本數(shù)據(jù),對(duì)該數(shù)據(jù)進(jìn)行文本挖掘。篩選出所有評(píng)論中詞頻最高的前30個(gè)詞匯,用作實(shí)驗(yàn)的聚類屬性。

# == 分詞+頻數(shù)統(tǒng)計(jì) ? words=unlist(lapply(X=data, FUN=segmentCN)); ?

每個(gè)高頻詞匯和其詞頻數(shù)據(jù)如下表所示:

wordfreq漂亮547喜歡519顏色477質(zhì)量474絲巾452不錯(cuò)435好評(píng)425謝謝277非常273解釋263愉快237生活229滿意226繼續(xù)225寶貝222美麗217一天214提供214努力213祝愿212衷心212賞賜212感恩212收到211沒(méi)有187色差141好看126圖片120可以110

通過(guò)中文分詞Rwordseg詞頻云軟件包可以根據(jù)不同的詞匯的詞頻高低來(lái)顯示文本挖掘的高頻詞匯的總體結(jié)果。通過(guò)將詞頻用字體的大小和顏色的區(qū)分,我們可以明顯地看到哪些詞匯是高頻的,哪些詞匯的頻率是差不多的,從而進(jìn)行下一步研究。

實(shí)驗(yàn)采用上述數(shù)據(jù)集得到的高頻詞匯得到每個(gè)用戶和高頻詞匯的頻率矩陣。

記錄漂亮喜歡顏色質(zhì)量絲巾滿意100000020100003110000411000050000106100000710000080010009020000100000011101101012000000131002111400000015110100160100001710111018000000

用戶詞匯頻率矩陣表格的一行代表用戶的一條評(píng)論,列代表高頻詞匯,表中的數(shù)據(jù)代表該條評(píng)論中出現(xiàn)的詞匯頻率。

結(jié)果及分析

K-均值聚類算法的虛假評(píng)論聚類結(jié)果

用K-mean進(jìn)行分析,選定初始類別中心點(diǎn)進(jìn)行分類。

一般是隨機(jī)選擇數(shù)據(jù)對(duì)象作為初始聚類中心,由于kmeans聚類是無(wú)監(jiān)督學(xué)習(xí),因此需要先指定聚類數(shù)目。

層次聚類是另一種主要的聚類方法,它具有一些十分必要的特性使得它成為廣泛應(yīng)用的聚類方法。它生成一系列嵌套的聚類樹來(lái)完成聚類。

從樹的直觀表示來(lái)看,當(dāng)height取80的時(shí)候,樹的分支可以大概分成2類,分成的類別比較清楚和直觀,因此我們?nèi)等于2,分別對(duì)應(yīng)虛假評(píng)論和真實(shí)評(píng)論。

K-means算法得到的聚類中心

#查找虛假評(píng)論 #比較典型的識(shí)別方式 # 看文字,什么非常好,賣家特別棒,我特滿意,以后還會(huì)來(lái)等等,寫一大堆文字,但是沒(méi)有對(duì)產(chǎn)品有實(shí)質(zhì)性描述的,一般是刷的,這一點(diǎn)是主要判斷依據(jù),因?yàn)樗蔚娜艘话阋獙懞芏嗉业脑u(píng)價(jià),所以他不會(huì)對(duì)產(chǎn)品本身做任何評(píng)論,全都是一些通話套話。 fake1= grep(pattern="非常好" ,data); ? ? ? fake2= grep(pattern="賣家特 ? for(j in 1:length(index)){ ? ?jj=which(dd[,1]==index[j]) ? ?rating[i,colnames(rating)==index[j]]=dd[]]#高頻詞匯的數(shù)量賦值到評(píng)價(jià)矩陣 ?} ? } cl=kmeans(rating,2)#對(duì)評(píng)價(jià)矩陣進(jìn)行k均值聚類 write.csv(cl$cent

每個(gè)類所有點(diǎn)到類中心的距離之和與平均距離

通過(guò)設(shè)定距離閾值k=2,我們找出了3356個(gè)異常值并將其剔除。

?

然后繪制聚類散點(diǎn)圖,通過(guò)聚類圖,我們可以看到真實(shí)評(píng)論和虛假評(píng)論明顯地被分成了兩個(gè)聚類簇。

最后對(duì)2個(gè)類分別做了詞頻統(tǒng)計(jì),并用詞頻云表示每個(gè)類的特征。

真實(shí)評(píng)論

wordcloud(colnames(c

虛假評(píng)論

從詞頻云圖可以看到,真實(shí)的評(píng)價(jià)中的主要關(guān)鍵詞是質(zhì)量,不錯(cuò),色差等,從這些關(guān)鍵詞來(lái)看,本文可以推測(cè)這類用戶主要看重的是商品的功能性和質(zhì)量型,并且主要集中在一些基本的特征,如質(zhì)量、色差。也可以推測(cè)這些用戶的商品評(píng)論沒(méi)有太多華麗的詞匯,而只是簡(jiǎn)單的不錯(cuò),謝謝等。因此,可以認(rèn)為真實(shí)的評(píng)論一般比較簡(jiǎn)單,并且會(huì)有一些對(duì)商品具體的方面的不足進(jìn)行描述如色差,而不是一味的非常好、喜歡、愉快等。

虛假評(píng)論類別中主要的關(guān)鍵詞是好評(píng)!,感恩!,美麗!,賞賜!、努力!祝愿!等詞匯。從這些關(guān)鍵詞我們大致可以推測(cè)這類用戶主要使用的是一些華麗的詞藻。他們比較看重評(píng)論的夸張度和給人的好感度,更在乎評(píng)論給別的買家造成的美好體驗(yàn)。這些用戶往往使用很“完美”的評(píng)價(jià),大多使用好評(píng)、美麗、感恩等評(píng)價(jià)很高的詞匯,而沒(méi)有很關(guān)注商品的質(zhì)量和具體的細(xì)節(jié),一般套用了相近的評(píng)論模板,因此可以認(rèn)為是虛假評(píng)論。

參考文獻(xiàn)

[1]T Zhang.R.Ramakrishnan and M.ogihara.An efficient data clustering method for very largedatabases.In Pror.1996 ACM-SlGMOD hat.Conf.Management of Data,Montreal.Canada,June 1996:103.114.

[2]邵峰晶,于忠清,王金龍,孫仁城? 數(shù)據(jù)挖掘原理與算法(第二版) 北京:科學(xué)出版社 ,2011, ISBN 978-7-03-025440-5.

[3]張建輝.K-meaIlS聚類算法研究及應(yīng)用:[武漢理工大學(xué)碩士學(xué)位論文].武漢:武漢理工大學(xué),2012.

[4]馮超.K-means 類算法的研究:[大連理工大學(xué)碩士學(xué)位論文].大連:大連理工大學(xué),2007.

[5]曾志雄.一種有效的基于劃分和層次的混合聚類算法.計(jì)算機(jī)應(yīng)用,2007,27(7):1692.1695.

[6]范光平.一種基于變長(zhǎng)編碼的遺傳K-均值算法研究:[浙江大學(xué)碩士學(xué)位論文].杭州:浙江大學(xué),2011.

[7]孫士保,秦克云.改進(jìn)的K-平均聚類算法研究.計(jì)算機(jī)工程,2007,33(13):200.202.

[8]孫可,劉杰,王學(xué)穎.K均值聚類算法初始質(zhì)心選擇的改進(jìn).沈陽(yáng)師范大學(xué)學(xué)報(bào),2009,27(4):448-450.

[9]Jain AK,Duin Robert PW,Mao JC.Statistical paaern recognition:A review.IEEE Trans.Actions on Paaem Analysis and Machine Intelligence,2000,22(1):4-37.

[10]Sambasivam S,Theodosopoulos N.Advanced data clustering methods ofmining web documents.Issues in Informing Science and Information Technology,2006,8(3):563.579.

最受歡迎的見解

1.Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組

2.R語(yǔ)言文本挖掘、情感分析和可視化哈利波特小說(shuō)文本數(shù)據(jù)

3.r語(yǔ)言文本挖掘tf-idf主題建模,情感分析n-gram建模研究

4.游記數(shù)據(jù)感知旅游目的地形象

5.疫情下的新聞數(shù)據(jù)觀察

6.python主題lda建模和t-sne可視化

7.r語(yǔ)言中對(duì)文本數(shù)據(jù)進(jìn)行主題模型topic-modeling分析

8.主題模型:數(shù)據(jù)聆聽人民網(wǎng)留言板的那些“網(wǎng)事”

9.python爬蟲進(jìn)行web抓取lda主題語(yǔ)義數(shù)據(jù)分析


R語(yǔ)言聚類、文本挖掘分析虛假電商評(píng)論數(shù)據(jù):K-Means(K-均值)、層次聚類、詞云可視化的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
景泰县| 东方市| 怀宁县| 台南县| 孝昌县| 长岛县| 西昌市| 黑河市| 汝州市| 新平| 双鸭山市| 巫溪县| 大宁县| 来安县| 慈利县| 喜德县| 微博| 保德县| 襄汾县| 榆中县| 舞阳县| 阳高县| 龙陵县| 长丰县| 保定市| 松滋市| 繁昌县| 台北县| 夏邑县| 大连市| 宣武区| 德钦县| 尉犁县| 始兴县| 黔南| 巢湖市| 抚顺县| 双峰县| 鄢陵县| 库伦旗| 西昌市|