R語(yǔ)言實(shí)現(xiàn)LDA主題模型分析網(wǎng)購(gòu)數(shù)據(jù)
原文鏈接:http://tecdat.cn/?p=2175
?研究人員對(duì)各大電商平臺(tái)海量用戶的評(píng)價(jià)數(shù)據(jù)進(jìn)行分析,得出智能門鎖剁手攻略。
1
語(yǔ)義透鏡
顧客滿意度和關(guān)注點(diǎn)
我們對(duì)于評(píng)價(jià)數(shù)據(jù)進(jìn)行LDA建模,就是從語(yǔ)料庫(kù)中挖掘出不同主題并進(jìn)行分析,換言之,LDA提供了一種較為方便地量化研究主題的機(jī)器學(xué)習(xí)方法。
我們使用最大似然估計(jì)進(jìn)行最優(yōu)化主題個(gè)數(shù)的選取。當(dāng)主題個(gè)數(shù)定為20的時(shí)候,似然估計(jì)數(shù)最大,即留言板數(shù)據(jù)分為20個(gè)主題的可能性比較大。將模型生成的20個(gè)主題中的高頻詞取出。
圖表1

?
根據(jù)各個(gè)主題的高頻關(guān)鍵詞,大概可以將顧客關(guān)注點(diǎn)分成5個(gè)部分:商家品牌、價(jià)格質(zhì)量、客服師傅、使用便捷性和包裝物流。從上圖,我們發(fā)現(xiàn)用戶關(guān)注的點(diǎn)主要集中在客服對(duì)商品問(wèn)題的耐心解答,師傅對(duì)門鎖安裝的指導(dǎo)以及包裝和物流上。
我們也發(fā)現(xiàn)不少顧客的評(píng)論反映出智能門鎖的便捷性(e.g.不用帶鑰匙)和先進(jìn)(e.g.指紋識(shí)別度高)。同時(shí)我們沒(méi)有發(fā)現(xiàn)安全性相關(guān)的高頻詞匯。
2
顧客抱怨
質(zhì)量、客服服務(wù)和物流
接下來(lái),我們對(duì)不同價(jià)格和主題的顧客抱怨率進(jìn)行比較。
圖表2

?
從價(jià)格方面我們發(fā)現(xiàn)價(jià)格低于2000的智能門鎖購(gòu)買量最多,同時(shí)抱怨率也較高,根據(jù)關(guān)注點(diǎn)來(lái)看,顧客抱怨點(diǎn)主要集中在商品質(zhì)量和客服的耐心程度。購(gòu)買量位于第二的價(jià)格是高于4000的區(qū)間,整體抱怨率最低。購(gòu)買量位于第三的是2000-3000區(qū)間,該區(qū)間顧客抱怨點(diǎn)主要集中在商家品牌與物流。最后是3000-4000區(qū)間,該區(qū)間顧客抱怨點(diǎn)主要集中在價(jià)格質(zhì)量與物流。同時(shí)反映出顧客對(duì)智能門鎖價(jià)格有較高心理預(yù)期,主要抱怨點(diǎn)在質(zhì)量、客服服務(wù)和物流上。
3
自營(yíng)非自營(yíng)
價(jià)格和滿意度
圖表3

?
從左圖可以看出自營(yíng)和非自營(yíng)商品在顧客滿意度上相差不大,非自營(yíng)商品的滿意度要略高于自營(yíng)商品。同時(shí)可以看到大于4000區(qū)間的顧客滿意度最高,且都是非自營(yíng)商品。
從右圖中,我們可以看到滿意度關(guān)于價(jià)格的回歸預(yù)測(cè)結(jié)果。圖中紅線表示的是自營(yíng)商品,在3000以下的區(qū)間,價(jià)格越高,滿意度反而下降,高于3000的區(qū)間中,價(jià)格越高,滿意度越高。在非自營(yíng)商品中,3000以下的價(jià)格區(qū)間中,價(jià)格和滿意度關(guān)系不明顯,高于3000的價(jià)格區(qū)間中,價(jià)格越高,滿意度越高。
從前文中,我們發(fā)現(xiàn)價(jià)格低于3000的商品抱怨率最低的點(diǎn)在于便捷和使用高效,因此給人的感覺(jué)性價(jià)高,滿意度較高,而價(jià)格接近3000時(shí),顧客對(duì)客服、物流、質(zhì)量等預(yù)期更高,因此容易成為抱怨的重災(zāi)區(qū)。當(dāng)價(jià)格接近和高于4000時(shí),商品的品牌、質(zhì)量往往又得到保證,因此滿意度又上升。
?
?

最受歡迎的見(jiàn)解
1.探析大數(shù)據(jù)期刊文章研究熱點(diǎn)
2.618網(wǎng)購(gòu)數(shù)據(jù)盤點(diǎn)-剁手族在關(guān)注什么
3.r語(yǔ)言文本挖掘tf-idf主題建模,情感分析n-gram建模研究
4.python主題建??梢暬痩da和t-sne交互式可視化
5.r語(yǔ)言文本挖掘nasa數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模
6.python主題lda建模和t-sne可視化
7.r語(yǔ)言中對(duì)文本數(shù)據(jù)進(jìn)行主題模型topic-modeling分析
8.r語(yǔ)言對(duì)nasa元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析
9.python爬蟲進(jìn)行web抓取lda主題語(yǔ)義數(shù)據(jù)分析
?