R語言618電商大數(shù)據(jù)文本分析LDA主題模型可視化報(bào)告|附代碼數(shù)據(jù)
原文鏈接:http://tecdat.cn/?p=1078
最近我們被客戶要求撰寫關(guān)于文本分析LDA主題模型的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。
618購物狂歡節(jié)前后,網(wǎng)民較常搜索的關(guān)鍵詞在微博、微信、新聞三大渠道的互聯(lián)網(wǎng)數(shù)據(jù)表現(xiàn),同時(shí)通過分析平臺采集618相關(guān)媒體報(bào)道和消費(fèi)者提及數(shù)據(jù)
社交媒體指數(shù)趨勢觀察


平臺數(shù)據(jù)顯示,5月30日起,網(wǎng)上關(guān)于618的討論明顯熱烈起來。5月30日網(wǎng)上聲量相關(guān)討論的主貼有3130條,其中提及最多的是關(guān)于“零點(diǎn),天貓打響618大戰(zhàn)第一槍“、”天貓618掀價(jià)格戰(zhàn):大家電比京東貴我就賠!“內(nèi)容的轉(zhuǎn)發(fā),從媒體源數(shù)據(jù)對比中可見,此話題在微信的傳播速度稍快于微博。
數(shù)據(jù)顯示,5月30日至6月6日期間,消費(fèi)者討論最多的關(guān)鍵詞、聲量第一的是”天貓“,天貓以聲量數(shù)12275位居618關(guān)鍵詞搜索榜首。而在618的網(wǎng)絡(luò)聲量中,天貓的相關(guān)討論均占據(jù)了40%以上內(nèi)容。

以微博為例,觀察其用戶活躍群體以女性較多,主要來自一/二線城市,他們關(guān)注的話題大多為購物等話題,日常分享女裝化妝品等話題偏多,品牌通過與微博的合作,更易匹配到目標(biāo)人群。
洞察銷售數(shù)據(jù)
不僅買家們剁手不亦樂乎,賣家們也是八仙過海,花樣百出??駳g過后,理性的賣家逐漸發(fā)現(xiàn),在電商平臺上,并不是俺們家所有的商品都能搭上六一八的便車。那么,六一八銷量與哪些因素有關(guān)?商家應(yīng)選擇怎樣的促銷策略?
為此,我們采集了線上電商平臺的銷售數(shù)據(jù)。從銷量來看,這些產(chǎn)品有的成為爆款,有的卻無人問津,甚至約有35.8%的產(chǎn)品銷量為零。另外,從價(jià)格來看,大部分賣家經(jīng)過歷年六一八已經(jīng)成為“老司機(jī)”,盡管也采取促銷活動,但是降價(jià)甚微(約有84.9%的產(chǎn)品降價(jià)不超過10元)。

從品類銷售上來看,女士類產(chǎn)品銷售較好,其中女鞋、女裝都提升明顯??磥?,剁手主力還是以女性消費(fèi)者為主。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容

NLP自然語言處理—主題模型LDA案例:挖掘人民網(wǎng)留言板文本數(shù)據(jù)

左右滑動查看更多

01

02

03

04


另外,從價(jià)格來看,大部分賣家經(jīng)過歷年雙十一已經(jīng)成為“老司機(jī)”,盡管也采取促銷活動,但是降價(jià)很少(約有20%的產(chǎn)品沒有降價(jià)),從銷量和降價(jià)的關(guān)系來看,通過降價(jià)來促銷的效果甚微。

從不同維度的評分來看,消費(fèi)者對賣家的服務(wù)態(tài)度滿意程度最高,然而降價(jià)的幅度顯然沒有達(dá)到他們的預(yù)期。
女性消費(fèi)者都喜歡買什么東西呢?通過簡單的分詞、詞頻統(tǒng)計(jì),我們能夠發(fā)現(xiàn),在雙十一期間銷售量>0的商品中,出現(xiàn)了“夏季”、“清涼”?這樣的季節(jié)性詞匯;同時(shí),也有“新款”、“韓版”、“時(shí)尚”這樣的款式熱詞。

** **
機(jī)器學(xué)習(xí)促銷策略--LDA主題模型
主題模型(topic modeling)是一種常見的機(jī)器學(xué)習(xí)應(yīng)用,主要用于對文本進(jìn)行分類。形象來說,主題就是一個(gè)桶,里面裝了出現(xiàn)概率較高的單詞,這些單詞與這個(gè)主題有很強(qiáng)的相關(guān)性。
如果機(jī)器能理解這個(gè)隱含語義,就能展示相應(yīng)的廣告——這樣點(diǎn)擊率會更高。在廣告、搜索和推薦中,最重要的問題之一就是理解用戶興趣以及頁面、廣告、商品等的隱含語義。


通過對商品關(guān)鍵詞使用LDA建模,我們得到模型有3個(gè)主題,主題1關(guān)于材質(zhì)(主要的詞為麝皮、山羊絨等),主題2關(guān)于風(fēng)格(主要的詞為商務(wù)、韓版等),主題3關(guān)于顏色(主要的詞為咖啡色、藍(lán)色等)。通過機(jī)器理解的隱含語義,我們就能展示相應(yīng)的廣告,從而提高點(diǎn)擊率。
** **
結(jié)語
不論是近期的“天貓618”還是“京東618節(jié)”,眾多電商巨頭及品牌齊聚,正如馬爸爸提出的,我們都處在一個(gè)全新的零售時(shí)代,正在逐步預(yù)見著消費(fèi)需求的變化,在同質(zhì)化嚴(yán)重的當(dāng)下,如何走進(jìn)消費(fèi)者并贏得關(guān)注是每個(gè)品牌都非常重要的課題。

點(diǎn)擊文末?“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《618電商大數(shù)據(jù)分析可視化報(bào)告》。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集
自然語言處理NLP:主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)
R語言對NASA元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析
R語言文本挖掘、情感分析和可視化哈利波特小說文本數(shù)據(jù)
Python、R對小說進(jìn)行文本挖掘和層次聚類可視化分析案例
用于NLP的Python:使用Keras進(jìn)行深度學(xué)習(xí)文本生成
長短期記憶網(wǎng)絡(luò)LSTM在時(shí)間序列預(yù)測和文本分類中的應(yīng)用
用Rapidminer做文本挖掘的應(yīng)用:情感分析
R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
R語言對推特twitter數(shù)據(jù)進(jìn)行文本情感分析
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單文本分類
用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類
R語言文本挖掘使用tf-idf分析NASA元數(shù)據(jù)的關(guān)鍵字
R語言NLP案例:LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單文本分類
R語言自然語言處理(NLP):情感分析新聞文本數(shù)據(jù)
Python、R對小說進(jìn)行文本挖掘和層次聚類可視化分析案例
R語言對推特twitter數(shù)據(jù)進(jìn)行文本情感分析
R語言中的LDA模型:對文本數(shù)據(jù)進(jìn)行主題模型topic modeling分析
R語言文本主題模型之潛在語義分析(LDA:Latent Dirichlet Allocation)