最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

python基于評論情感分析和回歸、arima銷量預(yù)測的購物網(wǎng)站選品

2023-02-27 23:46 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=31678

原文出處:拓端數(shù)據(jù)部落公眾號

分析師:Ru Bai

網(wǎng)絡(luò)購物模式已成為越來越重要的產(chǎn)品銷售模式,亞馬遜網(wǎng)站早在1995年就開始邀請產(chǎn)品消費者發(fā)表在線評論,此舉帶來了良好的效果,目前幾乎所有的網(wǎng)站都采用了同樣的方式。這是因為在線評論:與該網(wǎng)頁上的產(chǎn)品銷售有著直接相關(guān),便于消費者了解產(chǎn)品信息和服務(wù),并且消費者認(rèn)為評論信息具有更高的可信度;對企業(yè)網(wǎng)絡(luò)購物平臺經(jīng)營決策起作用,利于企業(yè)選擇進入市場的時間,選擇更受消費者青睞的商品,提高效益。

本文旨在為某公司客戶提供線上銷售策略,基于不同于以往的分析方式,分析在線評論內(nèi)部各屬性的特點以及他們之間的關(guān)系,并從動態(tài)的角度探究產(chǎn)品在網(wǎng)絡(luò)平臺上名譽的變化和發(fā)展?jié)摿Γ瑥亩岢鲇兄谔岣咪N量的建議。

解決方案

任務(wù)/目標(biāo)

分析產(chǎn)品口碑的影響因素,從評論情感分析和銷量預(yù)測兩個角度對網(wǎng)站選擇商品和網(wǎng)站運營給出建議。

數(shù)據(jù)源準(zhǔn)備

以在線評論作為基礎(chǔ)數(shù)據(jù)源(來自于亞馬遜網(wǎng)站的)

數(shù)據(jù)預(yù)處理

數(shù)據(jù)處理的目的是為了去除掉數(shù)據(jù)集中的臟數(shù)據(jù),從而確保數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)可用性與使用率,保證分析結(jié)果的準(zhǔn)確性。因此,根據(jù)本文數(shù)據(jù)處理的需要,我們需要對數(shù)據(jù)集進行如下數(shù)據(jù)處理:

a、刪除對應(yīng)產(chǎn)品不屬于我們要研究的品類的數(shù)據(jù)。本文只針對吹風(fēng)機、微波爐、奶嘴,其他產(chǎn)品不具有參考價值。

b、刪除評論星級不屬于[1,5]的數(shù)據(jù)。商品的星級評分在亞馬遜網(wǎng)站上都是1-5范圍內(nèi),但是由于系統(tǒng)bug,會導(dǎo)致出現(xiàn)超出此范圍的評分,超出了正常值域范圍。

c、刪除helpful votes大于total votes的數(shù)據(jù)。認(rèn)為其為錯誤數(shù)據(jù)。

d、刪除review title、review body均為空的數(shù)據(jù)。當(dāng)這兩個均為空時,這條數(shù)據(jù)沒有傳遞任何評論信息,因此根據(jù)數(shù)據(jù)有效性原則。

e、基于本文產(chǎn)品預(yù)測的目標(biāo),我們需要按照時間維度對得到的產(chǎn)品信息進行劃分,并且按照同一產(chǎn)品的ID在時間維度上進行匯總。對于評論總數(shù)小于20的產(chǎn)品、后幾年的評論總數(shù)均為0的產(chǎn)品我們選擇刪除。數(shù)據(jù)顯示為0可能是數(shù)據(jù)儲存失敗、存儲器存在問題等原因,也可能是該產(chǎn)品退出了市場,對產(chǎn)品預(yù)測沒有參考意義。

文本預(yù)處理

a、對評論文本數(shù)據(jù)進行規(guī)范化。瀏覽數(shù)據(jù)集中的評論數(shù)據(jù),我們發(fā)現(xiàn)有很多評論中出現(xiàn)單詞拼寫錯誤、表情符號使用較多以及其他冗余信息,他們不僅不能提供任何有用信息,還會影響模型的運行效率。因此,我們需要過濾掉這些信息:

b、英文分詞。

1)運用python對每一條評論進行英文分詞。

2)去掉標(biāo)點符號和停用詞。冠詞、介詞、副詞、連詞等雖然在評論中出現(xiàn)的頻率較高,但是它們無法表示評論信息的特征。

c、詞性標(biāo)注和詞頻統(tǒng)計。由于我們要對產(chǎn)品設(shè)計提出更好的建議,為了盡量符合消費者的需要,我們需要從評論中提取出相應(yīng)的信息。標(biāo)注產(chǎn)品屬性和消費者情感中涉及到的名詞、形容詞、副詞和否定詞等。

建模

模型一:零膨脹負(fù)二項回歸模型

以信息采納理論和負(fù)面偏差理論為基礎(chǔ),結(jié)合情感分析和零膨脹負(fù)二項回歸方法,從評論者信度、評論信息質(zhì)量、評論極性三個方面探究評論有用性投票影響因素。

分析:

①評論有用性投票是一個計數(shù)變量,且不呈正態(tài)分布,不滿足普通最小二乘回歸模型,且數(shù)據(jù)較為分散,此種情況下采用泊松回歸模型擬合效果不理想,因而采用負(fù)二項回歸模型。

②評論有用性投票零值比例高,是因為消費者并不會瀏覽所有的評論,因此投票的評論為0,并不代表該評論沒有用。建立邏輯回歸模型對因變量中的零值進行解釋。

模型:

邏輯回歸模型(對因變量有用性投票數(shù)為0,做出解釋)

變量類型變量名變量變量解釋自變量評論發(fā)表時間time?評論已經(jīng)發(fā)表的時間(距數(shù)據(jù)最后一天)商品總評論數(shù)reviewtotal?商品銷售排名rank認(rèn)為評論數(shù)反映了銷售量因變量評論有用性投票數(shù)helpfulvotes評論獲得的有用性投票的總數(shù)

????????

負(fù)二項回歸模型

變量類型變量名變量變量解釋自變量評論者有用性reviewer_use評論獲得的有用性投票的數(shù)/得到的總票數(shù)是否為資深評論員vine0:否 1:是購買是否打折discount0:否 1:是評論長度length評論所含單詞的數(shù)量星級極差rateGap星級評分與平均星級差值的絕對值情感指數(shù)emotion_rating評論文本的情感傾向性指數(shù)因變量評論有用性投票數(shù)usefulNum評論獲得的有用性投票的總數(shù)

模型改進?:修正星級

(1)星級評價是一種簡單,易于操作的評價形式,但無法全面展示評論者的情感態(tài)度。例如:A覺得產(chǎn)品毫無瑕疵所以打了5星,B覺得產(chǎn)品有一點缺點,但總體滿意還是打了5星。因此,我們在原有的評分系統(tǒng)上進行改進,依舊采用所有評論者評分均值的方法,但對每一條評論,使用評論情感指數(shù)修正星級評價,增加準(zhǔn)確性。

符號說明:

變量屬性變量名變量變量說明自變量評論星級第i個產(chǎn)品的第j個評論者評論星級 j=0,1…num情感指數(shù)第i個產(chǎn)品的第j個評論者評論文本情感指數(shù)因變量修正評分第i個產(chǎn)品的修正評分

以微波爐的產(chǎn)品為例,將原來的產(chǎn)品總分與修正后的評分做對比:

發(fā)現(xiàn),修正后的模型和原來的分?jǐn)?shù)差距很小,只是將評價等級范圍擴大。但可以很好的刻畫評論者的評論極性和情感強度,能將極斷的情緒放大,情感表達更強烈。同樣修正模型也可以更加完整地展示評論者的態(tài)度。

?

(2)將產(chǎn)品綜合情緒作為自變量,產(chǎn)品的評論總數(shù)作為獨立變量,綜合星級作為因變量,建立如下回歸模型:

通過R語言進行回歸,我們可以得到回歸模型:

此外,rsqure為0.9901,很接近于1,說明回歸效果很好。

?

將產(chǎn)品綜合情緒作為自變量,產(chǎn)品的評論總數(shù)作為獨立變量,綜合星級作為因變量,建立如下回歸模型:

通過R語言進行回歸,我們可以得到回歸模型:

此外,rsquare為0.9901,很接近于1,說明回歸效果很好。

這種給產(chǎn)品打分的模式可以更好的刻畫評論評價中蘊含的情緒,越準(zhǔn)確的打分越能夠了解產(chǎn)品在市場上的口碑以及產(chǎn)品的品質(zhì),從而使得顧客更直接獲得對產(chǎn)品的感知,提高對購物網(wǎng)站的認(rèn)同度。

模型二:網(wǎng)絡(luò)口碑感知的動態(tài)內(nèi)生模型

網(wǎng)絡(luò)口碑量化指標(biāo)的確定。在實際生活中,消費者對網(wǎng)絡(luò)口碑感知是一個階段的過程,是對一個時間段內(nèi)產(chǎn)品的屬性、質(zhì)量、服務(wù)等的總和感知,因此,上訴分析的影響因素對網(wǎng)站口碑感知的印象是存在滯后性的,此時就產(chǎn)生了在線評論和網(wǎng)絡(luò)口碑感知之間的動態(tài)均衡過程。

分析:

自變量:(與評論有關(guān))

①???? 產(chǎn)品綜合星級(

):是消費者對產(chǎn)品感受最直接的反應(yīng),認(rèn)為星級越高,消費者對該產(chǎn)品的評價越好

②??? 在線評論的數(shù)量(cNum):評論數(shù)越多,說明參與評論的人越多,也反應(yīng)出產(chǎn)品銷量高,消費者對該產(chǎn)品的關(guān)注多

③??? 負(fù)面評價在線評價的比例 (nage):負(fù)面評論是影響口碑的重要因素,并且負(fù)面評論降低產(chǎn)品銷量比正面評論所帶來的銷量上升的效果更佳顯著。

④???? 綜合情感指數(shù)(

):由評論文本分析得到的情感指數(shù)可以反映評論者對產(chǎn)品更全面的感知

控制變量:(與評論無關(guān)但可以度量的)

①??? 競爭者的數(shù)量(pnum),?? 還包括降價幅度②產(chǎn)品發(fā)布時間(time)

啞變量:(與評論無關(guān)且不可度量的因素)

①??? ?品牌效應(yīng)(brand):該產(chǎn)品資深評論者的星級評價平均值 ?

模型

基于上述分析的結(jié)果,建立網(wǎng)絡(luò)口碑感知與各變量之間的線性模型來進行估計,為了避免異方差及偏態(tài)性的影響,公式中的部分變量以自然對數(shù)表示:

時間節(jié)點t控制各變量周期的時間節(jié)點控制值A(chǔ),B,C控制各變量是否起作用的布爾值(0或1)各變量系數(shù)

各變量的系數(shù)自變量、控制變量

t時段第i個產(chǎn)品的第j個自變量、控制變量、啞變量產(chǎn)品銷售排名

t時段的產(chǎn)品銷量排名

為了證明在線評論對口碑感知的影響大小,構(gòu)建兩個模型進行對比:

當(dāng)A=0,B=1, C=1,T=4時,得到模型一

當(dāng)A=1,B=1,C=1,T=4時,得到模型二:

通過分析各變量對產(chǎn)品網(wǎng)絡(luò)口碑感知的影響,為了防止出現(xiàn)多重共線性的問題,對相應(yīng)的變量進行了中心化處理,處理之后,所有的方差膨脹因子VIF小于5,說明多重共線性問題被有效規(guī)避。

?

模型三:ARIMA時間序列預(yù)測模型

ARIMA模型是在ARMA模型的基礎(chǔ)上加入了差分處理。模型公式:

ARMA表示時間序列

,是干擾項

以及序列值

的線性組合。AR的系數(shù)由模型中的

表示,p表示自回歸階數(shù),一般表示時序數(shù)據(jù)本身的滯后數(shù);MA的系數(shù)由

表示,q表示移動平均階數(shù),一般表示預(yù)測模型中采用的預(yù)測誤差的滯后數(shù)。ARIMA(p,d,q)中d代表差分次數(shù),為了使非平穩(wěn)的序列變得相對平穩(wěn)。

選取了亞馬遜網(wǎng)站上三種商品(吹風(fēng)機、奶嘴、微波爐)的評論數(shù)據(jù)分別進行分析。在數(shù)據(jù)預(yù)處理之后,以奶嘴為例,得到23764條數(shù)據(jù),時間跨度為2003年4月到2015年8月,每款商品的總體銷量范圍在0~833之間,所以本文以月為單位劃分時間進行模型構(gòu)建與驗證,并預(yù)測之后5個月的銷量。

觀察時序圖,可以看出銷量整體走勢是呈上升趨勢的,但不太平穩(wěn),有一定的波動性,所以進行一階差分處理,符合ARIMA模型。

模型一:

采用微波爐所有產(chǎn)品的數(shù)據(jù),其中有用性投票最小為0,最大是814,有用性投票的分布比較離散,約41.14%的有用性投票數(shù)為0,適用于我們建立的模型。結(jié)合回歸分析結(jié)果與描述性統(tǒng)計結(jié)果進行分析。

變量estimateSEZP?值負(fù)二項-???(?Intercept?)-1.065e+006.182e-02-17.223<2e-16reviewer_use2.809e+005.950e-0247.207<2e-16vine4.029e-014.037e-029.981<2e-16discount-1.134e-012.739e-02-4.1393.49e-05review_length3.212e-033.835e-0583.746<2e-16emotion_rating2.719e-011.634e-0216.644<2e-16rate_gap1.915e-011.387e-0213.810<2e-16logistic????(?Intercept?)-3.5832791.436305-2.4950.012603time-0.0067310.001543-4.3631.28e-05rank0.0875400.0519731.6840.092115review_total0.0124040.0034793.5650.000364

結(jié)果表明,評論者有用性,評論信息量,評論回復(fù)數(shù),極端評分,評論文本消極傾向?qū)υu論有用性投票具有積極正向影響,評論者發(fā)表評論數(shù),評論者是否打折購買對評論有用性投票數(shù)有負(fù)面影響?;诖?,建議網(wǎng)站改善評論排序機制和商品推薦機制,方便消費者篩選高質(zhì)量評論,重視負(fù)面評論,在選擇商品時考慮網(wǎng)絡(luò)口碑。

模型二

所建立的網(wǎng)絡(luò)口碑動態(tài)內(nèi)生模型可以展示一個產(chǎn)品隨時間的名譽變化,由此網(wǎng)站可以更好的選擇商品,優(yōu)化網(wǎng)站質(zhì)量。另外,影響口碑的因素還包括產(chǎn)品發(fā)布時間、產(chǎn)品質(zhì)量、服務(wù)質(zhì)量、降價幅度等因素。****

模型三:

a.微波爐各具體產(chǎn)品未來五個月的銷量預(yù)測

由圖可以看出2015年8月到2016年1月銷量最高的是ID為423421857的商品,雖然在2015年9月份有所下降,但10月份又呈上升態(tài)勢。771401205商品的銷量在未來5個月不如其他商品銷量平穩(wěn)。因此優(yōu)先選取423421857產(chǎn)品,其次為523301568產(chǎn)品,544821753產(chǎn)品。

b.吹風(fēng)機各具體產(chǎn)品未來五個月的銷量預(yù)測

未來5個月各產(chǎn)品銷量排名不會改變,雖然732252283商品銷量有所下降,但在9月后又繼續(xù)上升;但486774008和694290590都呈下降趨勢;其他都很平穩(wěn),并無增長的明顯態(tài)勢。因此推薦程度為:732252283>758099411>235105995。

?

b.奶嘴各具體產(chǎn)品未來五個月的銷量預(yù)測

246038397明顯銷量遙遙領(lǐng)先,392768822有很大的增幅后趨于平穩(wěn)并超過其他產(chǎn)品,雖然572944212銷量領(lǐng)先于450475749,但其呈下降趨勢,因此我們選擇推薦:246038397>392768822大于450475749。

關(guān)于作者

在此對Ru Bai對本文所作的貢獻表示誠摯感謝,她擅長數(shù)據(jù)采集,數(shù)學(xué)建模。

最受歡迎的見解

1.Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組

2.R語言文本挖掘、情感分析和可視化哈利波特小說文本數(shù)據(jù)

3.r語言文本挖掘tf-idf主題建模,情感分析n-gram建模研究

4.游記數(shù)據(jù)感知旅游目的地形象

5.疫情下的新聞數(shù)據(jù)觀察

6.python主題lda建模和t-sne可視化

7.r語言中對文本數(shù)據(jù)進行主題模型topic-modeling分析

8.主題模型:數(shù)據(jù)聆聽人民網(wǎng)留言板的那些“網(wǎng)事”

9.python爬蟲進行web抓取lda主題語義數(shù)據(jù)分析


python基于評論情感分析和回歸、arima銷量預(yù)測的購物網(wǎng)站選品的評論 (共 條)

分享到微博請遵守國家法律
宿迁市| 泰安市| 南乐县| 镇巴县| 沅陵县| 洞头县| 资溪县| 普定县| 云南省| 天峻县| 曲沃县| 新营市| 隆安县| 通州区| 麻城市| 台南市| 大竹县| 抚远县| 盖州市| 红安县| 古丈县| 博罗县| 沙洋县| 伊金霍洛旗| 青海省| 西藏| 渝北区| 自贡市| 云阳县| 靖边县| 图片| 衡南县| 安义县| 福鼎市| 尉氏县| 蛟河市| 广西| 江永县| 连城县| 仪陇县| 富锦市|