最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

計算機專業(yè)大數(shù)據(jù)開題報告怎么寫?基于python的電商產(chǎn)品評論的用戶情感分析與研究

2022-11-02 18:46 作者:趣畢業(yè)  | 我要投稿


一、選題依據(jù)(包括項目研究的背景、研究或應用的意義、國內(nèi)外研究或應用現(xiàn)狀,附主要參考文獻)

(一)研究的背景

隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)上購物已經(jīng)成為大眾生活的重要組成部分。人們在電商平臺上瀏覽商品并購物,基本上所有的電子商務網(wǎng)站都支持消費者對產(chǎn)品的相關內(nèi)容(商品、服務、賣家)等進行打分和發(fā)表評論從而產(chǎn)生了海量的用戶行為數(shù)據(jù),用戶對商品的評論數(shù)據(jù)對商家具有重要的意義。對于用戶來說對于一些未知體驗產(chǎn)品,用戶可以通過網(wǎng)絡來獲取產(chǎn)品信息,特別是對一些未知的體驗產(chǎn)品,用戶為了降低自身的風險更加傾向于得到其他用戶的意見和看法,這些評論對潛在的買家而言無疑是一筆財富,并以此作為決策的重要依據(jù)。對于賣家來說,可以從評論信息中獲取用戶的實際需求,以改善產(chǎn)品品質(zhì),提高自身的競爭力。利用好這些碎片化、非結(jié)構(gòu)化的數(shù)據(jù),將有利于企業(yè)在電商平臺上的持續(xù)發(fā)展,同時,對這部分數(shù)據(jù)進行分析,依據(jù)評論數(shù)據(jù)來優(yōu)化現(xiàn)有產(chǎn)品也是大數(shù)據(jù)在企業(yè)經(jīng)營中的實際應用。

(二)?研究的意義

評論信息中蘊含著消費者對特定產(chǎn)品和服務的主觀感受,反映了?們的態(tài)度、?場和意見,具有?常寶貴的研究價值。???,對企業(yè)來說,企業(yè)需要根據(jù)海量的評論?本數(shù)據(jù)去更好地了解?戶的個?喜好,從?提?產(chǎn)品質(zhì)量、改善服務,獲取市場上的競爭優(yōu)勢。另???,消費者需要在沒有看到真正的產(chǎn)品實體、做出購買決策之前,根據(jù)其他購物者的評論了解產(chǎn)品的質(zhì)量、性價?等信息,為購物抉擇提供參考依據(jù),翻閱買家評論是最直觀的決策要素之一。

(二)?國內(nèi)外研究現(xiàn)狀

情感分析針對使用人群可劃分為兩類:一種是針對消費者提供的情感分析,一種是針對生產(chǎn)者提供的情感分析。

針對消費者提供的情感分析主要應用于主流購物網(wǎng)站,作為網(wǎng)站的一個功能模塊,提供消費者瀏覽參考。國內(nèi)的京東、天貓,國外的亞馬遜等購物網(wǎng)站都提供了情感分析功能模塊。隨著理論和技術的不斷發(fā)展,這些網(wǎng)站的評論管理也從一開始的好評差評分類,進化成情感標簽模式的評論分類。

針對生產(chǎn)者的情感分析多數(shù)為研究人員開發(fā)設計,作為一個獨立的系統(tǒng)運行。國內(nèi)外的研究人員開發(fā)出了多個情感分析系統(tǒng)一方面用來提供給生產(chǎn)者進行情感分析,另一方面用來展示實現(xiàn)學術科研成果。

國內(nèi)的張愛蓮等人開發(fā)的基于LTP 系統(tǒng)框架和 Apriori 算法的汽車評論情感分析系統(tǒng),可以針對評論進行汽車屬性的抽取,并確定評價的情感傾向強度??抵莿P等人開發(fā)的該系統(tǒng)能夠根據(jù)用戶的需求自動的獲取網(wǎng)上的信息,通過基于規(guī)則和基于統(tǒng)計相結(jié)合的產(chǎn)品屬性和用戶觀點抽取方法,自動的識別出用戶對相關產(chǎn)品以及產(chǎn)品屬性的喜好程度。張迪等人設計的品牌評估系統(tǒng),基于海量的用戶評價信息反映用戶對品牌質(zhì)量的觀點,并量化為品牌得分。鐘靜晨等人開發(fā)的商品物流評價系統(tǒng),基于物流專業(yè)術語詞典,對用戶評價進行情感傾向分析,評估消費者對物流服務的滿意度。

與此同時,國外各大研究機構(gòu)和個人也開發(fā)了一些具備研究和實踐價值的情感分析系統(tǒng)。

IBM開發(fā)的語義關聯(lián)分析系統(tǒng),通過訓練模型學習不同語言間同一商品屬性的語言特點,計算得出該商品屬性特征的情感傾向。Gamon等人設計開發(fā)的汽車評分情感分析系統(tǒng),可以確定評論的情感傾向,并得到評論數(shù)據(jù)圖形化的展示。Liu等人設計開發(fā)的情感強度分析對比系統(tǒng),可以提取和對比多個評論數(shù)據(jù)所蘊含的情感強度并通過圖表模型的方式使用戶得到一目了然的可視化信息。Wilson等人研究開發(fā)的系統(tǒng)可以自動識別并標注帶有情感色彩的句子,并提取其中的情感詞和情感傾向。Zhang等人研究開發(fā)的弱點分析系統(tǒng),可以根據(jù)評論數(shù)據(jù)的情感傾向分析列出該商品的缺陷屬性。

(四)主要參考文獻

[1]張愛蓮.汽車評論情感分析系統(tǒng)的設計與實現(xiàn)[D].西安電子科技大學,2013.

[2]康智凱.基于文本情感分析技術的用戶評論分析系統(tǒng)設計與實現(xiàn)[D].哈爾濱工業(yè)大

學,2017.

[3]張迪.基于情感分析的線上品牌評估系統(tǒng)的設計與實現(xiàn)[D].電子科技大學,2017.

[4]鐘靜晨.電商商品評價情感分析系統(tǒng)研究[D].江蘇科技大學,2018.

[5] Guo H,Zhu H,Guo Z,et al. OpinionIt: a text mining system for cross-lingual opinion analysis[C].ACM International Conference on Information and Knowledge Management.ACM,2010:1199-1208.

[6]Gamon M, Aue A, Corstonoliver S, et al. Pulse: Mining Customer Opinions from Free

Text[J].Lecture Notes in Computer Science,2005,3646:121-132.

[7]Liu B, Hu M, Cheng J. Opinion observer: analyzing and comparing opinions on the

Web[C].International Conference on World Wide Web. ACM,2005:342-351.

[8]Wilson T,Hoffmann P,Somasundaran S,et al. OpinionFinder: A System for Subjectivity Analysis.[C]. HLT/EMNLP 2005,Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing,Proceedings of the Conference,6-8 October 2005,Vancouver,British Columbia,Canada.DBLP,2005:34--35.

[9] Zhang W, Xu H, Wan W. Weakness Finder: Find product weakness from Chinese reviews by using aspects based sentiment analysis[J]. Expert Systems with Applications, 2012,39(11):10283-10291.

二、設計或研究內(nèi)容、預期目標及擬解決的關鍵問題(此部分為重點闡述內(nèi)容)。

(一)?研究內(nèi)容

本次建模針對產(chǎn)品消費者的文本評論數(shù)據(jù),在對文本進行基礎的數(shù)據(jù)預處理、中文分詞、停用詞過濾后,使用 ROST CM6 軟件和 Python 等工具對數(shù)據(jù)進行nlp情感分析,實現(xiàn)對文本評論數(shù)據(jù)的情感傾向性判斷以及所隱藏的信息的挖掘并分析,以期得到有價值的內(nèi)在內(nèi)容。

1.用Python編寫爬蟲,對產(chǎn)品評論數(shù)據(jù)進行采集;

2.對獲取到的數(shù)據(jù)進行基礎的處理操作,包括數(shù)據(jù)預處理、中文分詞、停用詞過濾等操作;

3.通過對評論文本數(shù)據(jù)進行預處理后,運用多種手段對評論數(shù)據(jù)進行多方面的分析;

4.從對應結(jié)果的分析中獲取文本評論數(shù)據(jù)中有價值的內(nèi)容。

????

(二)預期目標

1.對該產(chǎn)品的評論進行情感分析。

2.從評論文本中挖掘出該產(chǎn)品的優(yōu)勢和不足。

3.根據(jù)模型結(jié)果給出產(chǎn)品改善的建議,針對品牌的優(yōu)勢提煉出該產(chǎn)品的賣點。

(三)擬解決的關鍵問題

1.許多文本去重算法通過計算文本之間的相似度,以此為基礎去重,包括編輯距離去重、Simhash算法去重等。編輯距離算法去重是計算兩條語料的編輯距離,然后進行閾值判斷,如果編輯距離小于閾值則進行去重處理。但是有相近的表達的時候就可能也會采取刪除操作,這樣就會造成錯刪。

2.文本的正面評價和負面評價混淆在一起,并且由于分詞粒度的影響)否定詞或程度詞等),可能在一個主題下生成一些令人迷惑的詞語。

3.由于分詞獲取前面正負情感結(jié)果的文本語料庫不太好,對于負面情感結(jié)果的?情感詞典 并不是很聚焦。

三、研究方案(包括有關方法、技術路線、實驗手段、關鍵技術等)。

(一)?研究方法

1.觀察法:研究者根據(jù)一定的研究目的,研究提綱和觀察表,用自己的感官和輔助工具去觀察被研究對象,從而獲得資料。

2.項目實驗法:通過自主實驗,完成對研究從理論到操作的轉(zhuǎn)變,驗證是否達到實驗要求。

3.?獻研究法:根據(jù)?定的研究目的或課題,通過調(diào)查?獻來獲得資料,從?全?地、正確地了解掌握所要研究的問題。

4.通過一些學習資料,掌握環(huán)境搭建的方法和處理報錯的能力。

(二)技術路線

????1.數(shù)據(jù)的采集方面,選用了Python和八爪魚采集器。本文需要使用的數(shù)據(jù)包括買家評論的基本屬性,買家名,買家等級、評論內(nèi)容、評論時間等。首先,根據(jù)選定的研究對象,熟悉相關的背景知識,利用網(wǎng)絡爬蟲軟件對待定數(shù)據(jù)進行抓取,然后,對分散的數(shù)據(jù)按照一定的規(guī)則或者格式合并,接下來,對不符合條件的數(shù)據(jù)進行數(shù)據(jù)清洗,清除錯誤,冗余和數(shù)據(jù)噪音,以此保障數(shù)據(jù)質(zhì)量。

2.數(shù)據(jù)的預處理方面,選用了文本去重處理。在 Excel 中對數(shù)據(jù)進行簡單的預處理后,得到評論文本數(shù)據(jù),但是文本數(shù)據(jù)中存在大量價值含量很低甚至沒有價值含量的條目,如果將這些評論數(shù)據(jù)也引入進行分詞、詞頻統(tǒng)計乃至情感分析等,必然會對分析造成很大的影響,得到的結(jié)果的質(zhì)量也必然是存在問題的。那么,在利用這些文本評論數(shù)據(jù)之前就必須先進行文本預處理,把大量的此類無價值含量的評論數(shù)據(jù)去除。

3.數(shù)據(jù)的建模方面,選用了pynlp?進行中文自然語言處理和LDA主題模型。pynlp?可以快速高效的剔除與所需求的信息不相關的內(nèi)容,篩選出文本中的高頻詞匯,并將將文本分為正面評價和負面評價等。再進行情感詞典情感分析,挖掘出商品的優(yōu)勢和不足。

(三)實驗手段

1.對本實驗的可行性研究作總體描述,畫出程序流程圖。

2.搭建本系統(tǒng)的基本軟件環(huán)境,對電腦進行集群和環(huán)境的搭建,解決集群中內(nèi)存和儲存空間的分配計劃問題,安裝所需的語言環(huán)境和集成開發(fā)環(huán)境,與需要用到的其他依賴和插件、軟件等,并測試環(huán)境的穩(wěn)定性和可靠性。

3.對要實現(xiàn)操作進行語言思路整理,規(guī)范使用編程語言,詳細標寫注釋說明作用和備注。

4.測試各個模塊能否正常運行、實現(xiàn)。

(四)關鍵技術

1.數(shù)據(jù)采集:Python、八爪魚采集器

2.數(shù)據(jù)預處理:文本可視化技術

3.數(shù)據(jù)建模與應用:pynlp?、情感詞典情感分析

四、設計或研究計劃進度

1.?2022年8月20日-2022年9月11日:由本人和畢業(yè)設計指導老師進行溝通,確認選題并提交論文題目進行審核。學生自己查找資料,閱讀相關文獻,編寫開題報告,并提交給指導老師審核,如審核的開題報告有需要修改的地方,及時修改成功并再次提交審核。

2.2022年9月12日-2022年9月22日:開題報告通過指導教師同意后,制作開題答辯PPT,準備接下來的開題答辯環(huán)節(jié),并完成開題答辯。

3.2022年9月23日-2022年11月24日:資料搜集、閱讀和需求分析、準備編程環(huán)境,撰寫畢業(yè)論文。在此時間段與指導老師進行溝通指導后,提交初稿。學生開始編寫系統(tǒng)的功能模塊。

4.2022年11月25日-2022年12月16日:撰寫畢業(yè)論文并提交中稿。系統(tǒng)功能模塊基本實現(xiàn),調(diào)試程序。

5.2022年12月17日-2023年1月20日:撰寫畢業(yè)論文并提交終稿。對軟件進行整體測試,使軟件能夠正常運行。與指導老師溝通,根據(jù)評閱結(jié)果修改論文,定稿。

6.?2023年1月21日-2023年2月11日:指導老師與學生溝通完定稿之后,各小組根據(jù)教務處要求實施交叉評閱。學生根據(jù)評閱結(jié)果修改論文,準備答辯。

7.?2023年2月12日-2023年3月10日:分別進行論文第一、第二次答辯。

五、設計(論文)的預期成果與特色或創(chuàng)新之處

(一)預期成果

針對用戶在電商平臺上留下的的大量評論數(shù)據(jù)進行分析,可以挖掘出這些信息的特征,而得到的這些信息有利于生產(chǎn)商改進自身產(chǎn)品和改善相關的服務,提高商家的核心競爭力,使得商家的經(jīng)營越來越好。

(一)?特色與創(chuàng)新 ?

1.選用了許多相關的大數(shù)據(jù)技術,比較全面。

2.使用文本可視化技術簡潔明了、迅速。

3.?使用情感詞典分析數(shù)據(jù)情感值傾向,并使用結(jié)巴分詞等提取評論關鍵信息,使得結(jié)果更準確。



計算機專業(yè)大數(shù)據(jù)開題報告怎么寫?基于python的電商產(chǎn)品評論的用戶情感分析與研究的評論 (共 條)

分享到微博請遵守國家法律
卢湾区| 巴中市| 湖北省| 邹平县| 吴旗县| 通道| 隆化县| 辉县市| 金川县| 阿图什市| 济源市| 武鸣县| 六盘水市| 和硕县| 镶黄旗| 盘锦市| 晋中市| 岢岚县| 鹿泉市| 肥乡县| 昌江| 冕宁县| 红桥区| 同心县| 余庆县| 石门县| 永泰县| 吴旗县| 潞城市| 英吉沙县| 昌江| 策勒县| 屯昌县| 武夷山市| 枞阳县| 东乌| 武鸣县| 神农架林区| 平潭县| 吴忠市| 罗定市|