用Rapidminer做文本挖掘的應(yīng)用:情感分析

?
情感分析或觀點(diǎn)挖掘是文本分析的一種應(yīng)用,用于識(shí)別和提取源數(shù)據(jù)中的主觀信息。
?
情感分析的基本任務(wù)是將文檔,句子或?qū)嶓w特征中表達(dá)的觀點(diǎn)分類為肯定或否定。本教程介紹了Rapidminer中情感分析的用法。此處提供的示例給出了電影列表及其評論,例如“??正面”??或“??負(fù)面”。該程序?qū)崿F(xiàn)了Precision and Recall方法。??精度??是(隨機(jī)選擇的)檢索文檔相關(guān)的概率。?召回??是在搜索中檢索到(隨機(jī)選擇的)相關(guān)文檔的概率。高??召回率??意味著算法返回了大多數(shù)相關(guān)結(jié)果。精度高??表示算法返回的相關(guān)結(jié)果多于不相關(guān)的結(jié)果。
首先,對某部電影進(jìn)行正面和負(fù)面評論。然后,單詞以不同的極性(正負(fù))存儲(chǔ)。矢量單詞表和模型均已創(chuàng)建。然后,將所需的電影列表作為輸入。模型將給定電影列表中的每個(gè)單詞與先前存儲(chǔ)的具有不同極性的單詞進(jìn)行比較。電影評論是根據(jù)極性下出現(xiàn)的大多數(shù)單詞來估算的。例如,當(dāng)查看Django Unchained時(shí),會(huì)將評論與開頭創(chuàng)建的矢量單詞表進(jìn)行比較。最多的單詞屬于正極性。因此結(jié)果是肯定的。負(fù)面結(jié)果也是如此。
進(jìn)行此分析的第一步是從數(shù)據(jù)中處理文檔,即提取電影的正面和負(fù)面評論并將其以不同極性存儲(chǔ)。該模型如圖1所示。

圖1
在“處理文檔”下,單擊右側(cè)的“編輯列表”。在不同的類名稱“ Positive”和“ Negative”下加載肯定和否定評論。

圖2
在Process Document運(yùn)算符下,發(fā)生嵌套操作,例如對單詞進(jìn)行標(biāo)記,過濾停止單詞。
然后使用兩個(gè)運(yùn)算符,例如Store和Validation運(yùn)算符,如圖1所示。Store運(yùn)算符用于將字向量輸出到我們選擇的文件和目錄中。驗(yàn)證算子(交叉驗(yàn)證)是評估統(tǒng)計(jì)模型準(zhǔn)確性和有效性的一種標(biāo)準(zhǔn)方法。我們的數(shù)據(jù)集分為兩個(gè)部分,一個(gè)訓(xùn)練集和一個(gè)測試集。僅在訓(xùn)練集上訓(xùn)練模型,并在測試集上評估模型的準(zhǔn)確性。重復(fù)n次。雙擊驗(yàn)證運(yùn)算符。將有兩個(gè)面板-培訓(xùn)和測試。在“訓(xùn)練”面板下,使用了線性支持向量機(jī)(SVM),這是一種流行的分類器集,因?yàn)樵摵瘮?shù)是所有輸入變量的線性組合。為了測試模型,我們使用“應(yīng)用模型”運(yùn)算符將訓(xùn)練集應(yīng)用于我們的測試集。為了測量模型的準(zhǔn)確性,我們使用“ Performance”運(yùn)算符。
然后運(yùn)行模型。類召回率%和精度%的結(jié)果如圖5所示。模型和向量單詞表存儲(chǔ)在存儲(chǔ)庫中。

圖5
然后從之前存儲(chǔ)的存儲(chǔ)庫中檢索模型和矢量單詞表。然后從檢索單詞列表連接到圖6所示的流程文檔操作符。
然后單擊“流程文檔”運(yùn)算符,然后單擊右側(cè)的編輯列表。這次,我從網(wǎng)站添加了5條電影評論的列表,并將其存儲(chǔ)在目錄中。為類名稱分配未標(biāo)記的名稱,如圖7所示。
Apply Model運(yùn)算符從Retrieve運(yùn)算符中獲取一個(gè)模型,并從Process文檔中獲取未標(biāo)記的數(shù)據(jù)作為輸入,然后將所應(yīng)用的模型輸出到“實(shí)驗(yàn)室”端口,因此將其連接到“ res”(結(jié)果)端口。結(jié)果如下所示。當(dāng)您查看《悲慘世界》時(shí),有86.4%的人認(rèn)為它是正面的,而13.6%的人認(rèn)為是負(fù)面的,這是因?yàn)樵u論與正極性詞表的匹配度高于負(fù)面。??

圖8
?
參考文獻(xiàn):
1.探析大數(shù)據(jù)期刊文章研究熱點(diǎn)
2.618網(wǎng)購數(shù)據(jù)盤點(diǎn)-剁手族在關(guān)注什么
3.r語言文本挖掘tf-idf主題建模,情感分析n-gram建模研究
4.python主題建??梢暬痩da和t-sne交互式可視化
5.r語言文本挖掘nasa數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模
6.python主題lda建模和t-sne可視化
7.r語言中對文本數(shù)據(jù)進(jìn)行主題模型topic-modeling分析
8.r語言對nasa元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析
9.python爬蟲進(jìn)行web抓取lda主題語義數(shù)據(jù)分析