散文網(wǎng) » 生活 »日常 » 用Rapidminer做文本挖掘的應(yīng)用：情感分析

用Rapidminer做文本挖掘的應(yīng)用：情感分析

2021-04-21 12:55 作者:拓端tecdat 0人讀過 | 我要投稿

?

情感分析或觀點(diǎn)挖掘是文本分析的一種應(yīng)用，用于識(shí)別和提取源數(shù)據(jù)中的主觀信息。

?

情感分析的基本任務(wù)是將文檔，句子或?qū)嶓w特征中表達(dá)的觀點(diǎn)分類為肯定或否定。本教程介紹了Rapidminer中情感分析的用法。此處提供的示例給出了電影列表及其評論，例如“??正面”??或“??負(fù)面”。該程序?qū)崿F(xiàn)了Precision and Recall方法。??精度??是（隨機(jī)選擇的）檢索文檔相關(guān)的概率。?召回??是在搜索中檢索到（隨機(jī)選擇的）相關(guān)文檔的概率。高??召回率??意味著算法返回了大多數(shù)相關(guān)結(jié)果。精度高??表示算法返回的相關(guān)結(jié)果多于不相關(guān)的結(jié)果。

首先，對某部電影進(jìn)行正面和負(fù)面評論。然后，單詞以不同的極性（正負(fù)）存儲(chǔ)。矢量單詞表和模型均已創(chuàng)建。然后，將所需的電影列表作為輸入。模型將給定電影列表中的每個(gè)單詞與先前存儲(chǔ)的具有不同極性的單詞進(jìn)行比較。電影評論是根據(jù)極性下出現(xiàn)的大多數(shù)單詞來估算的。例如，當(dāng)查看Django Unchained時(shí)，會(huì)將評論與開頭創(chuàng)建的矢量單詞表進(jìn)行比較。最多的單詞屬于正極性。因此結(jié)果是肯定的。負(fù)面結(jié)果也是如此。

進(jìn)行此分析的第一步是從數(shù)據(jù)中處理文檔，即提取電影的正面和負(fù)面評論并將其以不同極性存儲(chǔ)。該模型如圖1所示。

圖1

在“處理文檔”下，單擊右側(cè)的“編輯列表”。在不同的類名稱“ Positive”和“ Negative”下加載肯定和否定評論。

圖2

在Process Document運(yùn)算符下，發(fā)生嵌套操作，例如對單詞進(jìn)行標(biāo)記，過濾停止單詞。

然后使用兩個(gè)運(yùn)算符，例如Store和Validation運(yùn)算符，如圖1所示。Store運(yùn)算符用于將字向量輸出到我們選擇的文件和目錄中。驗(yàn)證算子（交叉驗(yàn)證）是評估統(tǒng)計(jì)模型準(zhǔn)確性和有效性的一種標(biāo)準(zhǔn)方法。我們的數(shù)據(jù)集分為兩個(gè)部分，一個(gè)訓(xùn)練集和一個(gè)測試集。僅在訓(xùn)練集上訓(xùn)練模型，并在測試集上評估模型的準(zhǔn)確性。重復(fù)n次。雙擊驗(yàn)證運(yùn)算符。將有兩個(gè)面板-培訓(xùn)和測試。在“訓(xùn)練”面板下，使用了線性支持向量機(jī)（SVM），這是一種流行的分類器集，因?yàn)樵摵瘮?shù)是所有輸入變量的線性組合。為了測試模型，我們使用“應(yīng)用模型”運(yùn)算符將訓(xùn)練集應(yīng)用于我們的測試集。為了測量模型的準(zhǔn)確性，我們使用“ Performance”運(yùn)算符。

然后運(yùn)行模型。類召回率％和精度％的結(jié)果如圖5所示。模型和向量單詞表存儲(chǔ)在存儲(chǔ)庫中。

圖5

然后從之前存儲(chǔ)的存儲(chǔ)庫中檢索模型和矢量單詞表。然后從檢索單詞列表連接到圖6所示的流程文檔操作符。

然后單擊“流程文檔”運(yùn)算符，然后單擊右側(cè)的編輯列表。這次，我從網(wǎng)站添加了5條電影評論的列表，并將其存儲(chǔ)在目錄中。為類名稱分配未標(biāo)記的名稱，如圖7所示。

Apply Model運(yùn)算符從Retrieve運(yùn)算符中獲取一個(gè)模型，并從Process文檔中獲取未標(biāo)記的數(shù)據(jù)作為輸入，然后將所應(yīng)用的模型輸出到“實(shí)驗(yàn)室”端口，因此將其連接到“ res”（結(jié)果）端口。結(jié)果如下所示。當(dāng)您查看《悲慘世界》時(shí)，有86.4％的人認(rèn)為它是正面的，而13.6％的人認(rèn)為是負(fù)面的，這是因?yàn)樵u論與正極性詞表的匹配度高于負(fù)面。??

圖8

?

參考文獻(xiàn)：

1.探析大數(shù)據(jù)期刊文章研究熱點(diǎn)

2.618網(wǎng)購數(shù)據(jù)盤點(diǎn)-剁手族在關(guān)注什么

3.r語言文本挖掘tf-idf主題建模，情感分析n-gram建模研究

4.python主題建?？梢暬痩da和t-sne交互式可視化

5.r語言文本挖掘nasa數(shù)據(jù)網(wǎng)絡(luò)分析，tf-idf和主題建模

6.python主題lda建模和t-sne可視化

7.r語言中對文本數(shù)據(jù)進(jìn)行主題模型topic-modeling分析

8.r語言對nasa元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析

9.python爬蟲進(jìn)行web抓取lda主題語義數(shù)據(jù)分析

標(biāo)簽：