最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

用Rapidminer做文本挖掘的應(yīng)用:情感分析

2021-04-21 12:55 作者:拓端tecdat  | 我要投稿


?

情感分析或觀點(diǎn)挖掘是文本分析的一種應(yīng)用,用于識(shí)別和提取源數(shù)據(jù)中的主觀信息。

?

情感分析的基本任務(wù)是將文檔,句子或?qū)嶓w特征中表達(dá)的觀點(diǎn)分類為肯定或否定。本教程介紹了Rapidminer中情感分析的用法。此處提供的示例給出了電影列表及其評論,例如“??正面”??或“??負(fù)面”。該程序?qū)崿F(xiàn)了Precision and Recall方法。??精度??是(隨機(jī)選擇的)檢索文檔相關(guān)的概率。?召回??是在搜索中檢索到(隨機(jī)選擇的)相關(guān)文檔的概率。高??召回率??意味著算法返回了大多數(shù)相關(guān)結(jié)果。精度高??表示算法返回的相關(guān)結(jié)果多于不相關(guān)的結(jié)果。

首先,對某部電影進(jìn)行正面和負(fù)面評論。然后,單詞以不同的極性(正負(fù))存儲(chǔ)。矢量單詞表和模型均已創(chuàng)建。然后,將所需的電影列表作為輸入。模型將給定電影列表中的每個(gè)單詞與先前存儲(chǔ)的具有不同極性的單詞進(jìn)行比較。電影評論是根據(jù)極性下出現(xiàn)的大多數(shù)單詞來估算的。例如,當(dāng)查看Django Unchained時(shí),會(huì)將評論與開頭創(chuàng)建的矢量單詞表進(jìn)行比較。最多的單詞屬于正極性。因此結(jié)果是肯定的。負(fù)面結(jié)果也是如此。

進(jìn)行此分析的第一步是從數(shù)據(jù)中處理文檔,即提取電影的正面和負(fù)面評論并將其以不同極性存儲(chǔ)。該模型如圖1所示。

圖1

在“處理文檔”下,單擊右側(cè)的“編輯列表”。在不同的類名稱“ Positive”和“ Negative”下加載肯定和否定評論。

圖2

在Process Document運(yùn)算符下,發(fā)生嵌套操作,例如對單詞進(jìn)行標(biāo)記,過濾停止單詞。

然后使用兩個(gè)運(yùn)算符,例如Store和Validation運(yùn)算符,如圖1所示。Store運(yùn)算符用于將字向量輸出到我們選擇的文件和目錄中。驗(yàn)證算子(交叉驗(yàn)證)是評估統(tǒng)計(jì)模型準(zhǔn)確性和有效性的一種標(biāo)準(zhǔn)方法。我們的數(shù)據(jù)集分為兩個(gè)部分,一個(gè)訓(xùn)練集和一個(gè)測試集。僅在訓(xùn)練集上訓(xùn)練模型,并在測試集上評估模型的準(zhǔn)確性。重復(fù)n次。雙擊驗(yàn)證運(yùn)算符。將有兩個(gè)面板-培訓(xùn)和測試。在“訓(xùn)練”面板下,使用了線性支持向量機(jī)(SVM),這是一種流行的分類器集,因?yàn)樵摵瘮?shù)是所有輸入變量的線性組合。為了測試模型,我們使用“應(yīng)用模型”運(yùn)算符將訓(xùn)練集應(yīng)用于我們的測試集。為了測量模型的準(zhǔn)確性,我們使用“ Performance”運(yùn)算符。

然后運(yùn)行模型。類召回率%和精度%的結(jié)果如圖5所示。模型和向量單詞表存儲(chǔ)在存儲(chǔ)庫中。

圖5

然后從之前存儲(chǔ)的存儲(chǔ)庫中檢索模型和矢量單詞表。然后從檢索單詞列表連接到圖6所示的流程文檔操作符。

然后單擊“流程文檔”運(yùn)算符,然后單擊右側(cè)的編輯列表。這次,我從網(wǎng)站添加了5條電影評論的列表,并將其存儲(chǔ)在目錄中。為類名稱分配未標(biāo)記的名稱,如圖7所示。

Apply Model運(yùn)算符從Retrieve運(yùn)算符中獲取一個(gè)模型,并從Process文檔中獲取未標(biāo)記的數(shù)據(jù)作為輸入,然后將所應(yīng)用的模型輸出到“實(shí)驗(yàn)室”端口,因此將其連接到“ res”(結(jié)果)端口。結(jié)果如下所示。當(dāng)您查看《悲慘世界》時(shí),有86.4%的人認(rèn)為它是正面的,而13.6%的人認(rèn)為是負(fù)面的,這是因?yàn)樵u論與正極性詞表的匹配度高于負(fù)面。??

圖8

?

參考文獻(xiàn):

1.探析大數(shù)據(jù)期刊文章研究熱點(diǎn)

2.618網(wǎng)購數(shù)據(jù)盤點(diǎn)-剁手族在關(guān)注什么

3.r語言文本挖掘tf-idf主題建模,情感分析n-gram建模研究

4.python主題建??梢暬痩da和t-sne交互式可視化

5.r語言文本挖掘nasa數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模

6.python主題lda建模和t-sne可視化

7.r語言中對文本數(shù)據(jù)進(jìn)行主題模型topic-modeling分析

8.r語言對nasa元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析

9.python爬蟲進(jìn)行web抓取lda主題語義數(shù)據(jù)分析


用Rapidminer做文本挖掘的應(yīng)用:情感分析的評論 (共 條)

分享到微博請遵守國家法律
黄骅市| 贵阳市| 双柏县| 阳山县| 泰宁县| 澄迈县| 永年县| 繁昌县| 祁门县| 天台县| 宜兴市| 满洲里市| 周至县| 来安县| 沾益县| 栾城县| 塔河县| 英超| 搜索| 东丽区| 永济市| 克什克腾旗| 天柱县| 类乌齐县| 明星| 公主岭市| 竹北市| 察哈| 台南市| 陇西县| 黔西县| 大渡口区| 保靖县| 顺昌县| 普陀区| 南充市| 武宁县| 安西县| 湘潭市| 突泉县| 蓝田县|