最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

R語(yǔ)言自然語(yǔ)言處理NLP:情感分析上市公司文本信息知識(shí)發(fā)現(xiàn)可視化

2023-03-01 23:18 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=31702

原文出處:拓端數(shù)據(jù)部落公眾號(hào)

情感分析,就是根據(jù)一段文本,分析其表達(dá)情感的技術(shù)。比較簡(jiǎn)單的情感分析,能夠辨別文本內(nèi)容是積極的還是消極的(褒義/貶義);比較復(fù)雜的情感分析,能夠知道這些文字是否流露出恐懼、生氣、狂喜等細(xì)致入微的情感。此外,情感的二元特性還可以表達(dá)為是否含有較大的感情波動(dòng)。也就是說(shuō),狂喜和暴怒都屬于感情波動(dòng),而寵辱不驚則屬于穩(wěn)定的情感狀態(tài)。

研究目的

本文基于R語(yǔ)言的自然語(yǔ)言處理技術(shù),針對(duì)企業(yè)的財(cái)務(wù)信息、產(chǎn)品質(zhì)量等文本信息,幫助客戶(hù)對(duì)企業(yè)和產(chǎn)品進(jìn)行情感分析和情感分類(lèi),并將這些數(shù)據(jù)可視化呈現(xiàn)。本文選擇了A股上市公司相關(guān)數(shù)據(jù),通過(guò)構(gòu)建R語(yǔ)言的文本情感分析模型對(duì)文本情感進(jìn)行分析,并以此為基礎(chǔ)對(duì)企業(yè)進(jìn)行情感分類(lèi)。 ? 附件說(shuō)明:其中基礎(chǔ)詞典是要通過(guò)文本挖掘的結(jié)果擴(kuò)展的詞典了,也是研究的主要目的(分詞的時(shí)候可以用到);

語(yǔ)料庫(kù)資源是要進(jìn)行文本挖掘的數(shù)據(jù)源。

研究的目的就是在文本分析結(jié)果的基礎(chǔ)上擴(kuò)展用戶(hù)詞典,這些需要在文本挖掘的基礎(chǔ)上進(jìn)行擴(kuò)展。其中語(yǔ)料庫(kù)一共是10個(gè)文件,需要的是一個(gè)文件出一個(gè)結(jié)果。最后是要對(duì)比這10個(gè)文件的。還有就是語(yǔ)料庫(kù)是pdf格式。

出現(xiàn)的結(jié)果應(yīng)該是類(lèi)似這種的:

?

中文財(cái)務(wù)關(guān)鍵詞05年06年07年08年負(fù)面詞184107??正面詞4866??不確定詞2219??訴權(quán)詞5731

讀取詞庫(kù)數(shù)據(jù)

Litigious=read.table("Litigious Words.txt") ?Strong=read.table("Modal Words Strong.txt") ?Weak=read.table("Modal Words Weak .txt") ?Positive=read.table("Positive Words.txt") ?Uncertainty=read.table("Uncertainty Words.txt") ?Negative=read.table("Negative Words .txt")

文本清理和分詞

qrxdata=gsub("\n","",qrxdata) ?words= lapply(X=qrxdata, FUN=segmentCN) ;

初始化統(tǒng)計(jì)結(jié)果

x=words ?pwords=positive ?nwords=negative ?Litigious=Litigious ?Strong=Strong ?Weak=Weak ?Uncertainty=Uncertainty ? ? ?npwords=0 ?nnwords=0 ?nLitigious=0 ?nStrong=0 ?nWeak=0 ?nUncertainty=0emotionType <-numeric(0) ? xLen <-length(x) ? emotionType[1:xLen]<- 0 ? index <- 1

詞法分析

詞法分析。它的原理非常簡(jiǎn)單,事前需要定義一個(gè)情感詞典。比如“喜歡”這個(gè)詞我們定義為1分。那么“我喜歡你”這句話(huà),“我”和“你”都是中性詞,均為0分,“喜歡”為1分,這句話(huà)的總分就是1分?!拔蚁矚g你,但討厭他”,這樣一句話(huà)中有“討厭”這個(gè)詞,在情感詞典中分?jǐn)?shù)為“-1”,那么整句話(huà)的得分就是0。這樣,我們就可以對(duì)每一個(gè)文本進(jìn)行分詞,然后使用內(nèi)連接(inner join)來(lái)提取其中的情感詞語(yǔ),并根據(jù)情感詞語(yǔ)的得分,來(lái)評(píng)估這段文本的情感得分。

for(index in 1: xLen){ ? ? x[[index]]=unique(x[[index]]) ? ? yLen <-length(x[[index]]) ? ? index2 <- 1 ?? for(index2 in 1 :yLen){ ? ??? if(length(pwords[pwords==x[[index]][index2]]) >= 1){ ? ????? i=pwords[pwords==x[[index]][index2]] ? ????? npwords=npwords+length(pwords[pwords==x[[index]][index2]]) ? ????? if(length(i)==0)next; ? ????? duanluo=substr(qrxdata[index],regexpr(i,qrxdata[index])[1]-20,regexpr(i,qrxdata[index])[1]+20) ? ????? if(regexpr(i,duanluo)[1]<0 )next; ? ????? cat(studentID,"\t",i," \t","DOC",index,"\t ","pos"," \t",duanluo," \t",length(pwords[pwords==x[[index]][index2]])/length(x[[index]])," \

按年份和詞性分類(lèi)匯總成表格

1=data.frame("正面詞"=npwords,"負(fù)面詞"=nnwords,"不確定詞"=nUncertainty,"訴權(quán)詞"=nLitigious, ? ??????????????? "強(qiáng)語(yǔ)氣詞"=nStrong,"弱語(yǔ)氣詞"=nWeak) ? ? ?=rbind(,1) ? ? ?

ggplot可視化

將每個(gè)文檔的詞性輸出,并按照詞性和年份繪制變化趨勢(shì):


最受歡迎的見(jiàn)解

1.Python主題建模LDA模型、t-SNE 降維聚類(lèi)、詞云可視化文本挖掘新聞組

2.R語(yǔ)言文本挖掘、情感分析和可視化哈利波特小說(shuō)文本數(shù)據(jù)

3.r語(yǔ)言文本挖掘tf-idf主題建模,情感分析n-gram建模研究

4.游記數(shù)據(jù)感知旅游目的地形象

5.疫情下的新聞數(shù)據(jù)觀察

6.python主題lda建模和t-sne可視化

7.r語(yǔ)言中對(duì)文本數(shù)據(jù)進(jìn)行主題模型topic-modeling分析

8.主題模型:數(shù)據(jù)聆聽(tīng)人民網(wǎng)留言板的那些“網(wǎng)事”

9.python爬蟲(chóng)進(jìn)行web抓取lda主題語(yǔ)義數(shù)據(jù)分析


R語(yǔ)言自然語(yǔ)言處理NLP:情感分析上市公司文本信息知識(shí)發(fā)現(xiàn)可視化的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
丹阳市| 富顺县| 农安县| 洞头县| 阳朔县| 孝感市| 论坛| 安顺市| 苍梧县| 博爱县| 同江市| 巴里| 巨野县| 和龙市| 玉树县| 陆丰市| 新沂市| 靖边县| 邵阳县| 珲春市| 柳州市| 聂拉木县| 华安县| 吉木萨尔县| 辽宁省| 大同市| 益阳市| 读书| 鱼台县| 深水埗区| 霍邱县| 黑水县| 肥乡县| 德化县| 沅陵县| 德令哈市| 巴彦县| 万安县| 揭阳市| 辽中县| 象山县|