【數(shù)據(jù)分享】維基百科Wiki負(fù)面有害評論(網(wǎng)絡(luò)暴力)文本數(shù)據(jù)多標(biāo)簽分類挖掘可視化
原文鏈接:http://tecdat.cn/?p=8640
原文出處:拓端數(shù)據(jù)部落公眾號
數(shù)據(jù)簡介
討論你關(guān)心的事情可能很困難。網(wǎng)絡(luò)暴力騷擾的威脅意味著許多人停止表達(dá)自己并放棄尋求不同的意見。平臺努力有效地促進(jìn)對話,導(dǎo)致許多社區(qū)限制或完全關(guān)閉用戶評論。
AI團(tuán)隊(duì)正在研究工具,以幫助提高在線評論互動。一個(gè)重點(diǎn)領(lǐng)域是研究負(fù)面的在線行為,如有害評論(即粗魯、不尊重或可能使某人離開討論的評論)。到目前為止,他們已經(jīng)構(gòu)建了一系列可用模型。但是當(dāng)前的模型仍然會出錯(cuò),并且它們不允許用戶選擇他們感興趣的有害評論類型,例如,某些平臺可能可以接受褻瀆,但不能接受其他類型的有害內(nèi)容(查看文末了解數(shù)據(jù)獲取方式)。
數(shù)據(jù)詳情
數(shù)據(jù)格式
csv
字段
id
評論內(nèi)容
有害的
嚴(yán)重有害的
猥褻
威脅
侮辱
身份_仇恨
大小
67191kb
樣本量
159571
數(shù)據(jù)瀏覽
以前8行數(shù)據(jù)為例,我們來預(yù)覽一下:

變量探索:








總體高頻詞

有害的高頻詞

嚴(yán)重有害的高頻詞

猥褻高頻詞

詞云

數(shù)據(jù)獲取
在下面公眾號后臺回復(fù)“有害評論文本數(shù)據(jù)”,可獲取完整數(shù)據(jù)。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容

Python中用PyTorch機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)分類預(yù)測銀行客戶流失模型
左右滑動查看更多
01

02

03

04

點(diǎn)擊標(biāo)題查閱往期內(nèi)容
R語言NLP案例:LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)
自然語言處理NLP:情感分析疫情下的新聞數(shù)據(jù)
R語言自然語言處理(NLP):情感分析新聞文本數(shù)據(jù)
python用于NLP的seq2seq模型實(shí)例:用Keras實(shí)現(xiàn)神經(jīng)機(jī)器翻譯
用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類
適用于NLP自然語言處理的Python:使用FacebookFastText庫
用于NLP的Python:使用Keras進(jìn)行深度學(xué)習(xí)文本生成
用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類
python在Keras中使用LSTM解決序列問題
Python對商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷售量時(shí)間序列建模預(yù)測分析
Python中利用長短期記憶模型LSTM進(jìn)行時(shí)間序列預(yù)測分析 - 預(yù)測電力消耗數(shù)據(jù)
在Python中使用LSTM和PyTorch進(jìn)行時(shí)間序列預(yù)測
欲獲取全文文件,請點(diǎn)擊左下角“閱讀原文”。