某科學(xué)的超電磁炮·番劇·彈幕詞云展示2

本次是接續(xù)上次專欄,在后續(xù)開展的一些研究。
根據(jù)github上的bilibili-api項(xiàng)目,我們可以輕松拿到prorobuf彈幕數(shù)據(jù),具體不再這里展示,感興趣的可以自行前往github搜索。
在第一季超炮中總24集一共獲取到了彈幕數(shù)據(jù)共計(jì)2230528條(223萬(wàn)),相比較用之前的接口獲取的數(shù)據(jù)顯然更多了,占比官方給出的彈幕數(shù)量(1302.9萬(wàn))的比例為17%。在個(gè)人筆記本上面跑的話花了大概半個(gè)小時(shí)到一個(gè)小時(shí)的樣子。在后面數(shù)據(jù)的處理中間我發(fā)現(xiàn)個(gè)人的筆記本帶不動(dòng)這么多的彈幕數(shù)據(jù),做不了詞云了。做數(shù)據(jù)處理(比如分詞、去單字)非常吃電腦的內(nèi)存,等到做詞云的時(shí)候更是一場(chǎng)災(zāi)難。我電腦的內(nèi)存大小為16G,跑數(shù)據(jù)的時(shí)候從任務(wù)管理器還可以看出系統(tǒng)還壓縮了很多的內(nèi)存的數(shù)據(jù)來(lái)騰出空間。因此我打算放棄從這么多的數(shù)據(jù)中做詞云。
但是獲取的數(shù)據(jù)在這里公開給大家。注意,本次數(shù)據(jù)集僅包含彈幕內(nèi)容,不含彈幕發(fā)送者的任何信息。
百度網(wǎng)盤地址如下:
鏈接:https://pan.baidu.com/s/1SNAubqRz2bFby1uRUgf63g?pwd=qh6g?
提取碼:qh6g
數(shù)據(jù)集說明:
第一季、第二季、第三季文件夾內(nèi)的數(shù)據(jù)集是通過xml接口獲取的,也就是上一篇專欄所用的數(shù)據(jù)集,1.2.txt為本次研究中所獲取的彈幕數(shù)據(jù),1.3.txt是通過python的jieba庫(kù)分詞后的字符串?dāng)?shù)據(jù),再往后就做不下去了。