某科學(xué)的超電磁炮·番劇·彈幕詞云展示

????調(diào)用的接口是https://comment.bilibili.com/{cid}.xml
參考資料:
主要參考:https://blog.csdn.net/weixin_52308100/article/details/118685287
其他參考:
來(lái)自知乎:https://zhuanlan.zhihu.com/p/392931611
來(lái)自CSDN:https://blog.csdn.net/qq_39870538/article/details/124352010
來(lái)自Github:
https://github.com/SocialSisterYi/bilibili-API-collect/blob/master/docs/danmaku/danmaku_proto.md
https://github.com/SocialSisterYi/bilibili-API-collect/blob/bb437d2012e6291b38c78d42755db9d836d4975f/grpc_api/bilibili/community/service/dm/v1/dm.proto
話不多說(shuō),上結(jié)果



效果確實(shí)可以。在制作過(guò)程中對(duì)硬件的要求不高,普通的筆記本都可以做。
我主要參考的是第一篇csdn的代碼,但是對(duì)DataCollation模塊進(jìn)行了重寫,jieba庫(kù)調(diào)用方法改為lcut_for_search,重寫后結(jié)果如下:
path為之前爬取的彈幕數(shù)據(jù)所在地址,是一個(gè)列表,里面含有幾千個(gè)彈幕字符串
然后寫了一個(gè)去除單個(gè)漢字的函數(shù):
如果不去除單個(gè)漢字,那么結(jié)果會(huì)變成這樣

可以看到‘是’,‘了’,‘的’屬于高頻漢字,而且jieba在分詞的時(shí)候也會(huì)把它們單獨(dú)分出來(lái)。
順便再說(shuō)一句,沒(méi)有大會(huì)員的前提下第三季的彈幕確實(shí)能爬到,但是會(huì)比較慢,而且有一定概率會(huì)報(bào)錯(cuò)‘不能建立新的鏈接’.
對(duì)于接口
https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=2&oid=745913430&date=2016-02-24
確實(shí)難做,因?yàn)檫€需要對(duì)彈幕文件進(jìn)行protobuf解析,挺麻煩的。
對(duì)于接口(我現(xiàn)在用的這個(gè))
https://comment.bilibili.com/{cid}.xml
對(duì)于彈幕是爬不滿的,只能爬到一部分。三個(gè)季度下來(lái)只能通過(guò)這個(gè)接口爬取到約1.125%的彈幕,大概24萬(wàn)條。
本人超喜歡炮姐的~