一些基于B站的用戶數(shù)據(jù)統(tǒng)計的工具網(wǎng)站合集(不完全)
(封面為LAPLACE花園(laplace.live)主界面)
本文收集了我所知的一些基于B站平臺的工具性網(wǎng)站,主要是關于用戶、主播的數(shù)據(jù)匯總及分析方面的。和“新站”等較為正式的專業(yè)網(wǎng)站不同,本文中出現(xiàn)的網(wǎng)站大部分為用戶自制,主要有兩個方面的功能:一是直播相關數(shù)據(jù)的查詢,包括直播營收、彈幕列表等,主要針對主播;第二是針對普通用戶的,包括直播入場、發(fā)言記錄查詢,以及查評論等。后者有時會被稱為“查成分”。雖然事實上這些網(wǎng)站收集的都是公開數(shù)據(jù),但往往是通過爬蟲、訪問特定API(“內部接口”)等可能略顯“灰色”的手段實現(xiàn)的,因此也時常會遇到服務不穩(wěn)定的問題(主要是技術性問題),甚至可能會收到B站的律師函(被叔叔的鐵拳砸了),從而永久停止服務。
當然,此類網(wǎng)站有很多,筆者時間和經(jīng)歷都有限,無法做到全知全能,因此肯定會有所遺漏。若您知道任何其他的類似網(wǎng)站值得推薦,歡迎補充。在網(wǎng)站的介紹中,關于工作原理的解釋,除了來自網(wǎng)站作者之外,還有一些補充內容是我自己測試或推測出來的,因此可能存在不準確之處。若您知道更準確或更嚴謹?shù)谋硎?,請向我指出,謝謝!
(在正文之前,還得說明一下我對于“查成分”這一行為的態(tài)度。一般來說,在正常的、不太激烈的對話中,很少會產(chǎn)生查成分的必要,畢竟查成分也需要花費相應的時間和精力,還未必有結果。只有在“非正常情況”下,比如出現(xiàn)了激烈的爭論,或者一些不同尋常的(逆天)發(fā)言時,查成分才成為必要。而直接通過B站主頁查動態(tài)、關注、點贊或收藏記錄的行為都是被默認合理的,因為這些都是用戶自愿公開的信息,如果不想自己的主頁被人翻查,也可以選擇隱藏。但評論和彈幕則不然,B站自帶的功能并沒有將其與用戶雙向關聯(lián)的功能。用戶在評論后其他人可以借此進入其主頁,但反過來不行,不能從其主頁獲取其發(fā)表的其他評論,除非該用戶自己轉發(fā)了自己的評論。而彈幕幾乎是匿名的(前臺匿名,后臺實名),若要獲取用戶在某次直播中發(fā)送的彈幕,要么在直播間實時盯著彈幕列表,要么在直播結束后從B站官方提供的直播回放(不一定有)彈幕列表中逐個尋找,無論哪一種都需要花費巨量精力。這是直播的彈幕,普通視頻的彈幕則更加無法搜尋。因此相較于實名評論來說,發(fā)彈幕的顧慮更少,也更為自由。
查成分網(wǎng)站的出現(xiàn)打破了這一局面。以查彈幕的相關網(wǎng)站為例,此類網(wǎng)站匯總了用戶所有的直播間入場觀看記錄和彈幕記錄,從而極大地降低了查彈幕的時間成本。然而,查成分的便捷化給網(wǎng)絡空間的言論自由帶來的卻往往不是正面的作用。如前文所說,彈幕的發(fā)言顯得較為自由是建立在彈幕難以被追查的基礎上的,查彈幕網(wǎng)站帶來的改變破壞了這一前提,也使有意發(fā)彈幕者(實際上是所有人)不得不在發(fā)言前考慮發(fā)言可能帶來的后果,比如被查成分甚至貼標簽等等。這一潛在成本的提高必然會對相當一部分人造成阻嚇作用,使更多的人選擇沉默。因此,無論是從個體角度出發(fā)的言論自由,還是從平臺角度出發(fā)的輿論環(huán)境(注:然而也有一些平臺從一開始就不打算讓所有人都能說話(至少是讓大多數(shù)人能說話),比如微信自2018年2月之后新創(chuàng)立的公眾號就沒有評論留言功能,這種平臺對輿論環(huán)境的構想是一個中心化的、自上而下單向的信息傳達工具,而不是一個公開討論的場所,因此不在此處討論范圍之內),查成分都可能會造成潛在危害,必須謹慎使用。
就個人而言,我傾向于“不首先使用查成分”,僅將查成分作為一種自衛(wèi)或保衛(wèi)他人的防御手段,而不是進攻手段。當然個人的偏好并不能構成普遍的原則,但如何更好地利用查成分等技術促進而不是抑制公共討論,則是所有參與構成輿論的人都應該思考的。)
?
主播/UP主向:
1. 06數(shù)據(jù)觀測站?(zeroroku.com)
作者:Jannchie見齊(B站:https://space.bilibili.com/1850091)
主要功能:粉絲數(shù)及變動、直播營收等數(shù)據(jù)統(tǒng)計
使用方法非常簡單,輸入UP主的用戶名就可以進行查詢。查詢界面如下,可以查到UP主的粉絲數(shù)和直播營收。



已知問題:需要注意的是,粉絲數(shù)基本上在2022年之后才有較為齊全的數(shù)據(jù)(下文介紹的其他網(wǎng)站也有類似現(xiàn)象),往往也并不是每天都會進行抓取,尤其是對于粉絲數(shù)不太多且變動不大的中小UP主來說,往往一個月只有幾天的數(shù)據(jù)(目前仍然如此)。至于占大多數(shù)的、粉絲較少的“底邊”UP主,則并沒有被收錄進去,需要向站方手動添加。相反,直播營收數(shù)據(jù)卻相對齊全。另外,06觀測站統(tǒng)計的直播營收是當天24小時內的營收,而不僅限于直播時段,這與下文的其他網(wǎng)站不同。
更新:應該是在今年5月底至6月之間,網(wǎng)站進行了一次比較大的改版,新的查詢界面移除了粉絲數(shù)和直播營收的歷史折線/柱狀圖,只顯示最近幾次抓取的結果。根據(jù)網(wǎng)站管理者的說法,新界面的UP主歷史數(shù)據(jù)仍在制作中,日后將會推出。(7月20日更新:已恢復。)
(另外,網(wǎng)站作者見齊老師在GitHub上面也有一套很好的數(shù)據(jù)可視化模板(https://github.com/Jannchie/anichart.js),我個人非常喜歡的一位做數(shù)據(jù)可視化的UP主Azusa-Hau就有很多作品用了他的模板。)
?
2. 直播字幕庫?(zimu.bili.studio)
作者:恬豆_千鳥official(B站:https://space.bilibili.com/95111328)
主要功能:(未刪減的)直播回放、原裝彈幕及識別的字幕,其中字幕可以搜索及定位;同時有切片功能



從收錄的主播列表可以看到,主要是虛擬主播相關。因為視頻是直接通過B站獲取,在保留了原版彈幕的同時,也提供了完全沒有刪減的直播回放備份(部分歷史數(shù)據(jù)仍在整理中)。這極大地方便了查證考據(jù)工作。相比之下,無論是主播自己還是錄播組的錄播,都有可能存在刪減的行為。舉個例子,虛擬主播團體A-SOUL兩年多的錄播中,無論是“賬號已注銷499455”(原名“賈布加布”)還是現(xiàn)任“A-SOUL二創(chuàng)計畫”的錄播,都不時會有一些片段(出于輿論影響考量?)被刪去。字幕庫的錄播為此提供了一個安全的備份。
不過更重要的是字幕庫的字幕查詢功能。網(wǎng)站的字幕庫是自動識別直播內容生成,想要查找某位主播哪一天在直播中說過什么話,只需要在搜索欄輸入關鍵詞查詢即可,如圖。查找的結果可以精確到秒,并有相應的直播回放以供定位。同時,字幕庫亦有“模糊搜索”功能,可以一并顯示同音字的結果,以最大限度避免語音自動識別中產(chǎn)生的錯誤。


除此以外,網(wǎng)站還有錄播切片的功能。目前,網(wǎng)站已經(jīng)收錄了A-SOUL、VR、EOE、四禧丸子、明前奶綠、絆愛等主播/團體的直播,并仍在不斷擴充中。
?
3. 奶綠live?(stats.nailv.live)
作者匿名
主要功能:直播數(shù)據(jù)查詢,包括營收、觀眾人數(shù)、彈幕數(shù)量等。

具體來說,可分為兩種:
(1)累計數(shù)據(jù)。在索引-主播主頁-總覽中,可以看到任意時間段內相應直播數(shù)據(jù)的總和以及變動曲線,包括營收、彈幕數(shù)、(活躍)觀眾數(shù)等等,以及粉絲和艦團(大航海)人數(shù)的變化。這里“觀眾數(shù)”指的是所有觀看(入場)的人數(shù),而“活躍觀眾”指彈幕發(fā)言或付費的用戶。




(2)單場直播的詳細數(shù)據(jù),即直播過程中,不同時間區(qū)間內(比如,每5分鐘/10分鐘,等等)彈幕、活躍用戶和營收數(shù)據(jù)(分為艦團、SC和禮物三種)的變化曲線,但并未如下文彈幕庫一樣收錄彈幕和SC的詳細內容。



除此之外,對好勝心較強(喜歡“踩頭”)的朋友來說,網(wǎng)站還可以用來進行“斗蟲”,即比較不同主播特定時間段內,或者同一主播在不同時期的各項直播數(shù)據(jù)。
已知問題:網(wǎng)站的直播彈幕、營收等數(shù)據(jù)來自彈幕庫,粉絲和艦團數(shù)則來自06觀測站(注:奶綠live的作者疑似將域名打錯了,筆者推測應該指的是06觀測站),因此這兩個網(wǎng)站存在的問題也會體現(xiàn)在奶綠live上面。關于收錄的主播,奶綠live和彈幕庫大致相同,數(shù)據(jù)比手動收錄的06觀測站更全。但06未收錄主播的粉絲和艦團數(shù)據(jù),奶綠live自然也沒有。

?
4. Matsuri ICU?(matsuri.icu)
作者:brainbush(GitHub/TG同名)
主要功能:直播彈幕列表及關鍵詞統(tǒng)計




與前述網(wǎng)站不同,在Matsuri ICU可以查詢每場直播具體的彈幕列表。原理大致是,網(wǎng)站通過API獲取直播彈幕列表,并將其返回的用戶UID與其用戶名匹配。除此之外,網(wǎng)站還統(tǒng)計了彈幕熱門關鍵詞在直播不同時段的出現(xiàn)頻率,并以折線圖的方式呈現(xiàn)。收錄的主播主要是虛擬區(qū),但也可手動添加。
不過使用API爬彈幕列表也相應存在一些問題,比如流量過大時會發(fā)生遺漏,這在下文彈幕庫的部分有更詳細的說明。

?
用戶向:
5. 彈幕庫DANMAKUS?(danmakus.com)
作者匿名
主要功能:直播間數(shù)據(jù)及彈幕列表查詢、用戶觀看直播(入場記錄)及所發(fā)彈幕記錄查詢
彈幕庫是一個功能相當齊全的網(wǎng)站。顧名思義,可以用來查彈幕,但并不僅僅如此。事實上,這一網(wǎng)站的功能既有主播視角的,也有用戶視角的,只不過因為查用戶入場和彈幕的功能更常用,才被放到了“用戶向”這里。但主播向的功能也值得特別介紹。





一般較常使用的是“直播間”和“查詢”兩個功能。在“直播間”一欄中,可以查詢網(wǎng)站收錄主播的直播數(shù)據(jù),包括開播記錄、營收、直播間彈幕記錄等等。(營收是通過統(tǒng)計彈幕列表中的付費記錄得出的,本質上還是彈幕的一部分。)按照網(wǎng)站作者的說法,彈幕庫收集的主播為手動收入,如果有未收錄的主播,需要手動添加。但經(jīng)筆者測試,筆者所了解的所有開播過的用戶,無論體量大小,彈幕庫均有收錄。
雖然同樣是使用直播監(jiān)測的相關接口,但與上文提到僅統(tǒng)計總和數(shù)據(jù)的06觀測站和奶綠live不同,通過彈幕庫可以查詢每場直播的完整彈幕列表,其中包含了用戶ID(昵稱)及其所發(fā)彈幕、付費等記錄,還設有關鍵詞搜索,功能相當完備(原理:接口在返回彈幕數(shù)據(jù)時會附帶發(fā)送者的UID,將其與對應用戶名匹配即可)。同時,和Matsuri ICU一樣,也可以查到每次直播過程中彈幕、互動、收益等等的折線圖。


更為熟知的是“查詢”功能,也就是查用戶彈幕的功能。該功能可以查詢任何用戶自2020年至今的直播入場、彈幕、付費等記錄。這也就是一般語境下的“查成分”。值得一提的是,已注銷用戶(如果知道其UID的話)也是可以查詢的。同時,因為上面提到的彈幕與用戶名匹配的機制是即時的,也可以查詢到每個用戶在不同時間進入不同直播間時的用戶名,也就是其曾用名(歷史ID)。
除此之外,甚至還可以追蹤用戶的登錄(“上號”)記錄。其中的原理有兩種。用戶在每天初次登錄時,會獲得一個硬幣,若彈幕庫所記錄的硬幣數(shù)發(fā)生變化,則代表該用戶在這一天上過號。不過該途徑只適用于不投幣(或投很多幣)的用戶,如果用戶每天恰好投一個幣,這種方法就不適用了。不過,給視頻投幣本身會提升用戶的經(jīng)驗值,因此也可以通過對比用戶前后的經(jīng)驗值變化來判斷用戶有無登錄。但這種方法不適用于已滿六級、經(jīng)驗值達到28800的用戶。這兩種途徑時常需要配合使用,而且需要長時間持續(xù)追蹤用戶的情況。當然,對于持續(xù)有創(chuàng)作內容產(chǎn)出的用戶(UP主)來說,這兩種方法均不適用,因為投稿可以隨時獲得硬幣,而這會同時轉化為自己的硬幣和經(jīng)驗。
已知問題:
有幾點需要注意:
第一,和前述網(wǎng)站一樣,彈幕庫也存在早期的數(shù)據(jù)不完整的情況,這主要體現(xiàn)在一些直播間數(shù)據(jù)記錄存在空缺時段(可能是監(jiān)測API掉線所致)。因此若想通過彈幕庫的數(shù)據(jù)統(tǒng)計主播的營收等信息,需要注意此問題。
第二,用戶的直播入場記錄也時有缺漏,這更多是由于B站自己的彈幕機制。我們知道,進入直播間時,入場記錄會呈現(xiàn)于彈幕列表的最下方,也可以看到其他用戶的入場記錄。但與普通彈幕不同,入場記錄每秒只能顯示兩條(筆者記憶中如此,可能不準確),而且會有優(yōu)先級,粉絲牌等級高的用戶會優(yōu)先顯示。因此,對于人流量很大的直播間來說,有相當一部分入場記錄會被遺漏。至于普通彈幕,受此影響似乎較小,但或許也并不能忽視。(注:筆者懷疑,直播間的“等級墻”,即對粉絲牌特定等級以下的用戶進行禁言,對此也有影響。但目前我所知的開等級墻的直播間流量都較大,無法準確判斷到底是哪個原因引起的。)
第三,關于曾用名。因為該功能是通過收集匯總用戶的直播入場及彈幕記錄實現(xiàn)的,因此,如果用戶在使用某個用戶名期間沒有進入任何直播間(包括其自己的直播間),或者所有入場記錄均未被記錄,則該曾用名也不會被包括在內。和第二點一樣,這屬于機制問題,現(xiàn)在仍然如此。
更新:查公會。大約在5-6月時,彈幕庫更新了查詢主播/UP主所屬直播公會的功能,在“直播間”和“查詢”兩個界面均可以看到,也會在主播自己的界面顯示。公會的數(shù)據(jù)來自GitHub用戶tiebarandomuser的vtuberguildqueue數(shù)據(jù)庫。
(注:Matsuri ICU和彈幕庫使用的是不同的API,因此統(tǒng)計的彈幕數(shù)(以及由此衍生的總營收、觀看人數(shù)和活躍用戶數(shù)量)均可能產(chǎn)生差異。對于流量很大的直播間(每分鐘彈幕100條以上),兩者的數(shù)據(jù)會存在差異,雖然一般處于可忽略的范圍(5%)內。對其他流量不太大的直播間而言,兩者的數(shù)據(jù)一般是一致的。以上是我的觀察總結,不一定準確,僅供參考。)
?
6. LAPLACE花園 (laplace.live)
作者匿名
顧名思義,是明前奶綠的粉絲制作的網(wǎng)站,主要功能和使用方法都與彈幕庫類似。事實上網(wǎng)站的數(shù)據(jù)正是獲取自彈幕庫,是一樣的數(shù)據(jù)。彈幕庫有的功能和問題,LAPLACE花園基本也都有。




可查詢的統(tǒng)計數(shù)據(jù)分為“主播視角”和“用戶視角”兩個方向,分別對應彈幕庫的“直播間”查詢和(用戶數(shù)據(jù))“查詢”功能。其中,用戶視角的查詢需要在鏈接地址中輸入目標用戶UID(即laplace.live/user后加用戶UID)。
?
7. AICU?(aicu.buzz;站方在B站的官號:Aicu_Official)
作者:神他媽天才(B站:https://space.bilibili.com/28684095;TG群組:https://t.me/aicu_buzz)
主要功能:動態(tài)評論及點贊查詢

AICU的定位是與虛擬主播團體A-SOUL相關的評論查詢。原理也很簡單,就是爬取所有相關用戶動態(tài)和視頻的評論和點贊記錄。根據(jù)查詢目標的不同,此處的“相關用戶”范圍也不同。比如“查評論”功能的范圍是所有給A-SOUL(幾個官號的動態(tài)或視頻)點贊過的用戶所發(fā)表的所有動態(tài),任何其他用戶給TA們動態(tài)下留的評論記錄都可以搜索出來。(注:視頻發(fā)布時會自動生成一條動態(tài),視頻的評論和點贊會同步顯示為該動態(tài)的評論/點贊,而專欄文章則不會。)
“查點贊”功能可以查詢目標用戶給所有帶有A-SOUL及成員相關TAG的點贊記錄(因為動態(tài)帶TAG的較少,此處大多為視頻,若為聯(lián)合投稿則重復計算。但經(jīng)筆者測試,數(shù)據(jù)似乎并不完整。)
除此以外,在網(wǎng)站的VTB一欄下,還可以查到目標用戶在所有收錄的虛擬主播(即收錄于vtbs.moe的虛擬主播,目前共有7000多個)動態(tài)下的評論,而不僅限于A-SOUL相關動態(tài)。
需要注意的是,即使是從未涉足虛擬圈子的用戶,只要在給A-SOUL點贊過的用戶的視頻或動態(tài)下方評論,就都可以被查到。這使得AICU的功能不再僅限于虛擬圈子內部“查成分”之用,而可以近似地將其視作一個普遍適用的查評論網(wǎng)站。
更新:根據(jù)作者7.11動態(tài)(https://bilibili.com/817073599147933701),7月初B站TAG的搜索機制發(fā)生了變更,從搜索欄中不能再直接搜索到用戶在動態(tài)中加的TAG(注:類似的“TAG”有兩種,一種是“話題”,另一種是用戶自己使用#號加入的標簽,此處指后者)。這似乎意味著網(wǎng)站無法再收集帶相關TAG的動態(tài),不過具體情況仍有待后續(xù)觀察。
已知問題:相較于查直播彈幕的網(wǎng)站來說,似乎爬評論區(qū)的網(wǎng)站更不穩(wěn)定。據(jù)筆者所知,在AICU之前,至少曾經(jīng)有兩個網(wǎng)站提供過類似的查詢功能,分別是另一個也叫“彈幕庫”的網(wǎng)站(danmaku.suki.club),以及VICU (vicu.online)。但兩個網(wǎng)站最終都因為收到了B站(上海寬娛公司)的律師函而不得不停止運作。事實上,據(jù)AICU網(wǎng)站的作者所說,網(wǎng)站本身的定位就是VICU的上位替代品,擁有更全面的數(shù)據(jù)。但有了前車之鑒,網(wǎng)站能存活多長時間,仍是未知數(shù)。