【PJSK】Pixiv插圖與小說(shuō)數(shù)量統(tǒng)計(jì)結(jié)果與分析——數(shù)量·共現(xiàn)頻率·非全年齡占比
寫(xiě)在前面
????????入坑PJSK后的第一篇專欄!這篇專欄是在《世界計(jì)劃 彩色舞臺(tái) feat. 初音未來(lái)》登場(chǎng)的主要角色(6位虛擬歌手除外)在Pixiv[1]的插圖數(shù)和小說(shuō)數(shù)的統(tǒng)計(jì)結(jié)果及其分析,統(tǒng)計(jì)范圍包括了5個(gè)樂(lè)隊(duì)的20個(gè)角色。
????????本篇專欄共統(tǒng)計(jì)了三部分內(nèi)容。
第一部分是插圖數(shù)與小說(shuō)數(shù)的統(tǒng)計(jì)。
第二部分,筆者借助Python統(tǒng)計(jì)Pixiv上存在角色共現(xiàn)的插圖與小說(shuō)(例如,既有星乃一歌,又有天馬咲希的插圖有幾張 / 小說(shuō)有幾篇),并據(jù)此嘗試分析了PJSK現(xiàn)在的熱門(mén)CP。
第三部分,筆者呈現(xiàn)了這些角色的非全年齡插圖,和非全年齡小說(shuō)占比。
????????作為統(tǒng)計(jì)向專欄,本篇專欄不包含筆者對(duì)任何角色、CP等的主觀評(píng)價(jià),也不代表筆者對(duì)任何樂(lè)隊(duì)、角色、CP的偏好。數(shù)據(jù)僅為客觀事實(shí)呈現(xiàn),可在一定程度上反映,但不能完全代表角色 / CP人氣高低。

統(tǒng)計(jì)說(shuō)明
????????有角色共現(xiàn)的插圖數(shù)和小說(shuō)數(shù)使用Python統(tǒng)計(jì),Python代碼見(jiàn)文章末尾。這一統(tǒng)計(jì)在2021年8月6日晚25時(shí)(即7日凌晨1時(shí))左右(UTC+8,下同)完成。

????????角色的非全年齡插圖 / 小說(shuō)數(shù)用Python統(tǒng)計(jì)存在技術(shù)上的困難,因此為手動(dòng)統(tǒng)計(jì),與之配套的全部插圖 / 小說(shuō)數(shù)(包括:全年齡 + R-18 + R-18G)也是手動(dòng)統(tǒng)計(jì)的。這一統(tǒng)計(jì)于2021年8月7日晚19時(shí)左右完成。
????????由于不明原因,在相同條件下,用Python統(tǒng)計(jì)得的插圖 / 小說(shuō)數(shù)總是比手動(dòng)統(tǒng)計(jì)得到的要少一些,懇請(qǐng)可能知道原因的讀者通過(guò)評(píng)論區(qū) /?私信與筆者交流。

插圖數(shù)與小說(shuō)數(shù)的統(tǒng)計(jì)
????????角色從上到下排列的順序,是游戲“角色檔案(キャラクタープロフィール)”中呈現(xiàn)樂(lè)隊(duì)和角色的順序。角色名的翻譯以及各樂(lè)隊(duì)的代表色參考了萌娘百科[2]。


分析小結(jié)
????????直接觀察表1,可以知道:
在Pixiv上,有關(guān)“25時(shí),在Nightcord。(25時(shí)、ナイトコードで。)”的成員的作品數(shù)是最多的;
其次是Wonderlands×Showtime(ワンダーランズ×ショウタイム)和Vivid BAD SQUAD;
有關(guān)Leo/need和MORE MORE JUMP!的成員的作品相對(duì)較少。

存在角色共現(xiàn)的插圖與小說(shuō)的統(tǒng)計(jì)
????????從左上到右下的一串有色格子中,是帶該角色tag的作品的數(shù)量。數(shù)值的背景色和數(shù)值大小有關(guān),藍(lán)色表示低,紅色表示高。
????????白色格子中是同時(shí)帶對(duì)應(yīng)兩個(gè)角色tag的作品的數(shù)量。比如表2中第3行第2列,和第2行第3列的“90”,都代表“同時(shí)有星乃一歌和天馬咲希tag的插圖的數(shù)量是90張”。
????????表2是插圖數(shù)統(tǒng)計(jì),表3是小說(shuō)數(shù)統(tǒng)計(jì)。


?

????????接下來(lái)計(jì)算角色之間的共現(xiàn)頻率。共現(xiàn)頻率通過(guò)“A出現(xiàn)在帶B的tag的作品中的頻率”定義。比如表4中第3行第2列中的32%,表示“帶星乃一歌tag的插圖,同時(shí)也有天馬咲希的tag的概率是32%”。
????????表格帶有反映數(shù)值大小的數(shù)據(jù)條。
????????表4是插圖數(shù)統(tǒng)計(jì),表5是小說(shuō)數(shù)統(tǒng)計(jì)。



分析小結(jié)
????????從大體上講,同一隊(duì)成員的共現(xiàn)頻率遠(yuǎn)高于非同隊(duì)成員,有兄弟姐妹關(guān)系的成員(司&咲希、雫&志步、繪名&彰人)的共現(xiàn)頻率稍高于無(wú)兄弟姐妹關(guān)系的成員。
????????在把握大體趨勢(shì)的基礎(chǔ)上,我們就可以從表格中一目了然地“看見(jiàn)”P(pán)JSK的熱門(mén)CP分布情況。對(duì)于隊(duì)內(nèi)CP,格外高的共現(xiàn)頻率值得注意,比如穗波&志步、愛(ài)莉&雫、繪名&瑞希。對(duì)于隊(duì)外CP,注意高共現(xiàn)頻率,比如一歌&奏。

非全年齡插圖和非全年齡小說(shuō)占比統(tǒng)計(jì)
????????久 等 了!
? ? ? ? 在后面兩列中,最高的1個(gè)值標(biāo)紅色,第2~5高的值標(biāo)橙色。最低的1個(gè)值標(biāo)藍(lán)色,第2~5低的值標(biāo)綠色。



Python代碼
? ? ? ? 技術(shù)就是生產(chǎn)力,麻麻再也不用擔(dān)心搞統(tǒng)計(jì)費(fèi)力費(fèi)時(shí)了!
????????不能用瀏覽器訪問(wèn)Pixiv可能導(dǎo)致代碼不能正常運(yùn)行。
????????運(yùn)行該代碼后,在程序所在文件夾將出現(xiàn)一個(gè).xlsx格式的工作表文件,該文件中即有所需數(shù)據(jù)。不過(guò),數(shù)據(jù)都是還沒(méi)有排版過(guò)的版本。

參考資料
[1]pixiv,https://www.pixiv.net/
[2]萌娘百科 萬(wàn)物皆可萌的百科全書(shū),https://zh.moegirl.org.cn/Mainpage
萌娘百科使用協(xié)議CC BY-NC-SA 3.0,協(xié)議原文見(jiàn)https://creativecommons.org/licenses/by-nc-sa/3.0/legalcode。