玩玩數(shù)據(jù)——主成分分析之番劇有多熱?

問題
? ? “火”,指受到關(guān)注。也就是“熱度”。
? ? 如何量化評(píng)價(jià)一部番劇有多“火”?看播放量也許是一個(gè)不錯(cuò)的想法。不過,光靠播放量恐怕還不能說明問題。比如,下面兩部番,哪個(gè)熱度更高?
? ? 番劇A:100萬播放,9萬硬幣,10萬點(diǎn)贊。
? ? 番劇B:95萬播放,10萬硬幣,11萬點(diǎn)贊。
? ? 如果再加入多一些數(shù)據(jù)和變量,很容易就會(huì)變成下面這樣:

?????能考慮到的變量還有很多很多。因此,如何構(gòu)建一個(gè)打分指標(biāo),能夠綜合考慮這些因素,給出較為合適的熱度?

該考慮哪些因素?
? ? B站對(duì)于一般視頻能給出的數(shù)據(jù)如下:
? ? 播放量、彈幕數(shù)、點(diǎn)贊數(shù)、評(píng)論數(shù)、投幣數(shù)、追番數(shù)、評(píng)分人數(shù)、評(píng)分得分、集數(shù)、播出時(shí)間、分享數(shù)、收藏?cái)?shù)。
? ? 由于我們只關(guān)注熱度,也就是受關(guān)注的程度,因此播出時(shí)間、集數(shù)不在考慮之列。我們也不關(guān)注是非常好評(píng)還是差評(píng)如潮,因此不考慮具體評(píng)分得了多少分。
? ? 番劇與一般視頻不同,沒有收藏?cái)?shù),而是以追番數(shù)代替。所以再去掉收藏?cái)?shù)。
? ? 最后,我們留下了8個(gè)指標(biāo):

? ? 我們會(huì)使用主成分分析來完成數(shù)據(jù)的分析解釋。

Run Code!
? ? 數(shù)據(jù)獲取時(shí)間:2021/9/6 1:46~1:50 AM
? ? 按照如下標(biāo)準(zhǔn)選擇2020年新番:
正片,非劇場版
地區(qū)為日本,不計(jì)算同一部番的中配
已完結(jié)
不計(jì)算僅限港澳臺(tái)或其它地區(qū)觀看的番劇數(shù)據(jù)
? ? 最終獲得有效番劇104部。經(jīng)驗(yàn)證所有番劇均能獲得如上8個(gè)變量的數(shù)據(jù)。
? ? 104部番劇中只有7部是非大會(huì)員也可觀看的,所以大會(huì)員限定不是主要影響因素。
? ? 將數(shù)據(jù)導(dǎo)入R中,由于各個(gè)數(shù)值之間量級(jí)差異較大,對(duì)原始數(shù)據(jù)進(jìn)行scale化之后使用princomp()完成主成分分析。

結(jié)果
A. 變量相關(guān)性

????不難看出這8個(gè)指標(biāo)之間具有相當(dāng)嚴(yán)重的共線性問題。不過幸好主成分分析能夠幫助我們重新組合一些非線性相關(guān)的獨(dú)立指標(biāo)。
B. 累積貢獻(xiàn)率

????可以看到第2主成分為止已經(jīng)達(dá)到了89.4%的累計(jì)貢獻(xiàn)率,說明可以用前2個(gè)主成分來近似代表這8個(gè)變量。
C. 變量對(duì)應(yīng)主成分
? ? 根據(jù)載荷矩陣,畫出各變量在這2個(gè)主成分上的載荷圖:


? ??
? ? 在第1主成分軸上,所有變量都處于正軸,并且對(duì)該主成分的貢獻(xiàn)是基本相同的。因此,這一軸可以理解成番劇的“綜合互動(dòng)度”,反映一部番是否有足夠魅力讓人愿意進(jìn)行接觸了解。可以說這基本上就是我們要求的熱度。
? ? 第2主成分軸上,有主要正面影響的是點(diǎn)贊和觀看,負(fù)面影響的是打分和評(píng)論。點(diǎn)贊和觀看屬于“淺交互”,也就是不需要怎么動(dòng)腦,瞬間就可以完成的交互任務(wù),而評(píng)分和回復(fù)基本是需要對(duì)番劇有一定了解之后才能進(jìn)行的“深交互”。因此,這個(gè)軸上的數(shù)值越正,表明這部番的受眾越傾向于蜻蜓點(diǎn)水了解一下這部番劇,反之,越負(fù)則表明受眾越傾向于仔細(xì)品味它。換句話說,也就是所謂的“有效交互”,類比于(播放量+點(diǎn)贊數(shù))/(打分+評(píng)論數(shù)),數(shù)值越低表示用戶交互度越深。?
D.樣本映射
? ? 將原來的8維變量壓縮到2維后,各個(gè)番劇在新的二維平面上的分布如下:

? ?整體來看,這幅圖很像火山圖(Volcano Plot) 。絕大部分番劇集中在原點(diǎn)附近(卑微.jpg),少部分有自己的特色(“火”度高或者受眾交互有特點(diǎn),不過基本上這兩者要么同時(shí)有,要么都沒有)
????《咒術(shù)回戰(zhàn)》作為2020年B霸,自然是一騎絕塵,甚至成了離群點(diǎn)。但是,我們也發(fā)現(xiàn),它在第2主成分軸上明顯處于正向,說明它的觀眾基本是以淺交互為主。對(duì)比原始數(shù)據(jù):

? ? 《咒術(shù)回戰(zhàn)》的播放量是《某科學(xué)的超電磁炮T》(超炮T)的3.5倍,點(diǎn)贊量更是接近6倍,但是評(píng)論數(shù)被超炮T碾壓,評(píng)分人數(shù)也對(duì)不起播放和點(diǎn)贊的倍數(shù)比。
? ? 把《咒術(shù)回戰(zhàn)》從圖上去掉,重新調(diào)整坐標(biāo)軸范圍之后,新的圖如下:

? ? 對(duì)比下面的原始數(shù)據(jù),《因?yàn)樘峦淳腿c(diǎn)防御力了?!罚ǘ苣铮╇m然播放量是第2(1.97億),但是相對(duì)于《輝夜大小姐》等播放量上較為遜色的番劇,其他各項(xiàng)互動(dòng)指標(biāo)大都遠(yuǎn)遠(yuǎn)落后,因此綜合實(shí)力被嚴(yán)重削弱了(我個(gè)人還挺喜歡這部的233)。這也從側(cè)面表明,不能完全依賴播放量決定一部番劇的“火”度。


打分!
? ?是時(shí)候回到最初的問題了。如何構(gòu)建這樣一個(gè)反映綜合熱度的函數(shù)呢?
? ? 我參考了下面的例子:
? ? https://blog.csdn.net/qq_32925031/article/details/88562141
? ?計(jì)算過程大致如下:

? ? 一番折騰之后,終于計(jì)算出了原來各個(gè)變量在“綜合熱度”中的權(quán)重。將標(biāo)準(zhǔn)化的數(shù)據(jù)代入,得到新的綜合排名:

????Horray! 這個(gè)專欄只是玩玩數(shù)據(jù),番劇的評(píng)價(jià)因人而異,祝大家追番愉快~
