基于B站知識區(qū)的視頻瀏覽量影響因素分析
摘要
自疫情時代開始,線上教育產(chǎn)業(yè)受阻,大量用戶由于各種現(xiàn)實因素開始更加頻繁的通過平臺搜索所需要的視頻。如何制作優(yōu)質(zhì)且被觀眾喜愛的視頻,已經(jīng)成為視頻增加熱度與關(guān)注、提高視頻平臺流量、增加視頻制作者收入的關(guān)鍵。
本文將基于目前B站視頻平臺的三位知識區(qū)UP主的視頻信息,在進行數(shù)據(jù)清洗與構(gòu)建衍生變量之后建立LDA模型與多元線性回歸模型,探討影響視頻瀏覽量的影響因素,并將衍生變量與個別原始變量作為自變量,瀏覽量作為因變量進行預(yù)測并探究其影響,基于建模結(jié)果發(fā)現(xiàn)觀眾反饋、視頻長短、視頻風格對知識類視頻的瀏覽量具有顯著的影響力。
本文的工作成果能為各大視頻平臺相應(yīng)的理論基礎(chǔ),以及對于視頻制作者如何提升瀏覽量作為參考;對各大視頻平臺如何增加流量、合理規(guī)劃計劃提出建議。
關(guān)鍵詞:視頻瀏覽量;LDA模型;多元線性回歸模型

目錄
1緒論
1.1研究背景與意義
1.1.1研究背景
1.1.2研究意義
1.2國內(nèi)外文獻綜述
1.2.1國外視頻瀏覽量影響因素相關(guān)研究
1.2.2國外評論文本分析相關(guān)研究
1.2.3國內(nèi)視頻瀏覽量影響因素相關(guān)研究
1.2.4國內(nèi)評論文本分析相關(guān)研究
1.2.5小結(jié)
1.3研究內(nèi)容與方法
1.3.1研究內(nèi)容
1.3.2研究方法
1.4研究創(chuàng)新與不足
1.4.1研究創(chuàng)新
1.4.2研究不足
2相關(guān)理論與模型介紹
2.1評論文本分析方法
2.1.1情感分析理論與模型介紹
2.1.2 LDA主題模型和模型介紹
2.2多元線性回歸預(yù)測模型
3數(shù)據(jù)處理?
3.1數(shù)據(jù)采集
3.1.1數(shù)據(jù)來源與說明?
3.2數(shù)據(jù)清洗?
3.2.1異常值識別與處理?
4構(gòu)建指標與描述性分析?
4.1指標構(gòu)建?
4.1.1生成情感得分?
4.1.2生成主題?
4.1.3生成其他衍生變量?
4.1.4指標構(gòu)建工作小結(jié)?
4.2描述性分析?
4.2.1基本信息?
4.2.2影響因素?
4.2.3視頻內(nèi)容?
5瀏覽量預(yù)測模型?
5.1多元線性回歸模型建立與檢驗?
5.1.1建立多元線性回歸模型?
5.2模型解讀與應(yīng)用?
5.2.1模型解讀?
5.2.2模型應(yīng)用?
6總結(jié)、建議與展望?
6.1主要總結(jié)?
6.2主要建議?
6.3研究展望?
參考文獻 30

1? 緒論
1.1? 研究背景與意義?
1.1.1? 研究背景?
在中國互聯(lián)網(wǎng)崛起近30年的今天,數(shù)字經(jīng)濟發(fā)展迅速,幾乎已經(jīng)滲透到了每個人的日常生活。據(jù)華經(jīng)產(chǎn)業(yè)研究院的數(shù)據(jù),2020年在各行業(yè)普遍衰退的大環(huán)境下,數(shù)字經(jīng)濟產(chǎn)業(yè)仍穩(wěn)定增長9.5%[1]。在線文娛產(chǎn)業(yè)作為數(shù)字經(jīng)濟的一個重要組成部分,借助不斷涌現(xiàn)的在線內(nèi)容展現(xiàn)新形式也迎來了大發(fā)展,產(chǎn)生了抖音、喜馬拉雅、B站等一系列受眾面廣、影響力大的品牌。這些品牌多以娛樂內(nèi)容起家,但隨著行業(yè)競爭的加劇以及用戶需求的發(fā)展,也逐漸開始進入了知識傳播的領(lǐng)域[2]。
在線文娛品牌向知識傳播領(lǐng)域的集體擴張為知識內(nèi)容的呈現(xiàn)與傳播提供了更加豐富和有效的形式。在此之前,互聯(lián)網(wǎng)上也存在很多知識類的內(nèi)容,但是一般形式較為單一,內(nèi)容也不夠系統(tǒng)。在線文娛品牌加入后,不但知識內(nèi)容的呈現(xiàn)形式變得更加豐富,制作知識類內(nèi)容的內(nèi)容生產(chǎn)者也有機會更加系統(tǒng)地呈現(xiàn)內(nèi)容,并且有機會借助平臺的推廣內(nèi)容擴大自身的影響力[3]。這帶動了更多有能力生產(chǎn)知識內(nèi)容的人進入行業(yè),內(nèi)容生產(chǎn)者數(shù)量的增多一方面促進了內(nèi)容的豐富,另一方面也加劇了生產(chǎn)者的競爭、內(nèi)容平臺與用戶選擇內(nèi)容的難度。
以B站為例,B站于2009年6月26日創(chuàng)立,最初B站的視頻僅僅圍繞著“二次元”這一主題,但由于知識領(lǐng)域的快速傳播擴張,知識類視頻開始慢慢出現(xiàn)在B站,但還未出現(xiàn)一個系統(tǒng)的分區(qū)。直到2016年,紀錄片《我在故宮修文物》橫空出世,僅憑借三集便達成了千萬播放的成就,至此之后,知識類視頻的產(chǎn)出開始變得繁榮起來。而借著這股東風,B站于2020年6月創(chuàng)立了知識分區(qū),但B站當時的主流還是圍繞著游戲與動漫發(fā)展,直到UP主“羅翔說刑法”的入駐才悄然改變。UP主“羅翔說刑法”于2020年3月9日入駐B站,僅僅耗費7個月,粉絲便超過了B站游戲一哥--老番茄7年的努力,成為B站史上粉絲量最高的UP主。這也意味著B站知識區(qū)在未來會發(fā)展的更加繁榮。
B站知識區(qū)發(fā)展快速,迄今為止在各UP主的努力下已經(jīng)制作出非常多的優(yōu)質(zhì)視頻,本文將對知識區(qū)法律領(lǐng)域的UP主進行分析,首先選取三位在知識區(qū)法律領(lǐng)域具有代表性的UP主,爬取其自身信息與視頻信息,之后對數(shù)據(jù)進行清洗與構(gòu)建衍生指標作為本文分析研究的最終數(shù)據(jù)。其次對數(shù)據(jù)進行建模,構(gòu)建多元線性回歸預(yù)測瀏覽量,并研究各變量與瀏覽量之間的影響因素,探究其中存在的內(nèi)在關(guān)系[4]。
1.1.2? 研究意義
本文的研究能夠為知識類UP主,尤其是個人賬號的內(nèi)容制作和運營提供參考。以及對視頻平臺對UP主的活動方案提供方案。
在線文娛的發(fā)展,為社會提供了更多自媒體職業(yè)的崗位,但是自媒體崗位中,占據(jù)著大部分的確是自由人,即沒有公司運營的個人賬號。在沒有公司幫助的情況下,個人想憑借視頻獲得大量粉絲很不現(xiàn)實[5]。所以本文將對知識區(qū)的視頻進行分析建模,探究知識區(qū)UP主增長瀏覽量的方式方法,為UP主的賬號運營提出合理的建議,幫助UP主更好地把握市場需求與競爭情況,清楚創(chuàng)作內(nèi)容與創(chuàng)作風格,視頻時間、產(chǎn)出頻率等[6]。
本文不止對UP主的賬號給出方式方法,并且對視頻平臺的也存在意義[7]。當UP主瀏覽量增加后,視頻平臺可根據(jù)UP主的漲粉速度、瀏覽量趨勢制定活動或激勵等,將資源傾斜于一些新星UP主。可以根據(jù)新興UP主的視頻風格、漲粉手段當做工具制定計劃,并且提升整體的視頻水平,提升用戶體驗[8]。
1.2? 國內(nèi)外文獻綜述
本部分將從國內(nèi)外視頻瀏覽量影響因素相關(guān)研究、國內(nèi)外評論文本分析相關(guān)研究、文獻綜述三個角度對相關(guān)文獻進行總結(jié)。
1.2.1? 國外視頻瀏覽量影響因素相關(guān)研究
國外的視頻平臺中,以YouTube規(guī)模和用戶數(shù)量最大,在筆者進行文獻檢索時發(fā)現(xiàn),很多國外學者對影響視頻瀏覽量進行研究時,大都以YouTube平臺為主要研究對象。
Christoph Seehaus[9]提出視頻瀏覽量的大小跟視頻平臺直接掛鉤,Christoph Seehaus將YouTube熱門視頻數(shù)據(jù)與其他平臺視頻數(shù)據(jù)進行對比發(fā)現(xiàn),YouTube平臺上的視頻數(shù)據(jù)與傳統(tǒng)流媒體平臺視頻數(shù)據(jù)存在明顯差異.
Jung-Kuei Hsieh[10]同樣提到病毒式營銷的最新形式依賴于流媒體視頻技術(shù)的發(fā)展,Jung-Kuei Hsieh搜集了熱門視頻平臺相較于其他平臺的非主流功能,并探究其這些功能對瀏覽量的影響,發(fā)現(xiàn)了YouTube和谷歌Video等視頻分享網(wǎng)站的流行與功能的全面密不可分。而YouTube作為全球最大的視頻平臺,先進的交互性與觀感也成為了視頻瀏覽量的基礎(chǔ)保證。
Xu Cheng等人[11]同樣搜集到了YouTube熱門視頻的數(shù)據(jù),指出YouTube中的高播放基本分為兩個特點:高質(zhì)量與當代熱點。高質(zhì)量作為保證,之后考慮制作一些喜聞樂見的話題,例如:緋聞、當紅話題、冷門圈子的破圈等,原因便是此視頻都存在一定的觀眾基礎(chǔ)。
Nikki Serapio[12]在twitter加入視頻功能時搜集其數(shù)據(jù),分析了網(wǎng)絡(luò)視頻營銷的重要因素:一是視頻內(nèi)容質(zhì)量是視頻說服和視頻營銷成功與否的絕對前提;二是需要提供優(yōu)秀的視頻發(fā)布環(huán)境。
1.2.2? 國外評論文本分析相關(guān)研究
國外的評論文本的分析基本都是基于情感分類的研究,國外最常用的情感分類大多基于文本分類技術(shù)。
文本情感分類的本質(zhì)是對于給定文本進行判別,判斷出給定的文本為積極還是消極,因此可以將國外的評論文本分析視為一個分類問題,進而使用樸素貝葉斯,支持向量機等分類方法來解決。
Pang和Leel[13]是最早使用文本分類方法對文本的主客觀分類和情感分類進行研究,采用了大量機器學習的算法。例如最大熵、支持向量機、樸素貝葉斯等,由此可見機器學習在外文的文本分析方面,有著理想的應(yīng)用場景。
Ni[14]將情感分類轉(zhuǎn)為了二分類問題,利用CHI與信息增益進行特征選擇,并采用機器學習算法進行情感分類,并將多個分類器進行比較,篩選出了最優(yōu)化的模型,這使得結(jié)果在性能和問題的范圍上有了較大提升。
1.2.3? 國內(nèi)視頻瀏覽量影響因素相關(guān)研究
國內(nèi)的視頻出現(xiàn)時間稍晚于國外,并且當時處于3G與4G過渡的時代,在2015年4G普及的時期,網(wǎng)絡(luò)視頻模式才真正開始蓬勃發(fā)展,以至于對瀏覽量的研究多集中于運營研究。
陳子燕[15]搜集了網(wǎng)紅popi醬的視頻數(shù)據(jù),研究popi醬視頻運營的成功方法與傳播方式,認為增加瀏覽量的辦法是具有準確的定位以及專業(yè)的背景,例如保持一種風格的視頻效果、擁有扎實的基礎(chǔ)功底。
楊青松[16]搜集了短視頻平臺如:抖音、快手等熱門視頻數(shù)據(jù),從媒介融合的視角提出,視頻創(chuàng)作提高瀏覽量,存在兩種極端的方法,一種需要將思維放到更高的層面,以超出常人的風格與高質(zhì)量的素材制作視頻以此達到高播放的標準;另一種為簡化思維,用最平常的素材以流水線的方式與博人眼球的標題達到高瀏覽量的標準。
李玉玉[17]搜集了國內(nèi)各大視頻平臺內(nèi)的熱門評論與個人資料,最后認為,在視頻模式日益發(fā)達的今日,還存在著一種逆向思維--圖書與創(chuàng)作的視頻相結(jié)合,發(fā)現(xiàn)很多人物在知名之后都存在這出書的行為,將圖書與視頻模式結(jié)合起來,使其粉絲群體標簽性提高,從而達到增長瀏覽量的目的。
1.2.4? 國內(nèi)評論文本分析相關(guān)研究
國內(nèi)的評論文本的分析跟國外相同,基本都是基于情感分類的研究,而情感分類是近年來在計算機發(fā)展快速的今天一個受到廣泛關(guān)注的研究,其本質(zhì)是對文本內(nèi)容進行情感判別,判斷為積極還是消極。
目前,國內(nèi)的文本情感分類的方法主要有兩種,分別為基于文本分類技術(shù)的情感分類和使用記分函數(shù)的情感分類。
婁德成和姚天昉[18]搜集了300條新浪汽車論壇的主貼并進行手工標注感情,基于對漢語句子語義詞性,對文本分類技術(shù)進行研究,使用人工定義的方法來建立極性詞匯表,進而用于汽車評論文本的情感分析。使基于文本分類技術(shù)的情感分類方法領(lǐng)域更加精細。
劉冰在[19]基于對web數(shù)據(jù)研究,研究了記分函數(shù)的準確性問題,對記分函數(shù)進行了大量的實驗,使用了大量的基于記分函數(shù)的方法,例如支持向量機、樸素貝葉斯等,并嘗試使用詞語替代策略來提高函數(shù)的通用性,使函數(shù)的分類準確性提高。
1.2.5? 小結(jié)
國外學者對于視頻瀏覽量的研究則主要集中于平臺,并且運用較多的數(shù)據(jù)統(tǒng)計和分析,從技術(shù)層面進行定性定量分析,且注重于案例分析,更加看重數(shù)據(jù)的嚴謹性,更擅長以統(tǒng)計學的角度總結(jié)對瀏覽量的影響。
國內(nèi)學者對于視頻瀏覽量的研究主要集中在運營模式分析并提出相關(guān)策略,例如對于圖書類出版物視頻運營的研究主要集中在以單一圖書進行知名度推廣以此達到提升瀏覽量營銷策略這一點上,并未深入挖掘影響視頻瀏覽量影響因素的深層次內(nèi)容。國內(nèi)的研究影響瀏覽量的各種因素,方法更常用觀察法,即“提出問題—分析問題—解決問題”的思路,對比國外研究更加的細致。
國外學者和國內(nèi)學者對評論文本的研究大都集中于情感分類,而國外對于情感分類的方法在于基于情感詞匯的情感分類,而國內(nèi)基本為基于文本分類技術(shù)的情感分類和使用記分函數(shù)的情感分類??偟膩碚f,國內(nèi)外的評論文本研究大多到了成熟的階段,只是處理評論文本的方法略有不同。
1.3? 研究內(nèi)容與方法?
1.3.1? 研究內(nèi)容
本文數(shù)據(jù)來自于B站三位知識區(qū)UP主。本文將通過爬取UP主的視頻基本信息與個人信息作為原始數(shù)據(jù),并對原始數(shù)據(jù)進行預(yù)處理,之后構(gòu)建出衍生指標,并對指標進行可視化分析,之后構(gòu)建多元線性回歸模型,分析視頻瀏覽量的影響因素,歸納出能吸引用戶的視頻所應(yīng)具備的特點,為視頻平臺以及視頻制作者對如何提升瀏覽量提供參考與建議。具體的研究內(nèi)容如下:
(1)通過查閱文獻描述當前國內(nèi)外瀏覽量影響因素和對于評論文本分析的差別。
(2)對視頻的基本數(shù)據(jù)進行預(yù)處理,構(gòu)建衍生指標之后,對指標進行描述性分析,分析出各指標對于瀏覽量有何影響。
(3)構(gòu)建多元線性回歸模型,歸納出各變量對瀏覽量的影響因素。
(4)結(jié)合上述的工作,對如何提升瀏覽量這一問題,給出系統(tǒng)的建議與參考。
本文希望分析出對瀏覽量的影響因素有哪些,這樣不僅能為視頻平臺的運營帶來好的影響,也可以為視頻制作者提升自我價值有幫助。
具體流程如圖1-1所示:

(1)統(tǒng)計分析法:為使研究更加科學合理,從更全面的角度去發(fā)現(xiàn)、解決問題,本文在研究如何提升B站瀏覽量這一問題上,通過統(tǒng)計B站各大知識區(qū)知名UP主的視頻基本內(nèi)容與數(shù)據(jù),進行合理的數(shù)據(jù)清洗并進行建模分析,研究他們的視頻內(nèi)在模式。
(2)運用機器學習算法:本文采用多元線性回歸對瀏覽量進行預(yù)測,并研究影響因素,而多元線性回歸模型屬于傳統(tǒng)的機器學習算法。
1.4? 研究創(chuàng)新與不足?
1.4.1? 研究創(chuàng)新
本文的創(chuàng)新點如下:
(1)與當下環(huán)境相結(jié)合。在發(fā)展初期,知識區(qū)大多由海量的零碎知識組成,而在現(xiàn)在這些碎片被整合起來,形成了一個完整的系統(tǒng)。在這之前關(guān)于知識區(qū)如何提升瀏覽量這一問題文獻較少,所以如何對這些數(shù)據(jù)進行分析和利用成為了當下的熱點話題。而本文結(jié)合當下實時環(huán)境,為視頻制作者們增加用戶粘性,提供了有效的參考。
(2)具有可移植性。本文所構(gòu)建的基于B站知識區(qū)視頻瀏覽量預(yù)測模型和影響因素分析具有移植性。B站作為當今熱門視頻網(wǎng)站平臺,其視頻運作方式和其他很多視頻網(wǎng)站相似,其他視頻網(wǎng)站的制作者們也可以將本文的結(jié)論與建議作為參考。
1.4.2? 研究不足
本文研究不足如下:
(1)選取樣本較少。本文樣本只選取了知識區(qū)法律領(lǐng)域三位代表性的UP主的視頻,因此探究出影響瀏覽量因素的結(jié)果對非知名以及其他專業(yè)領(lǐng)域的UP主并不完全適用,需要因自身條件而加以改變。
(2)視頻模式局限。B站的短視頻模型并不發(fā)達,所選取UP主的視頻只有長視頻模式。對于在短視頻模式領(lǐng)域的視頻制作者并不太符合。
(3)指標不完善。本文選取指標只考慮B站知識區(qū)的數(shù)據(jù),對其他平臺并未爬取數(shù)據(jù)做出研究。

2? 相關(guān)理論與模型介紹(公式打不上去)
2.1? 評論文本分析方法?
2.1.1? 情感分析理論與模型介紹
情感分析是對判別文本中是否帶有情感色彩的一種方法。本章節(jié)將基于彈幕與評論數(shù)據(jù)進行情感分析,分析每個視頻在觀眾心目中的感情。
本文將彈幕與評論這類文本數(shù)據(jù)進行處理,進行評分。評分的方法將使用Python中的SnowNLP庫。以官方對SnowNLP庫的描述。SnowNLP是一個Python寫的類庫,可以對文本進行情感判別,由于自帶了數(shù)據(jù)集,所以可以直接導入庫并進行使用。
Python中的SnowNLP庫中,情感分類的基本模型為貝葉斯模型。對于有兩個類別c1和c2的分類問題來說,其特征為w1,…,wn特征之間是相互獨立的,屬于類別c1的貝葉斯模型的基本過程為:
其中:
SnowNLP庫中存在基于京東商品評論正負評價的數(shù)據(jù)集,并且會從文件中讀取每一行的文本,并對其進行情感分析并輸出最終的情感區(qū)間,情感區(qū)間在0-1之間,越接近0認為越消極。反之,越接近1認為越積極。
2.1.2? LDA主題模型和模型介紹
主題模型能自動將文本語料庫編碼為一組具有實質(zhì)性意義的類別,這些類別稱為主題,而主題模型最常用的便是隱含狄利克雷分布,一般稱為LDA主題模型。LDA主題模型最明顯的特征是可以將多個文檔自動分類為一定數(shù)量的主題。根據(jù)困惑度與一致度設(shè)定好主題個數(shù)之后,便會得到設(shè)定好的主題下面詞語的分布概率,以及每個主題所對應(yīng)的主題概率。
LDA主題模型采用詞袋模型的形式,即將一篇文章看為一個整體的詞頻向量,通常假設(shè)詞表大小為L,一個L維向量(1,0,0,…,1)表示一個詞。由N個詞語組成的評論文本記作d=(w1,w2,…,wn)
假設(shè)某一商品的評論集D由M篇評論構(gòu)成,記為D=(d1,d2,…,dn)。M條評論文本集分布著K個潛在主題,記為Zi(i=1,2,3,…,k)。q為主題在文檔中的多項分布的參數(shù),a和b為狄利克雷函數(shù)的先驗參數(shù),并且服從超參數(shù)為a的Dirichlet先驗分布,f為詞語在潛在主題中的多項分布參數(shù),并且服從超參數(shù)為b的Dirichlet先驗分布。最終公式為:
? ? ? ? ? ? ? ? ? ?(2-3)
其中P(wj|dj)代表詞語wi歸屬于第s個潛在主題的概率大小,P(z=s|dj)表示第 s個潛在主題在文本dj中的概率值。
2.2? 多元線性回歸預(yù)測模型
線性回歸模型本質(zhì)是利用線性擬合的方式探尋數(shù)據(jù)背后的規(guī)律,并根據(jù)特征變量來預(yù)測反應(yīng)變量。假設(shè)一個UP主有n個視頻,p個影響因素,每個視頻所對應(yīng)的瀏覽量用yi(i=1,2,3,...)表示,特征變量用xj(1,2,3,...) 表示,則可以用下列的公式表達。
? ? (2-4)
其中k1、k2、k3...則為這些特征變量前的系數(shù),εi為隨機誤差項。一般通過最小二乘法和梯度下降法來求解獲取合適的系數(shù),使得實際值與預(yù)測值平方和,也即是殘差平方和最小。公式即為:
其中為實際值,為預(yù)測值。
在搭建完一個模型后,還需要對模型進行評估,在本文中,選擇、和值來評估模型的好壞。其中、是用來衡量線性擬合的優(yōu)劣,值是用來衡量特征變量的顯著性。
其中的公式為:
? ? ? ? ? ? ? ??
其中SSR為殘差平方和,SST為解釋平方和。
對于一個模型來說,本質(zhì)上希望其實際值要盡可能的落在集合曲線上,對于來說越接近1模型擬合程度越好。
而是為了防止選取的特征變量過多而導致虛高所選取的評估方法。他在的基礎(chǔ)上考慮到了特征變量數(shù)量這一因素,其公式如下:
其中為樣本數(shù)量,為特征變量數(shù)量??梢钥吹酱藭r并不會因為特征數(shù)量的增多而使結(jié)果虛高。
對于值來說就是拒絕原假設(shè)所需的最低顯著性水平。值判斷的原則是:人工設(shè)定一個顯著水平,一般為0.5,如果值小于人工指定的,則拒絕原假設(shè),否則接受原假設(shè)。也即是值很小,拒絕,值很大,接受。本文閾值選擇0.05,當值小于0.05時,就認為特征變量與目標變量有顯著相關(guān)性。

3? 數(shù)據(jù)處理
3.1? 數(shù)據(jù)采集?
3.1.1? 數(shù)據(jù)來源與說明
本文數(shù)據(jù)來源于國內(nèi)視頻平臺bilibili網(wǎng)站,俗稱B站。本文選取了三位知識區(qū)法律領(lǐng)域代表性UP主,分別為“羅翔說刑法”“侯朝輝律師”“俏佳人xxx”?!傲_翔說刑法”為B站粉絲數(shù)最高的自由人UP主,“侯朝輝律師”視頻的更新頻率非常之快,“俏佳人xxx”在進入B站半年便達到百萬粉絲,漲粉速度在知識區(qū)這一領(lǐng)域非???,所以本章節(jié)選取這三位UP主作為數(shù)據(jù)來源。
爬取三位UP主基本信息與其視頻信息,如表3-1,表3-2所示。
表3-1? UP主基本信息
UP主名稱 粉絲量(單位:萬) 視頻數(shù)量
羅翔說刑法 2544.2 287
侯朝輝律師 57.7 1361
俏佳人xxx 256.3 49
表3-2? 視頻基本信息
變量名 詳細說明 取值范圍 變量類型
UP主名稱 三位UP主姓名 羅翔說刑法
侯朝輝律師
俏佳人xxx 文本變量
標題 每個視頻的標題 無 文本變量
瀏覽量 每個視頻的瀏覽量 1423-23890876 定量數(shù)據(jù)
視頻時長 視頻時長 00:04-75:17 時間數(shù)據(jù)
視頻發(fā)布日期 視頻發(fā)布到B站的日期 2020-6-10
-
2022-12-15
是否合作 視頻是否與其他UP主或官方合作 0:未合作
1:合作 定性數(shù)據(jù)
視頻簡介 視頻基本內(nèi)容 無 文本變量
點贊數(shù) 觀眾反饋 65-2812268 定量數(shù)據(jù)
硬幣數(shù) 0-1540945
收藏數(shù) 4-639221
轉(zhuǎn)發(fā)數(shù) 0-337822
彈幕數(shù) 1-242260
評論數(shù) 2-68822
在B站,存在著刪評機制。即是UP主發(fā)現(xiàn)言論不合理規(guī)范會刪除評論或彈幕的機制。所以在爬取具體評論和彈幕時,會出現(xiàn)所爬取數(shù)量略低于原本數(shù)量的情況。
在建立模型的章節(jié)將以瀏覽量作為因變量,衍生變量與個別原始變量作為自變量建立多元線性回歸模型。瀏覽量為本文要預(yù)測的變量,視頻時長、視頻發(fā)布日期可以說明視頻長短、存在時間對瀏覽量的影響,是否合作可以說明與其他UP主或官方合作對瀏覽量的影響,視頻簡介可以說明視頻的基本內(nèi)容,對于點贊數(shù)、硬幣數(shù)、收藏數(shù)、轉(zhuǎn)發(fā)數(shù)、彈幕數(shù)、評論數(shù)這種觀眾反饋,可以看出觀眾對視頻的喜愛程度。
3.2? 數(shù)據(jù)清洗
3.2.1? 異常值識別與處理
異常值指的是數(shù)據(jù)中過于明顯的偏離原樣本的其余觀測值的數(shù)據(jù)。圖3-1展示了三位UP主視頻對數(shù)瀏覽量的分布情況。可以看到其中存在一些異常值。

將圖3-1超出上下邊緣的點定為離群點,超出上下邊緣便認為是異常值,之后對異常值進行標記,然后返回其索引查看分布,如表3-3所示:
表3-3? 瀏覽量異常值分布表
UP主姓名 視頻總數(shù) 異常值數(shù)量
羅翔說刑法 287 3
侯朝輝律師 1361 16
俏佳人xxx 49 3
從表3-3可以看出:共計22個異常值,為確保后續(xù)建模的嚴謹性,將22個異常值刪除。

4? 構(gòu)建指標與描述性分析
4.1? 指標構(gòu)建
4.1.1? 生成情感得分
本文在3.2已經(jīng)對數(shù)據(jù)進行了基本的清洗,但像彈幕與評論為非結(jié)構(gòu)化數(shù)據(jù),不便進行建模,因此需要將非結(jié)構(gòu)化數(shù)據(jù)處理為結(jié)構(gòu)化數(shù)據(jù),本章節(jié)將對文本變量構(gòu)建指標,將每個視頻的彈幕與評論文本進行合并并計算情感評分,之后除以彈幕與評論數(shù)量取得平均值作為其視頻的最終結(jié)果。
本文使用SnowNLP庫對文本數(shù)據(jù)進行感情分析,為了提升分詞效果,對SnowNLP庫做出以下優(yōu)化:
(1)將SnowNLP分詞器切換為jieba分詞。
(2)將pos(積極文本)和neg(消極文本)替換為知網(wǎng)HowNet情感詞典。
通過上述兩點對SnowNLP模型進行優(yōu)化后對彈幕與評論進行情感分析,得到最終結(jié)果如圖4-1所示:

從圖4-1可以看出三位UP主的評分相差無幾,得分均值相近,且大都分布在0.6這一區(qū)域。說明知識區(qū)UP主的彈幕與評論對內(nèi)容的反饋相對正向,且態(tài)度比較集中。其次三位UP主的分散程度不一,“侯朝輝律師”最分散,“羅翔說刑法”與“俏佳人xxx”基本相同最為收緊??紤]到“侯朝輝律師”制作的視頻數(shù)量遠遠超過其他兩位UP主(見表3-3),該UP主評論和彈幕情感分分散可能與其需要大量制作視頻,對于部分視頻質(zhì)量把控不夠嚴格有關(guān),也可能與其視頻多討論熱點社會新聞、更易激起用戶情緒有關(guān)。本文后續(xù)將通過文本分析方法對此進行進一步探索。
4.1.2? 生成主題
在本章節(jié)將通過主題分析,進一步探究知識類視頻目標群體的興趣點與關(guān)注點。
由于文本數(shù)據(jù)較多,于是對彈幕評論這類非結(jié)構(gòu)化數(shù)據(jù)首先進行TF-IDF建模提取關(guān)鍵詞減少工作量,之后在關(guān)鍵詞的基礎(chǔ)上選取B站歷年熱門彈幕作為停詞表[20]構(gòu)建LDA主題模型。
以各個UP主合并后的彈幕與評論通過計算困惑度與一致度并進行可視化來確認主題個數(shù)。如圖4-2所示:

由于文本數(shù)量巨大,主題數(shù)越多困惑度越高,一致性越低,因此在本章節(jié)將主題個數(shù)人工指定為5。
確定了主題個數(shù)后,基于每個UP主的彈幕與評論文本進行LDA建模,結(jié)果如表4-1、表4-2、表4-3所示:
表4-1? 羅翔說刑法評論與彈幕主題
主題編號 主題 關(guān)鍵詞
主題一 風格主題 哈哈、刑法、犯罪、狂徒、法外、字幕、戰(zhàn)術(shù)、喜歡、狗頭、自由
主題二 流行詞匯 老師、張三、謝謝、DOGE、羅翔、感覺、世界、汪、我悟了、感謝
主題三 互動建議 BILIBILI、彈幕、視頻、辛苦、一種、建議、作業(yè)、義務(wù)、好家伙、學生
主題四 視頻內(nèi)容 學生、嗶哩、法律、乾杯、孩子、刑法、保護、哲學、好像、知識
主題五 討論內(nèi)容 動物、真的、直播間、道德、社會、正義、人類、真實、地方
表4-1展示了從UP主“羅翔說刑法”視頻評論與彈幕中提取的主題,其中中主題一和主題四展示了風格主題與視頻內(nèi)容,表明了“羅翔說刑法”具有良好的知識儲備與獨特的風格,制作出內(nèi)容優(yōu)秀的視頻是UP主最重要的素養(yǎng)。并且可以看出“羅翔說刑法”的視頻內(nèi)容大都為刑法案件,并且風格較為嚴肅。
其中主題二和主題三展示了流行詞匯與互動建議,表明“羅翔說刑法”的視頻有著良好的觀眾反饋,在彈幕的互動中例如:“DOGE”“BILIBILI”“我悟了”等詞語為表達感受時常用的網(wǎng)絡(luò)熱門詞,也有很多如:“辛苦”“謝謝”等與謝意和思考關(guān)聯(lián)的詞匯,說明“羅翔說刑法”的視頻深受觀眾喜愛,也說明了視頻與觀眾存在良好的互動反饋。
其中主題五展示了“羅翔說刑法”視頻的討論內(nèi)容,即是觀眾在觀看視頻時的討論情況,從關(guān)鍵詞可以看出都是一些正向的詞匯,例如:“道德”“正義”。說明“羅翔說刑法”的視頻討論內(nèi)容良好且為正向討論。
表4-2? 侯朝輝律師評論與彈幕主題
主題編號 主題 關(guān)鍵詞
主題一 視頻內(nèi)容 哈哈、好家伙、考古、老師、犯法、真的、中國、殺人、威懾、不算
主題二 其他 地方、熱乎、分鐘、500、日本、學校、肯定、錦旗、解鎖、皮膚
主題三 視頻建議 嘻嘻、內(nèi)行、直呼、律師、離譜、通刷、緊急、避險、法律、臥槽
主題四 所選主題 違法、每日、這是、美國、好事、犯罪、腦血栓、十年、老婆、上天
主題五 流行詞匯 DOGE、國家、死刑、監(jiān)獄、爺青結(jié)、孩子、隕石、正道、我要、建議
表4-2展示了從UP主“侯朝輝律師”視頻評論與彈幕中提取的主題,其中主題一與主題三展示了視頻內(nèi)容與視頻建議,說明“侯朝輝律師”的視頻內(nèi)容較為輕快,從關(guān)鍵字:“哈哈”“嘻嘻”可以看出無論是視頻內(nèi)容還是觀眾的反饋都以輕快的風格為主,也說明“侯朝輝律師”的視頻內(nèi)容有了自己獨特的風格。
其中主題四展示了所選主題,從關(guān)鍵字:“違法”“好事”“犯罪”等詞匯可以看出“侯朝輝律師”視頻所選用的主題非常寬泛,并不像“羅翔說刑法”主要以刑法案件為主,說明“侯朝輝律師”的視頻更多以社會事件為主體。
其中主題五展示了流行詞匯,關(guān)鍵詞有許多B站的熱門詞語,說明“侯朝輝律師”視頻的觀眾反饋良好,這也同樣說明了觀眾對“侯朝輝律師”視頻的喜歡。
表4-3? 俏佳人xxx評論與彈幕主題
主題編號 主題 關(guān)鍵詞
主題一 視頻風格 唐哥、救命、UP、鋤禾日當午、耳釘、客家人、視頻、道理、臥槽、發(fā)現(xiàn)
主題二 視頻內(nèi)容 坐牢、張律師、嬉皮笑臉、朋友、小唐、眼鏡、小何、干嘛、可愛、離譜
主題三 流行詞匯 DOGE、、BUSHI、真的、地方、張三、省流、喜歡、封面、救贖、法律
主題四 生活內(nèi)容 哈哈哈、俏佳人、律政、好帥、真實、活動、康哥、表情、生活
主題五 幽默風趣 臥槽、老師、律師、好像、羅翔、感覺、實踐、法師、老板、不行
表4-3中展示了從UP主““俏佳人xxx””視頻評論與彈幕中提取的主題,其中主題一展示了視頻風格,其中關(guān)鍵詞:“唐哥”,為“俏佳人xxx”的口頭禪,他用幽默風趣的音調(diào)說出這句口頭禪,已經(jīng)深入粉絲的內(nèi)心,說明“俏佳人xxx”的視頻以形成了幽默風趣的風格。
其中主題二展示了視頻內(nèi)容,說明“俏佳人xxx”的法律視頻講解較少,多數(shù)以生活為主。原因為關(guān)鍵字并無太多法律相關(guān)內(nèi)容,反而生活方面居多,說明“俏佳人xxx”雖然為律師但是更多是分享生活趣事。
其中主題三展示了流向詞匯,從關(guān)鍵詞可以看出與其他兩位UP主情況基本一樣,觀眾反饋良好。
其中主題四展示了生活內(nèi)容,從關(guān)鍵詞:“俏佳人”“律政”“生活”可以看出,“俏佳人xxx”的視頻更多的是生活視頻,這與主題二的分析一致。
其中主題五展示了幽默風趣,例如關(guān)鍵詞:“法師”,指的是學法的律師。從這些詞匯中可以體會到“俏佳人xxx”視頻的風趣幽默。
從三位UP主的主題分析中可以看出,三位雖然都是知識區(qū)法律領(lǐng)域UP主,但視頻內(nèi)容并不相同,“羅翔說刑法”的視頻內(nèi)容為刑法,“侯朝輝律師”的視頻內(nèi)容多種多樣,涉及考古、犯罪等內(nèi)容,“俏佳人xxx”的視頻內(nèi)容更多的是生活內(nèi)容。但三位UP主的主題都存在“流行詞匯”這一主題,說明三位UP主的視頻都深受觀眾的喜歡。
建立完成LDA主題模型后,根據(jù)模型結(jié)果生成各視頻在每個主題上的得分,以每個主題所對應(yīng)的每個UP主的每條視頻中彈幕與評論文本中出現(xiàn)的次數(shù),除以該UP主每條視頻的彈幕與評論的總數(shù)量,做為該視頻的主題得分。其結(jié)果如圖4-3所示:

從圖4-3可以看出,“羅翔說刑法”的主題二與主題四得分非常高,所對應(yīng)的為流行詞匯與視頻內(nèi)容,“羅翔說刑法”視頻中存在著很多對刑事案件的故事,“羅翔說刑法”會用較多流行詞匯去修飾,例如犯人的名字永遠是張三,為嚴肅的視頻增添了一絲幽默的色彩,而視頻內(nèi)容得益于“羅翔說刑法”的知識量與經(jīng)驗,使視頻內(nèi)容更加豐富。
“侯朝輝律師”五個主題得分都非常平均,原因分析為“侯朝輝律師”的視頻多以社會日常熱點為主導致內(nèi)容不一,并且更新頻率過快,便造成了主題得分基本相同的結(jié)果。
但也說明了“侯朝輝律師”視頻無論是視頻內(nèi)容還是其他都很全面。
“俏佳人xxx”的主題四與主題五得分很高,所對應(yīng)的為生活內(nèi)容與風趣幽默,說明“俏佳人xxx”的視頻內(nèi)容多為生活內(nèi)容視頻,并且幽默風趣,說明“俏佳人xxx”對于知識類視頻,更喜歡發(fā)布幽默風趣的生活類視頻。
4.1.3? 生成其他衍生變量
原始數(shù)據(jù)中存在著一些結(jié)構(gòu)化變量,但并不是適合直接放入模型中,因此在考慮這些結(jié)構(gòu)化數(shù)據(jù)中,需要進行一些基本處理和構(gòu)建衍生變量。
(1)構(gòu)建比率衍生變量
用戶發(fā)彈幕、留評論等行為表明了其被內(nèi)容引發(fā)了交流的需要,有更多這類行為的視頻一般更有可能受到更廣泛的歡迎,從而獲得更多的瀏覽量。但是彈幕數(shù)、評論數(shù)等原始變量隨瀏覽量逐步增長,無法支持視頻上線早期作為預(yù)測其后期瀏覽量的要求。如果假定會引發(fā)用戶交流需求的視頻無論是在上線后的哪個時間段都會以相似的程度引發(fā)用戶的交流需求,那么可以將彈幕數(shù)、評論數(shù)等絕對量指標,轉(zhuǎn)化為彈幕率、評論率等相對數(shù)指標,這樣就可以用視頻上線早期的這些相對數(shù)指標來預(yù)測其后期的瀏覽量。具體的處理方法是,彈幕率等于彈幕數(shù)除以瀏覽量;其他涉及到類似處理的指標還有點贊、硬幣、收藏、轉(zhuǎn)發(fā)、評論。
(2)轉(zhuǎn)換時間變量格式
視頻上線后每天都會被觀眾播放,所以瀏覽量也會受到上線時長的影響。根據(jù)視頻發(fā)布日期計算視頻上線距今的時間,單位為日。原始數(shù)據(jù)中視頻時長的格式為“分:秒”,為后續(xù)建模方便,將其轉(zhuǎn)化為“秒”。
(3)編碼
原始數(shù)據(jù)中存在變量的數(shù)據(jù)只有幾個類別,例如:是否合作只存在兩種類別,是代表本視頻與其他UP主合作發(fā)表,否代表本視頻由自己單獨發(fā)表,將此變量用0-1定性數(shù)據(jù)進行代替,0代表本視頻單獨發(fā)表,1代表本視頻合作發(fā)表。如表4-4所示:
表4-4? 編碼表
變量名稱 變量名稱 衍生變量
是否合作 類別分類 0=否,1=是
4.1.4? 指標構(gòu)建工作小結(jié)
在4-1章節(jié)構(gòu)建了衍生變量,將文本類非數(shù)據(jù)化結(jié)構(gòu)進行情感得分和確認主題,轉(zhuǎn)化為了結(jié)構(gòu)化數(shù)據(jù)。之后將觀眾反饋類數(shù)據(jù),如:彈幕數(shù)、評論數(shù)。進行處理轉(zhuǎn)化為了比率,再將時間格式類變量經(jīng)過計算轉(zhuǎn)化為數(shù)值型數(shù)據(jù),最后將少數(shù)類別變量用0-1代替,轉(zhuǎn)變?yōu)榱硕ㄐ宰兞?。具體數(shù)據(jù)說明如表4-5所示:
表4-5? 數(shù)據(jù)說明表
變量分類 變量名 變量說明 取值范圍
因變量 對數(shù)瀏覽量 視頻瀏覽量的對數(shù) 7.2-16.99
自變量:視頻屬性 粉絲量 三位UP主粉絲數(shù)量 羅翔說刑法:2544.2萬
侯朝輝律師:57.5萬
俏佳人xxx:256.3萬
視頻時長 視頻總時長,單位:秒 4-13027
視頻發(fā)布日期 視頻發(fā)布距今時長,單位:天 151021
是否合作 0:非合作視頻
1:合作視頻 0 羅翔說刑法:233
侯朝輝律師:1346
俏佳人xxx:44
1 羅翔說刑法:54
侯朝輝律師:1
俏佳人xxx:3
自變量:視頻互動 點贊率 每種互動量除以視頻瀏覽量后得到 點贊率:30.65-973183.78
硬幣率:0-533243.16
收藏率:1.87-222958.97
轉(zhuǎn)發(fā)率:0-116903.11
彈幕率:0.43-85494.73
評論率:0-23815.82
硬幣率
收藏率
轉(zhuǎn)發(fā)率
彈幕率
評論率
自變量:彈幕與評論信息 彈幕評論情感分 范圍為0-1,越接近1越積極,越接近0越消極 羅翔說刑法:0.491-0.685
侯朝輝律師:0.571-0.772
俏佳人xxx:0.519-0.656
羅翔說刑法:主題一-風格主題
每個主題關(guān)鍵詞在對應(yīng)UP主彈幕、評論文本中占總數(shù)比重 0.012-0.195
羅翔說刑法:主題二-流行詞匯 0.207-0.034
羅翔說刑法:主題三-互動建議 0.004-0.009
羅翔說刑法:主題四-視頻內(nèi)容 0.019-0.034
羅翔說刑法:主題五-討論內(nèi)容 0.009-0.022
侯朝輝律師:主題一-視頻內(nèi)容 0.003-0.006
侯朝輝律師:主題二-其他 0.001-0.010
侯朝輝律師:主題三-視頻建議 0.004-0.009
侯朝輝律師:主題四-所選主題 0.003-0.009
侯朝輝律師:主題五-流行詞匯 0.006-0.020
俏佳人xxx:主題一-視頻風格 0.008-0.026
俏佳人xxx:主題二-視頻內(nèi)容 0.023-0.039
俏佳人xxx:主題三-流行詞匯 0.013-0.015
俏佳人xxx:主題四-生活內(nèi)容 0.022-0.053
俏佳人xxx:主題五-幽默風趣 0.030-0.053
4.2? 描述性分析
本章節(jié)主要對所爬取的三位UP主的基本信息與觀眾反饋部分進行可視化,加強信息傳遞效率,通過圖像可視化進行分析,使繁多的數(shù)據(jù)更容易吸收和掌握信息,從而分析出各個UP主之間對提高瀏覽量的各種方法。
所選用的三位UP主分別為:“羅翔說刑法”“侯朝輝律師”“俏佳人xxx”。“羅翔說刑法”為B站粉絲量最高的自由人,“侯朝輝律師”在知識區(qū)有著超高的視頻數(shù)量,“俏佳人xxx”以幽默風趣的風格在B站僅以半年的時間便達到了250w的粉絲量,三位UP主在知識區(qū)都具有代表性的力量。
4.2.1? 基本信息
由于瀏覽量的大小會根據(jù)UP主自身的因素而改變,例如:UP主本身的粉絲量越多,相對應(yīng)的瀏覽量也會越高。并且瀏覽量會根據(jù)UP主每個視頻本身的因素而改變,例如:視頻時長、彈幕率、評論率、點贊率等。所以本章節(jié)將所選取的三位代表性UP主的基本信息進行可視化分析,探究其分布與意義。

通過圖4-4可以看出:所展示的是三位UP主的粉絲量對比圖,可以看出“羅翔說刑法”的粉絲量較其他兩位UP主壓倒性的高。但結(jié)合圖3-1,其視頻瀏覽量與其他兩位UP主相比卻沒有什么懸殊的差別,說明粉絲量并不是決定瀏覽量高低的原因?!扒渭讶藊xx”和“侯朝輝律師”分別以幽默風趣的風格和高度的更新頻率的彌補了自身粉絲數(shù)的劣勢,證明了粉絲數(shù)并不是高瀏覽量的關(guān)鍵之一觀點。

從圖4-5可以看出:“羅翔說刑法”的視頻時長要高于其他兩位UP主,“侯朝輝律師”與“俏佳人xxx”的視頻多以“短視頻”的形式為主。

從圖4-6可以看出:“羅翔說刑法”的彈幕率和評論率都很可觀,說明“羅翔說刑法”的視頻互動性很高,“侯朝輝律師”彈幕率不高但是評論率很高,“俏佳人xxx”無論彈幕率還是評論率相比其他UP主都較低,說明視頻的互動性不高。

從圖4-7可以看出:“羅翔說刑法”和“俏佳人xxx”的所有屬性都很可觀,說明“羅翔說刑法”和“俏佳人xxx”的視頻質(zhì)量很高,而“侯朝輝律師”只有點贊率很高,說明在視頻質(zhì)量方面并不如其他兩位UP主。
4.2.2? 影響因素
在探討了UP主與視頻本身的基本因素后,將瀏覽量作為本文的研究目的,對其他變量與瀏覽量之間進行可視化分析,分析其對瀏覽量的影響因素。

從圖4-8可以看出:“侯朝輝律師”與“俏佳人xxx”在最開始的時候瀏覽量都會較低,但隨著時間的推移瀏覽量會迎來一次高峰期。但對于“羅翔說刑法”這樣本身就很有知名度的UP主來說,最開始便會有很高的瀏覽量,之后隨著時間的推移慢慢趨于穩(wěn)定。于是得出結(jié)論,瀏覽量隨著時間的推移會越來越高,但并不是絕對的,還與UP主本身的知名度有關(guān)。

從圖4-9可以看出:三位UP主視頻時長在小于10分鐘時瀏覽量相比其他時間瀏覽量最高,說明“短視頻”模式下的瀏覽量要比“長視頻”模式要高。因此UP主在制作視頻時可以控制視頻時長在10分鐘以內(nèi)。

從圖4-10可以看出:三位UP主的合作視頻瀏覽量都低于未合作視頻。在觀看了與其他人合作所制作的視頻中,多數(shù)與討論當代熱點事件為主??梢钥闯鯱P主為了配合其他合作UP主,會以一種更加嚴肅的態(tài)度去對待,而取消了自己以往的風格,所以在UP主制作視頻中,保持自己一直以來的風格更加的重要。
4.2.3? 視頻內(nèi)容
探討了基本信息與對瀏覽量的影響因素后得知,視頻內(nèi)容對瀏覽量存在著影響,因此本章節(jié)對三位UP主的視頻簡介進行分詞,在分詞結(jié)果中去除三位UP主共有的高頻詞,然后分別繪制每個UP主特有高頻詞根的詞云圖,如圖4-11~4-13所示,以探索每個UP主視頻內(nèi)容方面的特色。



? ? ? ? ?圖4-13? 俏佳人xxx視頻簡介特有高頻詞詞云圖
從圖4-11可以看出:“羅翔說刑法”的視頻,主要所講為犯罪、法律等,這也與UP主本身的專業(yè)知識過硬有關(guān),并且在詞云圖上方存在“聊聊”,“講講”字樣,說明“羅翔說刑法”的視頻內(nèi)容有很多的刑事案件,視頻風格非常嚴肅。
從圖4-12可以看出,在詞云圖中間有“違法”案件,結(jié)合整張詞云圖可以看出“侯朝輝律師”的視頻大多講一些生活中的違法案件,視頻風格比起“羅翔說刑法”的風格更加隨和一點。
從圖4-13可以看出:“俏佳人xxx”的視頻比起那些社會案件,“俏佳人xxx”更喜歡講一些生活內(nèi)容,詞云圖中存在“考研”“離譜”“工作”等字樣,可以風格并沒有像“羅翔說刑法”的嚴肅,而是更加輕松幽默。
總結(jié)三位UP主的視頻簡介,可以得出為了提升瀏覽量,需要自身專業(yè)知識過硬,還可以討論當今社會的主題,并且自身的視頻并不需要太過嚴肅,在保證視頻質(zhì)量的前提下,可以使用幽默風趣的風格來制作視頻。

5? 瀏覽量預(yù)測模型
5.1? 多元線性回歸模型建立與檢驗
5.1.1? 建立多元線性回歸模型
將數(shù)據(jù)進行拆分,分為訓練集與測試集,拆分比例為7:3,并基于訓練集建立模型。
本章節(jié)將瀏覽量取對數(shù)作為因變量,由于三個UP主粉絲基數(shù)不同,所以對應(yīng)的點贊率、收藏率等相差較大,所以點贊率、收藏率、投幣率、轉(zhuǎn)發(fā)率、評論率、彈幕率6個范圍將相差太大,故本章節(jié)對此6個變量進行對數(shù)變換。
在確立模型公式后進一步輸出回歸模型的參數(shù)顯著性時發(fā)現(xiàn)模型型存在明顯的多重共線性?;诒?-5建立模型,并通過逐步回歸的方法進行變量選擇,模型結(jié)果如表5-1所示:
表5-1? 回歸模型結(jié)果
變量分類 自變量 回歸系數(shù) P值
自變量:視頻互動 對數(shù)(點贊率) 0.0002 0.000
對數(shù)(硬幣率) 0.0002 0.000
對數(shù)(彈幕率) -0.0001 0.007
對數(shù)(評論率) 0.0009 0.000
對數(shù)(收藏率) 0.0003 0.000
對數(shù)(分享率) 0.0006 0.000
自變量:視頻屬性 視頻發(fā)布日期 0.0011 0.000
彈幕評分 1.2765 0.012
視頻時長 -0.0002 0.002
自變量:彈幕與評論信息 羅翔說刑法:主題一-風格主題 285.8677 0.000
侯朝輝律師:主題四-所選主題 -398.2261 0.000
侯朝輝律師:主題一-視頻內(nèi)容 291.4233 0.000
羅翔說刑法:主題二-流行詞匯 180.6107 0.017
羅翔說刑法:主題四-視頻內(nèi)容 116.4044 0.000
俏佳人xxx:主題二-視頻內(nèi)容 245.0950 0.000
侯朝輝律師:主題二-其他 760.9112 0.000
侯朝輝律師:主題三-視頻建議 -138.1983 0.476
俏佳人xxx:主題一-視頻風格 -101.9911 0.108
R2:0.711
Adj.R2:0.708
Prob (F-statistic):0.000
基于表5-1所示模型檢驗可知,由于數(shù)據(jù)量較小,僅達到0.711。為了防止變量過多過擬合,查看達到了0.708,說明模型擬合的程度一般,但在此數(shù)據(jù)量的條件下結(jié)果也可接受,檢驗的值為0,說明模型整體顯著。
對訓練集和測試集計算均絕對百分比誤差(MAPE)查看擬合優(yōu)劣。經(jīng)過計算,測試集的MAPE值為32.11%,訓練集的MAPE值為31.95%,說明模型的擬合一般,但也在可以接受的誤差之內(nèi)。
5.2? 模型解讀與應(yīng)用
5.2.1? 模型解讀
本章節(jié)將0.05作為閾值,當值小于0.05時認為自變量與因變量具有顯著相關(guān)性。從表5-1可以得出
(1)點贊率、硬幣率、收藏率、分享率、評論率都是正相關(guān)且顯著,說明這些變量越高瀏覽量越高。而彈幕率為負相關(guān)的原因可能是B站的收益與瀏覽量掛鉤,但卻不會收到彈幕數(shù)量的影響,考慮到B站必須通過入站考試成為會員才可以發(fā)彈幕,所以彈幕率系數(shù)為負可能是受到了B站機制的影響。
(2)由于三位UP主的視頻都是與法律有關(guān),彈幕評分為正相關(guān)且顯著,說明良好的評論氛圍會影響到瀏覽量的高低,彈幕越積極,瀏覽量越高。這也側(cè)面說明了良好的觀眾反饋是高瀏覽量的基礎(chǔ)。
(3)視頻越早發(fā)布,瀏覽量越高。由于時間的積累,瀏覽量會越來越高,例如一些社會熱度時間,在過了時間段熱度便會下降,所以視頻需要趕在社會熱點的時間段內(nèi)發(fā)布。
(4)視頻時長越短,瀏覽量越高。視頻時長為負相關(guān)且顯著,說明“短視頻”模式更受觀眾的喜愛,所以UP主為了瀏覽量可以將自身視頻模式往短視頻的風格上改變。
(5)視頻主題越明確,瀏覽量越高。主題得分幾乎都是正相關(guān)且顯著,說明視頻主題越明確,瀏覽量越高,例如:“羅翔說刑法”主題四得分正相關(guān)且顯著,說明視頻內(nèi)容主題得分越高,也即是內(nèi)容越優(yōu)質(zhì),視頻瀏覽量越高。
5.2.2? 模型應(yīng)用
本章節(jié)將結(jié)合模型結(jié)果給出應(yīng)用,具體說明如下:
? (1)互動。觀眾反饋是非常重要的數(shù)據(jù),所以與觀眾互動是必不可少的環(huán)節(jié)。在了解B站的機制后,UP主在評論區(qū)頂置自己或評論區(qū)熱門評論來增加互動性。對于彈幕來說可以設(shè)置彈幕提問,觀眾在互動之后會自動發(fā)送彈幕。也可以制作片頭片尾,暗示觀眾點贊投幣收藏轉(zhuǎn)發(fā)。
(2)作者本身。視頻作者的視頻受眾需要分清,對于B站而言大多是青少年群體,所以視頻風格與話題也要符合青少年口味。在觀眾關(guān)注UP主之后可以設(shè)置自動提醒,這樣觀眾能夠在作者發(fā)布新視頻時收到提醒,因此作者的粉絲數(shù)目越多,瀏覽量越高,創(chuàng)建的視頻越容易獲得更多關(guān)注度。但并不意味著UP主越“勤勞”,創(chuàng)建的視頻瀏覽量就會越高,例如樣本中“侯朝輝律師”總共投稿1300余條視頻,但瀏覽量遠遠不如只發(fā)了半年視頻的“俏佳人xxx”,所以頻繁投稿最終只會適得其反,所以視頻需要沉淀,需要掌握投放時機,不能因為過于看重頻率而忽視了質(zhì)量。因此對于UP主,應(yīng)該努力增加自己的粉絲數(shù),提高質(zhì)量,盡量控制投稿數(shù)。
(3)視頻本身?!傲_翔說刑法”作為B站粉絲數(shù)最高的自由人,其瀏覽量也是非??捎^,但是“羅翔說刑法”是憑借過人的專業(yè)知識與先前上課積累的人氣才有了今天的爆火。對于普通的UP主而言,一個好的視頻風格和話題對提升瀏覽量有很大的作用。以“俏佳人xxx”為例,幽默風趣的視頻風格吸引了很多人的關(guān)注,在半年的時間粉絲量便達到了100萬。B站的用戶大部分是青少年,所以對于這一類關(guān)注社會的群體來說,當今社會的熱門話題便有了討論的良好環(huán)境。以“侯朝輝律師”為例。熱門話題永遠是視頻的核心,加上自身的專業(yè)知識,在B站的知識區(qū)受到了廣大的好評。
(4)發(fā)布時間。互聯(lián)網(wǎng)的記憶是短暫的,很多視頻的內(nèi)容都是當下的實時熱點相關(guān)的內(nèi)容,所以需要發(fā)布時間先不要在熱點事件的時間段內(nèi)發(fā)布,越早越好。
(5)視頻時長。B站雖然是以長視頻為主的視頻網(wǎng)站,但在當下快節(jié)奏的社會中,“短視頻”的快餐模式更適合增加瀏覽量,所以在制作視頻時最好控制視頻時長,以“短視頻”為主。
(6)平臺。對于平臺來說,可以根據(jù)UP主的各項數(shù)據(jù)進行資源傾斜。例如:某UP主近日瀏覽量增加,但點贊數(shù)、硬幣數(shù)等卻在下降,有可能該UP主陷入了輿論風波,可以減少對其的資源投入。對于一些中小型UP主,根據(jù)近期的數(shù)據(jù)趨勢可以判斷為是否為新興UP主,對于新興UP主可以進行適當資源傾斜。

6? 總結(jié)、建議與展望
6.1? 主要總結(jié)
本文利用B站知識區(qū)三位代表性UP主數(shù)據(jù)作為原始數(shù)據(jù);首先對原始數(shù)據(jù)進行異常值處理;之后構(gòu)建衍生變量,進行情感分析與LDA建模;然后通過繪制箱線圖來查看數(shù)據(jù)基本信息的分布,之后繪制直方圖與折線圖查看變量對瀏覽量之間的關(guān)系,最后對樣本數(shù)據(jù)構(gòu)建多元線性回歸尋找深層次規(guī)律,查看模型擬合程度,探尋出高瀏覽量視頻所應(yīng)具備的特點,為平臺以及UP主提供提高瀏覽量的對策與建議。
所得主要結(jié)論如下:
(1)觀眾反饋。三位UP主基本信息的共同特點為:觀眾反饋都很可觀,例如:評論率。
(2)發(fā)布日期。視頻發(fā)布日期并不會隨著時間推移無限增加,但大體來說越早發(fā)布瀏覽量越高。
(3)視頻時長。對于視頻時長來說,短視頻的模式要比長視頻的模式瀏覽量更高。
(4)視頻風格。輕快的視頻風格更迎合觀眾的口味。
(5)視頻質(zhì)量。高質(zhì)量視頻瀏覽量更高。
(6)視頻合作。未合作的視頻要比合作的視頻瀏覽量高。
(7)平臺。根據(jù)UP主各項數(shù)據(jù)制定合適的活動或計劃。
6.2? 主要建議
通過上述主要結(jié)論和結(jié)合平臺實際狀況,主要給出以下建議:
(1)良好的觀眾反饋。與觀眾保持著良好的互動是高瀏覽量的基礎(chǔ)。三位UP的共同特點便是觀眾反饋的數(shù)值都很高,例如:評論率。
(2)發(fā)布日期需要結(jié)合當時熱點事件。互聯(lián)網(wǎng)的記憶是短暫的,很多視頻的內(nèi)容都是當下的實時熱點相關(guān)的內(nèi)容,所以需要發(fā)布時間先不要在熱點事件的時間段內(nèi)發(fā)布,并且越早越好。
(3)視頻時長。本文發(fā)現(xiàn)視頻長短會影響瀏覽量的變化,“短視頻”模式下瀏覽量更高,因此在制作視頻時可以控制視頻長度,縮短視頻時長。
(4)視頻風格。在制作視頻時可以變換自己的風格,使視頻變得幽默風趣。
(5)視頻質(zhì)量。“羅翔說刑法”之所以可以擁有如此高的瀏覽量視頻,其中最大的原因便是高質(zhì)量的視頻,所以UP主需要努力提升自己的專業(yè)知識,制作高質(zhì)量視頻。
(6)視頻合作。對于擁有知名度UP主來說,本文發(fā)現(xiàn)未合作的視頻要比合作的視頻瀏覽量高,并不會像想象中增加瀏覽量,因此在有了粉絲基礎(chǔ)的前提下,單獨發(fā)布視頻是較好的選擇。
(7)平臺。對于大型UP主探究其近期的各項數(shù)據(jù),如有較大變化判斷是否為良性變化,如若為良性便加大資源投入,反之減少。對于中小型UP主,查看近期各項數(shù)據(jù)趨勢,如有增長明顯則判斷為新興UP主,加大資源傾斜。
6.3? 研究展望
知識永遠是最可靠的朋友,由于B站知識區(qū)的建立時間較短,本文也存在著一些不足與展望,期待未來知識區(qū)可以更加繁榮。
研究展望:
(1)本文數(shù)據(jù)來源于B站,并未選取其他平臺網(wǎng)站的,雖然國內(nèi)的視頻網(wǎng)站盈利模式與內(nèi)容基本相同,但結(jié)論移植到其他平臺還是會存在些許差異,未來將研究更多的視頻網(wǎng)站填充不足。
(2)本文選取了B站三位知名UP主,其都存在深厚的粉絲基礎(chǔ),對于其他中小微型的UP主參考有限,未來會研究更多的UP主,對其進行更加細致的分類。
(3)本文所選用的三位UP主都來自知識區(qū)法律領(lǐng)域,對其他知識領(lǐng)域的UP主并未做出分析,其他領(lǐng)域的UP主在參考本文時準確率會下降,未來會將更多領(lǐng)域的UP主進行分析,使本文更加全面。

參考文獻
[1]萬苗苗.期望確認模型視角下社交化網(wǎng)絡(luò)學習平臺持續(xù)使用意愿研究[D].廣東外語外貿(mào)大學,2019
[2]劉洋.后疫情時代泛娛樂視頻網(wǎng)站盈利模式評價及優(yōu)化策略研究——以嗶哩嗶哩為例[C].鄭州:中國學術(shù)期刊電子雜志社,2022:51~55
[3]韋力涵.高傳播力視頻特征研究—基于B站高傳播力視頻數(shù)據(jù)分析[A].中國互聯(lián)網(wǎng)絡(luò)信息中心.中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[C].江西高效出版社,2022
[4]李根強,于博祥,邵鵬等.網(wǎng)絡(luò)嵌入視角下B站科普視頻擴散的影響因素研究[D].新鄉(xiāng)醫(yī)學院管理學院,2022.
[5]飛魚.2019-2020中國文娛行業(yè)發(fā)展現(xiàn)狀及前景分析[J/OL].一艾媒咨詢,2022.https://www.iimedia.cn/c1020/70577.html.
[6]蕭勛燦,鐘純宜,宋倬君等.B站優(yōu)質(zhì)線上教育視頻瀏覽量影響因子的多維度分析[D].佛山科學技術(shù)出版,2022
[7]陳明紅,黃嘉樂,方世深等.彈幕視頻瀏覽量影響因素與組態(tài)效應(yīng)[D].河南財經(jīng)政法大學,2021-06
[8]繆依桐.主流媒體B站賬號的傳播策略研究[D].吉林大學,2017
[9]Christoph Seehaus.You Tube Video marketing[J].US Asset Appraisal, 2018.8(15):79~102
[10]Jung-Kuei Hsieh.Exploring the disseminating behaviors of eWOM marketing persuasion in online video[J].LLC,2012.12(7):114~118
[11]Xu Cheng.Understanding the Characteristics of Internet Short Video Sharing: A YouTube-Based Measurement Study[D].ACM,2018
[12]Nikki Serapio.Designing for Video Engagement on Social Networks : AVideo Marketing Case Study[D].ACM,2021
[13]Pang B, Lee L, Vaithyanathan S. Thumbs UP?: sentiment classification using machinelearning techniques[C]||Proceedings of the ACL-02 conference on Empirical methods in natural language processing -Volume 10.Association for Computational Linguistics,2002: 79-86.
[14]Ni X, Xue G, Ling X, et al.Exploring in the weblog space by detecting informative and affective articles[C]||Proceedings of the 16th international conference on World Wide Web. ACM,2007: 281-290.
[15]陳子燕.視頻網(wǎng)站的商業(yè)視頻研究[D].百度文庫,2014
[16]楊青松.基于移動短視頻的出版物推廣和運營模式研究[D].北京印刷學院,2020
[17]李玉玉.在線評論對網(wǎng)絡(luò)產(chǎn)品銷量的影響研究——基于評論數(shù)量、評分與評論情感的實證分析[D].重慶大學出版社,2020
[18]婁德成,姚天.漢語句子語義詞性分析和觀點方法的研究[J].計算機應(yīng)用,2006.70(4):2622~2625
[19]劉冰.Web數(shù)據(jù)挖掘:探索超鏈接內(nèi)容和使用數(shù)據(jù)[D].美國學術(shù)出版社.2003
[20]李露萍.囍”至“爺青回”:從2017-2020年B站年度彈幕探析青年亞文化的認同與發(fā)展[J].江西青年職業(yè)學院,2021,51-52