回歸樹模型分析紀(jì)錄片播放量影響因素|數(shù)據(jù)分享
原文鏈接:http://tecdat.cn/?p=26131?
原文出處:拓端數(shù)據(jù)部落公眾號
紀(jì)錄片能夠真實、詳盡地反映一個地區(qū)的風(fēng)貌,展示經(jīng)濟(jì)發(fā)展和社會進(jìn)步。2018年,紀(jì)錄片發(fā)展迅猛,出現(xiàn)了幾部大熱作品,加之BBC紀(jì)錄片造假的輿論導(dǎo)向,讓人們對紀(jì)錄片更加關(guān)注。本文所用的紀(jì)錄片數(shù)據(jù)來自嗶哩嗶哩網(wǎng)站,是目前主流視頻網(wǎng)站上最豐富、最接近的數(shù)據(jù)來源。
數(shù)字特征和文本特征相結(jié)合,分析影響播放量的因素。采用回歸樹模型分析自變量對播放量的影響。
紀(jì)錄片播放量分布
視頻播放量是檢驗視頻質(zhì)量和視頻熱度的一個直觀媒介。內(nèi)容質(zhì)量高、話題性強(qiáng)的視頻自然會引起廣泛關(guān)注。對于沒有與平臺簽約的UP主來說,通過視頻創(chuàng)作激勵計劃和獎勵機(jī)制(充值計劃),播放量與他們的收入直接掛鉤。探討影響紀(jì)錄片播放量的因素,有助于更好地理解如何提高紀(jì)錄片視頻的關(guān)注度,以及如何更好地創(chuàng)作出令人愉悅的自制微紀(jì)錄片。
紀(jì)錄片的播放量與它的內(nèi)容主題有關(guān),有些主題很受歡迎,有些則很小眾。不同的人有不同的興趣點,會體現(xiàn)在彈幕、金幣、分享等指標(biāo)上,所以不同類別下的紀(jì)錄片分布也會有所不同。

為了便于觀察,圖中只顯示了播放量低于7000的紀(jì)錄片。從圖中可以看出,四類紀(jì)錄片的播放量分布存在明顯差異,人文●歷史類紀(jì)錄片的播放量總體上高于其余三類,且呈右偏態(tài)(數(shù)據(jù)集中的所有定量變量都是右偏態(tài)的)。軍事類和社會食品類紀(jì)錄片的分布則比較接近。旅游類紀(jì)錄片的分布比較接近,總的來說,四類紀(jì)錄片的播放量差異很大,因此不能用同一個模型進(jìn)行分析。有必要對參數(shù)進(jìn)行區(qū)分,并對每個類別下的紀(jì)錄片進(jìn)行不同的分析。
紀(jì)錄片高頻詞特點
以下是對各個紀(jì)實分類下的文本的詞頻特征的分析。嗶哩嗶哩網(wǎng)站上最相關(guān)的紀(jì)錄片細(xì)分類別是社會和旅游類,該類別的紀(jì)錄片文本的高頻詞比較生活化。下圖是對該細(xì)分領(lǐng)域的紀(jì)錄片視頻文本進(jìn)行細(xì)分過濾后得到的高頻詞的詞頻圖。

圖中顯示了社會和旅游紀(jì)錄片文本中的12個高頻詞。其中,"旅游 "以1118次排名第一,與 "旅游 "相關(guān)的 "旅游 "和 "旅游攝影 "分別排名第4和第6位。"食品 "以1111次排名第二,與 "食品 "相關(guān)的 "食品 "排名第11。"人文 "以607次排名第五,而與之相關(guān)的 "紀(jì)錄片 "則排名第八。
此外,"中國"、"日本 "和 "世界 "的出現(xiàn)頻率也很高。文字是由UP主編輯的,目的是讓用戶更好地理解視頻內(nèi)容,國家類高頻詞的出現(xiàn)表明,紀(jì)錄片內(nèi)容發(fā)生的國家是觀眾決定是否觀看視頻的重要決定。
詞頻分析顯示了高頻詞在紀(jì)錄片中的分布情況,但不能僅根據(jù)詞頻給出紀(jì)錄片的選擇建議。
播放量的影響因素分析
接下來,我們研究變量對播放量的影響?;貧w樹模型被用來確定自變量對播放量的影響程度。
對回歸樹進(jìn)行模擬,在RMSE折線圖的拐點處確定最優(yōu)的樹深為7,葉子節(jié)點的最小樣本數(shù)設(shè)為25,分支節(jié)點的最小數(shù)量設(shè)為50。
進(jìn)行十折交叉驗證,建立回歸樹,下圖為回歸樹的模型結(jié)構(gòu)。

在圖中,觀察葉子節(jié)點的框線圖可以發(fā)現(xiàn),大部分紀(jì)錄片的播放量都很低,這些紀(jì)錄片位于樹狀圖的左側(cè),其判別變量是評論數(shù)和彈幕數(shù)。樹狀圖的最右邊的葉子節(jié)點劃分了具有高播放量的紀(jì)錄片,其判別變量是評論數(shù)和彈出窗口數(shù),其次是相鄰的左邊葉子節(jié)點,其父節(jié)點有評論數(shù)、彈出窗口數(shù)和硬幣數(shù)的分類變量。因此,與播放次數(shù)密切相關(guān)的變量是彈幕數(shù)、評論數(shù)和金幣數(shù),它們對高播放次數(shù)的影響更大。從右側(cè)的葉子節(jié)點可以看出,如果評論數(shù)、彈幕數(shù)和金幣數(shù)越高,那么播放量也就越高。在建立回歸樹模型時,自變量的重要性依次為:評論數(shù)(44)、彈幕數(shù)(18)、金幣數(shù)(17)、分享數(shù)(8)、粉絲數(shù)(6)、收藏數(shù)(6)和提交數(shù)(1)。最重要的變量是觀眾與紀(jì)錄片視頻和UP主之間的互動程度,UP主在制作視頻和選擇能產(chǎn)生強(qiáng)烈互動的內(nèi)容材料時,可以考慮到這一點。但是,這一點比較主觀,沒有量化的調(diào)整方案,也無法控制,無法確認(rèn)所選的主題素材是否會帶來高數(shù)量的評論和彈幕。
本文章中的所有信息(包括但不限于分析、預(yù)測、建議、數(shù)據(jù)、圖表等內(nèi)容)僅供參考,拓端數(shù)據(jù)(tecdat)不因文章的全部或部分內(nèi)容產(chǎn)生的或因本文章而引致的任何損失承擔(dān)任何責(zé)任。

最受歡迎的見解
1.從決策樹模型看員工為什么離職
2.R語言基于樹的方法:決策樹,隨機(jī)森林
3.python中使用scikit-learn和pandas決策樹
4.機(jī)器學(xué)習(xí):在SAS中運行隨機(jī)森林?jǐn)?shù)據(jù)分析報告
5.R語言用隨機(jī)森林和文本挖掘提高航空公司客戶滿意度
6.機(jī)器學(xué)習(xí)助推快時尚精準(zhǔn)銷售時間序列
7.用機(jī)器學(xué)習(xí)識別不斷變化的股市狀況——隱馬爾可夫模型的應(yīng)用
8.python機(jī)器學(xué)習(xí):推薦系統(tǒng)實現(xiàn)(以矩陣分解來協(xié)同過濾)
9.python中用pytorch機(jī)器學(xué)習(xí)分類預(yù)測銀行客戶流失